向量空间模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• • • • • • • • •
name=Types of Consistent Gets.txt 单词个数是:784 词频0 行数是:5 文本的空间向量值0.0 path=D:\file\what is love.txt absolutepath=D:\file\what is love.txt name=what is love.txt 单词个数是:1005 词频0 行数是:6 文本的空间向量值0.0 path=D:\file\What is Oracle Apps (ERP).txt
向量空间模型
• 查询出来的文件个数 • 查询词的频率 • 文件夹中含有查询词的文件的单词个数处 理为文件长度 • 含有查询词的文件个数 • 根据上述的查询结果计算查询词与文档相 似度 参考公式:
文件个数 9 目录 D:\file目录的大小为:12.49K 总共花费时间为:93毫秒... 文件夹 path=D:\file\and.txt absolutepath=D:\file\and.txt name=and.txt 单词个数是:106 词频0 行数是:1 文本的空间向量值 NaN
• • • • • • •
path=D:\file\thankfulday.txt absolutepath=D:\file\thankfulday.txt name=thankfulday.txt 单词个数是:260 词频4 行数是:2 文本的空间向量值1.0 path=D:\file\think for teacher .txt absolutepath=D:\file\think for teacher .txt • name=think for teacher .txt • 单词个数是:274 词频0
absolutepath=D:\file\Wh at is Oracle Apps (ERP).txt name=What is Oracle Apps (ERP).txt 单词个数是:1943 词频 0 行数是:7 文本的空间 向量值0.0 0
• path=D:\file\what ungraduate should do.txt • absolutepath=D:\file\what ungraduate should do.txt • name=what ungraduate should do.txt • 单词个数是:2136 词频
• • • • • • • •
Biblioteka Baidu
行数是:8 文本的空间向量值0.0 path=D:\file\yu.txt absolutepath=D:\file\yu.txt name=yu.txt 单词个数是:2225 词频0 行数是:9 文本的空间向量值0.0 含有查询词总文档数1 ok
• path=D:\file\Tuning Consistent Gets.txt • absolutepath=D:\file\Tuning Consistent Gets.txt • name=Tuning Consistent Gets.txt • 单词个数是:379 词频0 • 行数是:4 文本的空间向量值0.0 • path=D:\file\Types of Consistent Gets.txt • absolutepath=D:\file\Types of Consistent Gets.txt