SEWM 2007 中文web检索评测报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 二次排序
针对不同的查询任务采取不同策略 – HP
查找主页首先要进行网页站点聚类,每个网站取出若干根据规则得到的主页后选页面,然后按照title: body=4:1重新评分,进行排序
– NP
不进行二次排序
– TD
首先要进行网页站点聚类,每个网站取出根据规则得到的候选页面,然后按照title: body=1:4重新评分,进行排序
第五届全国搜索引擎和网上信息挖掘学术研讨会
SEWM 2007 中文web检索评测报告
整理课件
➢ 评测目标 ➢ 系统设计 ➢ 实验结果 ➢ 未来工作
内容提纲
整理课件
评测目标
➢主题提取（TD）
• 查找主题相关的关键资源的入口
➢导航搜索 (HPNP)
• HP 查找指定名字的网站的首页 • NP 查找指定名字的页面
• 链接关系分析 • 锚文本的利用 • 检索模型的更新
总结和未来工作
整理课件
整理课件
整理课件
• RUN1
– firtex工具
• RUN2
– 用tiபைடு நூலகம்le和body检索
• RUN3
– 只用title进行检索
整理课件
提交结果
• 操作系统 redhat9.0 • 系统配置
– 2.8G CPU ,内存4G
• 编程语言 java
实验环境
整理课件
• 网页结构提取
– 网页分块 – 字体大小、文字样式 – 词的位置关系
– 一般可以按照网页的检索评分得到结果 – 查询任务和网页的title基本一致
整理课件
CWT200g
解压缩
分析网页
查询任务分析
分词
TD/HPNP
预处理
建立索引
系统设计
初次排序结果
检索
二次检索
整理课件
系统设计
• 分析网页
– 去掉冗余信息,只保留title和body的标签内容
• 分词
– 北大天网提供的CHSeg分词程序
整理课件
TD 任务分析
• 不能按照网页相似度大小来判断站点是从一组相关网页的入口网页深度一般不会大于4
主题提取
整理课件
导航搜索
导航搜索 (HPNP)
• 主页查找
– 检索返回的相关网页可能只来源于某几个网站 – 主页大部分是以“/”结尾，或者结尾包含“index”，
“default”单词
• 指定页面查找
• 统计词频
整理课件
• 查询分析
– 手动判断,分开HP和NP查询
– 对查询进行分词,统计词频
• 索引和检索
– 开源lucene
– 对提取的title和body建立索引
– 检索中运用向量模型
– 权重计算公式
tfi, j idfi
W( ti, dj)=
(tfi, j idfi )2
整理课件
系统设计