SEWM 2007 中文web检索评测报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 二次排序
针对不同的查询任务采取不同策略 – HP
查找主页首先要进行网页站点聚类,每个网站取出若干根据规 则得到的主页后选页面,然后按照title: body=4:1重新评分,进行 排序
– NP
不进行二次排序
– TD
首先要进行网页站点聚类,每个网站取出根据规则得到的候选 页面,然后按照title: body=1:4重新评分,进行排序
第五届全国搜索引擎和网上信息挖掘学术研讨会
SEWM 2007 中文web检索评测报告
整理课件
➢ 评测目标 ➢ 系统设计 ➢ 实验结果 ➢ 未来工作
内容提纲
整理课件
评测目标
➢主题提取(TD)
• 查找主题相关的关键资源的入口
➢导航搜索 (HPNP)
• HP 查找指定名字的网站的首页 • NP 查找指定名字的页面
• 链接关系分析 • 锚文本的利用 • 检索模型的更新
总结和未来工作
整理课件
整理课件
整理课件
• RUN1
– firtex工具
• RUN2
– 用tiபைடு நூலகம்le和body检索
• RUN3
– 只用title进行检索
整理课件
提交结果
• 操作系统 redhat9.0 • 系统配置
– 2.8G CPU ,内存4G
• 编程语言 java
实验环境
整理课件
• 网页结构提取
– 网页分块 – 字体大小、文字样式 – 词的位置关系
– 一般可以按照网页的检索评分得到结果 – 查询任务和网页的title基本一致
整理课件
CWT200g
解压缩
分析网页
查询任务分析
分词
TD/HPNP
预处理
建立索引
系统设计
初次排序结果
检索
二次检索
整理课件
系统设计
• 分析网页
– 去掉冗余信息,只保留title和body的标签内容
• 分词
– 北大天网提供的CHSeg分词程序
整理课件
TD 任务分析
• 不能按照网页相似度大小来判断 站点是从一组相关网页的入口 网页深度一般不会大于4
主题提取
整理课件
导航搜索
导航搜索 (HPNP)
• 主页查找
– 检索返回的相关网页可能只来源于某几个网站 – 主页大部分是以“/”结尾,或者结尾包含“index”,
“default”单词
• 指定页面查找
• 统计词频
整理课件
• 查询分析
– 手动判断,分开HP和NP查询
– 对查询进行分词,统计词频
• 索引和检索
– 开源lucene
– 对提取的title和body建立索引
– 检索中运用向量模型
– 权重计算公式
tfi, j idfi
W( ti, dj)=
(tfi, j idfi )2
整理课件
系统设计
相关文档
最新文档