信息检索技术现状、发展和未来

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1988
Karen Spärck 概率检索模型的提出者之一。20世纪70-80年代与Robertson一起 Jones 建 立 了 信 息 检 索 的 RSJ 概 率 框 架 。 首 次 提 出 了 “ IDF” 的 概 念 (1972)。和Robertson一起给出了二值独立模型(BIM)的主要 基础理论(1976)。
– 第一届TREC(Text REtrieval Conference)标准评测会 议举办(1992)
• 新闻报纸语料,部分政府文档,图wenku.baidu.com资料;压缩后2G
F. W. Lancaster, 1979
发展阶段1——数字图书馆时代
• 里程碑(国际):Salton奖的颁发情况
1983 Salton 现代信息检索的奠基人, 20 世纪 60 年代开发出信息检索系统 SMART 。 1975 年提出了著名的向量空间模型以及词项权重模型 TF-IDF
– 文本的聚类、分类、文摘、推荐、翻译、信息抽取、 自然语言问答、话题跟踪与检测等技术纳入搜索引 擎框架
发展阶段2—— 早期互联网阶段
• 评价(国际)
– 开始细分和探索不同的检索任务的评价方法
• 通用Web搜索:主题提取任务/站点导航任务 • 新信息查询 • 检索的鲁棒性 • 问答,自动文摘,话题检测与跟踪
– 概率模型
• RSJ model (Robertson & Sparck Jones,1976) • BM25(Robertson et al., 1994)
发展阶段1 —— 数字图书馆时代
• 评价
– Cranfield评价体系(Cleverdon,1950’s) – 关注“relevance” (F. W. Lancaster, 1979 )
发展阶段1 —— 数字图书馆时代
• 技术:草创时期
– 数据库查询 自由文本的全文检索 – 倒排索引技术 – 词频与权重(term significance)
Frequency/Informativity
• Luhn 1957 • 后来发展出TFIDF权重计算方法
LUHN, H.P., 'A statistical approach to mechanised encoding and searching of library information', IBM Journal of Research and Development, 1, 309-317 (1957).
发展阶段2—— 早期互联网阶段
• 里程碑:第一代搜索引擎
– 国外的第一代搜索引擎出现
• AltaVista, Excite, WebCrawler, Yahoo!
– 中国搜索引擎也开始快速发展
• 天罗:1996年,中国第一个网上中英文信息检索导航工具,后面向国防 和安全领域应用 • 天网:1997年10月开始向公众提供服务 2004年时天网索引的信息资源除已经 超过3亿的网页外,还包括2000多万各 种非网页类型的文件。 在系统功能上,除提供关键词和短语 检索外,还有自动网页分类目录。
– 开始组织国内的中文信息检索评测
• 2003年开始组织中文Web信息检索评测SEWM
• 2003年,第一次评测,设立中文网页分类 • 2004年,第一次中文网页搜索评测,包括主题提取和导航搜索, CWT100g
– 2003,2004,2005年组织3次863计划信息检索评测
发展阶段2—— 早期互联网阶段
• 里程碑:Salton奖的颁发情况
概率检索模型的提出者之一。 20 世纪 70 和 80 年代和另一位 Salton 奖得主 Jones 一起建立了信 息检索的概率框架。和Jones 一起给出了二值独立模型(BIM 的主要基础理论(1976)。 20 世纪 90 年代 在 Okapi 信息检 索系统上实现了 著名的 Okapi BM25检索模型,这一模型被广泛的应用于现代检索系统中。
– 发展阶段2:早期互联网时代 —— ?
信息检索
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆/文档电子化时代 —— 对文档全文内容的快速检索 – 发展阶段2: 早期互联网时代
• 世界上第一个网页 http://www.w3.org/History/19921103hypertext/hypertext/WWW/ThePro ject.html
frequency
informativity
123…
Rank
Used by Luhn for term significance
发展阶段1 —— 数字图书馆时代
• 技术:检索模型
– 集合论模型
• Boolean models (e.g. Lancaster et al., 1973)
– 代数模型
• Vector Space models (e.g. Salton et al., 1983)
发展阶段2—— 早期互联网时代
• 技术:扩展
– 概率模型得到发展
• Language Model (e.g. Croft et al., 1998)
– 排序学习方法的兴起
• RankSVM (Joachims et al, 2003), RankBoost(Yoav Freund, et al 2003) • 其后还逐渐发展出了ListMLE, ListNet, SVMMAP等排序学习方法
1991 Cyril Cleverdon 在20世纪60年代完成了著名的Cranfield项目,对信息检索的评价 方法以及自动索引构建的方式做出了卓越的贡献。 1994 William Cooper 信息检索中引入概率的先驱。
1997 Tefko Saracevic 是情报学社会传播派的主要代表人之一,对信息检索系统的测 试和评估,尤其是信息检索中的人机交互等方面做出了突出的 贡献。
信息检索与内容安全专业委员会集体讨论稿
信息检索技术的发展—— 过去、现在和未来
信息检索
• 信息检索:
– 从数据中找到与用户需求相匹配的内容
• 信息检索的发展
– 紧随着用户需求的发展与变化 – 随着信息技术的爆炸式发展而产生质的飞跃 – 在不同的发展阶段遵循不同的商业模式
Figure Copyright by TREC
及相关改进:计算与实现,效率,并行化,topic-sensitive PageRank,…
• TrustRank (Z. Gyongyi,2004) • 利用anchor text
发展阶段2——早期互联网时代
• 技术:提高
– 开始理解用户查询,并初步细分检索任务
• 导航类、信息类、事务类 (Broder,2002) • Homepage/Site finding (主页/站点导航任务)(S. E. Robertson,2000) • Topic Distillation(主题提取任务)(K. Bharat, M. R. Henzinger, 1998)
发展阶段1—— 数字图书馆时代
• 需求
对文档全文内容的快速检索
1945: Vannevar Bush’s article “As we may think” 目标:未来人们能够实现对海量图书 资源(1M)进行快速的访问 “A library of a million volumes could be compressed into one end of a desk… …It may be consulted with exceeding speed and flexibility.”
发展阶段1——数字图书馆时代
• 应用形态
– 封闭数据集合 – 单机模式或专网内的主机-终端模式
• 商业模式
– 软件/解决方案提供 – 专网内的查询服务提供
信息检索发展
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆时代 —— 对文档全文内容的快速检索
– Web数据质量研究受到重视
• “Does authority means quliaty”(B. Amento et al, 2000) • 搜索引擎的挑战性问题(Henzinger et al, 2003)(Singhal, 2005) • 反垃圾(作弊)研究(Z. Gyongyi,2004 )
"Relevance is the correspondence in context between an information requirement statement ... and an article (a document), that is, the extent to which the article covers the material that is appropriate to the requirement statement."
发展阶段2—— 早期互联网应用
• 里程碑:第二代搜索引擎
– Google 1998成立,于2000年9月推出中文搜索服务 – 中文搜索引擎百度创建
• 2000年1月创建 • 2001年08月发布Baidu搜索引擎Beta版 • 2001年10月22日 正式发布Baidu搜索引擎
– 多家中文搜索引擎公司相继出现,中文检索服务开始繁荣
2000
Stephen Robertson
长期致力于信息检索的研究,对信息检索领域做出卓越贡献 将贝叶斯网络引入信息检索中(1989,1991),将统计语言 建模的方法引入到信息检索中(1998),其对于贝叶斯网络 2003 W. Bruce Croft 以及语言模型的理论发展和应用做出的贡献在信息检索领域 是至关重要的。 另外,其建立的智能信息检索中心使得信息检索的基础研究 和实际应用能够很好的相互促进。
发展阶段2—— 早期互联网时代
• 需求
– 超出人们预想的海量网页资源 – 被链接连接起来的文档和网络
• 超链接文本(Hyper-text) • 链接(Links) • 网络(Connected Web)
– 1994,World Wide Web Consortium founded;第 一届WWW会议召开
– 开始探讨大规模Web数据的评价方法
• TREC 1999年开始设立Web Track; 2004年设立了Terabyte Track • 评测标准数据规模越来越大
– WT10g数据:2000年,1,692,096 个网页,10G规模 – WT100g数据:1999年,18.5Million 个网页 ,100G规模 – .Gov数据: 2002年,12, 477, 53个网页,18G规模 – .Gov2数据:2004年,25,205,179个网页, 0.42T规模
发展阶段1——数字图书馆时代
• 里程碑(国内):748工程
– 1985年,开始开展新闻资料检索的研究 – 1989年,研制出第一套基于关键词标引的新闻资料检索系 统 – 1992年,研制出基于我国第一套中文全文检索系统 – 1993年,开发商业化全文检索系统TRS – 1997年,获得国家科技进步二等奖
• 中搜(2003年12月23日),搜狗(2004年8月3日) • 搜搜(2006年3月),有道(2006年12月)
发展阶段2—— 早期互联网阶段
• 里程碑:国内学术动态
– 2003年,第一届全国搜索引擎和网上信息挖掘学术研讨会召开
• 同时举行了第一届SEWM评测,设立中文网页分类测试任务
– 2004年,第一届全国信息检索与内容安全学术会议召开
发展阶段2——早期互联网时代
• 技术:基本功能
– 数据获取技术:爬虫技术 – 大规模数据索引及检索 – 链接分析技术
• 超链接文本分析(Botafogo,1992) • 利用节点的入度、出度 • HITS(Kleinberg, 1997) • PageRank (S. Brin and L. Page,1998)
发展阶段2——早期互联网阶段
• 评价(国内)
– 国内大学和研究机构开始参加国际检索评测
• 2000年起开始参加TREC的英文及跨语言检索评测 • 2001年起开始参加NTCIR-2的中文信息检索及跨语言检索评测 • 2003年起开始参加DUC评测 • 2004年开始参加KDD-cup评测,以及TDT评测
相关文档
最新文档