现代信息检索ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代信息检索
陆铭
66134922 richard.lu@ /
一、 引言
课程概况 研究历史和现状 学科框架 基本概念
2
1. 课程概况(About the course)
设课目的
市场发展的需求 用户需要信息检索技术
互联网的信息量太大,寻找信息非常不容易
11
一些重要的工具
Lemur:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写 Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发
12
2. 研究历史和现状
历史分段:
报告、电子邮件、来往公函 ... 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重
标引是主观的
标引者之间不一致, 经验统计表明标引者之间仅20% 相同 作者与标引者之间、检索者与用户之间不一致
5
信息检索的问题
语言问题
一词多意
Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems?
英国剑桥大学SparckJones (1935-2007)
概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL终身成就奖和Salton奖
22
2. 国际著名研究机构和代表人物
美国UMassCIIR W. B. Croft,ACM Fellow
基于统计语言建模IR模型的提出者和倡导者 和CMU共同开发了Lemur工具 Salton奖得主
课程论文
按发表要求写作,课程结束,论文录用
成绩构成
平时成绩:课堂演讲讨论与1篇小论文,30% 考试:1篇课程论文(约5000字),70%
9
1. 课程概况——参考书籍及文献
详见教学大纲
Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 王知津等译. 现代信息检索技术.机械工业出版社,2005 苏新宁. 信息检索理论与技术. 科学技术文献出版社,2004 焦玉英.信息检索进展,科学出版社,2003
15
2. 研究历史和现状——Internet出现以后
1986年Internet正式形成。
1990’s第一个网络搜索工具:1990年加拿大蒙 特利尔大学开发的FTP搜索工具Archie。 第一个WEB搜索引擎:
1994年美国CMU开发的Lycos。 1995斯坦福大学博士生开发Yahoo。 1998斯坦福大学博士生开发的Google,提出PageRank 计算公式。 1998年基于语言模型的IR模型提出。
来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》
4
信息检索的问题
信息超载
信息太多, 需要过滤 检索结果垃圾太多, 有害信息太多
查找非结构信息有困难
多数数据库在结构化字段上工作 多数商业信息是非结构化的.
林培光等,面向Web的个性化语义信息检索技术,中国财政经
济出版社,2009 解虹,数字化环境下交互式信息检索,机械工业出版社,2010
于天恩,迅速搭建全文搜索平台,清华大学出版社,2007
10
1. 课程概况——参考书籍及文献
第一章 引言
吴慰慈. 网络环境下信息存储与检索技术的发展. 四川图书馆学报,2003,(01) 王知津; 李明珍.十年来我国信息检索研究述评. 现代图书情报技术,2004,(12) 焦玉英. 网络环境中信息检索理论与实践的发展. 图书情报知识,2001,(01)
7
1. 课程概况——课程内容体系
引言
课程概况,研究历史和现状,学科框架,相关概念
检索理论
IR模型的形式化表示和类型,经典模型 检索语言,互操作,自然语言、本体论
文本检索
经典、现代文本处理和全文文本处理,分类和聚合
网络检索
网络检索、 PageRank和HITS算法
信息自动处理和系统评价
可视化、自动文摘、评价
数字化信息量举例
音乐作品(莫扎特):约100MB 报纸(华尔街杂志):100MB/年(文本) 卡片目录(美国国会图书馆):17GB 广播(WABC) :270GB/年(未经压缩) 网络论坛(Netnews):300GB/年 地区图书馆(加州大学图书馆):1.4TB(图书扫描版) Internet出版(WWW):1997年约4TB 电视(CNN新闻):1GB/1小时, 6TB/年(经压缩) 录像带出租(Blockbuster Video):9TB 科研图书馆(美国会图书馆):全部图书馆数字化20TB
20
2. 研究历史和现状
1990年代的其他重要事件:
评测会议
NIST:机器翻译自动评测指标
文本检索会议TREC(Text Retrieval Conference )
21
2. 国际著名研究机构和代表人物
美国康奈尔大学Salton(1927-1995)
现代信息检索的奠基人 SMART的完成人 第一任Salton奖得主,ACM Fellow
一意多词
car, automobile, vehicle, sedan, horseless carriage...
6
1. 课程概况(About the course)
课程性质
图书馆学研究生的必修课程
课程内容
本课程的教学目的是培养学生了解信息检索工具 的基本原理和技术,使学生能够进行较深层的研究 或应用开发 本课程不是一门讲授使用信息检索方法的课程, 本课程是研究信息检索的技术实现的一门基础课程
美国CMU 美国UIUC 微软研究院 IBM研究院 Google研究院
24
2. 一些活跃的华裔学者
加拿大蒙特利尔大学聂建云教授
跨语言检索 IR模型
美国UIUC ChengxiangZhai博士
IR模型
美国CMU YimingYang教授
文本分类
台湾中研院简立峰
号称“中文搜索”第一人 加入Google研究院
复旦大学计算机系
文本过滤、音频视频检索 黄萱菁
30
2. 研究历史和现状—国内2000~2006
中国科学院计算技术研究所
文本自动分类2001,2002 文本检索:2002,2003,2004,2006 知识网格:2002,2004 白硕
北京大学信息管理系
图像检索 文本检索 赖茂生,黄崑,马张华
31
2. 研究历史和现状
南京农业大学信息管理系 中文信息自动分类
侯汉清
32
2. 一些重要的会议
国际会议:
SIGIR、ACL、WWW、SIGKDD CIKM、ICML TREC AIRS
国内会议:
全国信息检索及内容安全学术会议(2年一届) 全国计算语言学联合会议(2年一届)
33
2. 一些重要的期刊
国际
ACM Transactions on Information Systems(TOIS) ACM Transactions on Asian Language Information Processing(TALIP) Information Processing & Management(IP&M) Information Retrieval
国内
中文信息学报 情报学报
34
2. 国内重要期刊2000-2006
情报杂志
现代图书情报技术
86
81
情报探索 科技情报开发与经济
22 17
情报学报
情报科学 现代情报 图书情报工作 情报理论与实践
67
64 57 47 49
图书馆理论与实践
图书馆学研究
16
15
图书情报知识
18
2. 研究历史和现状
2000’s以来的其他重要事件: 多媒体IR,Image,Video,Audio and music, 跨语言IR,DARPA Tides,文本摘要,DUC 评测
19
2. 研究历史和现状
国际著名研究机构和代表人物—— 康奈尔大学的Salton领导的研究小组是该领 域研究的佼佼者。伦敦城市大学的 Robertson及剑桥大学的SparckJones是概率 模型的倡导者。 美国W. B. Croft,ACM Fellow:基于统计 语言建模IR模型的提出者和倡导者和CMU共 同开发了Lemur工具
公司需要信息检索技术
信息检索技术可以创造利润,搜索引擎改变了很多传统na、 Sohu都加入到搜索技术的竞争
人才的竞争
搜索的技术人才出现缺口
2000年的网络和现在的互联网有什么不同,搜索引擎在 其中占什么位置?
3
焦玉英,刘伟成
28
2. 研究历史和现状—国内2000~2006
中山大学信息管理系
网络信息过滤:2002,2003,2004,2005 黄晓斌, 邱明辉
南京大学信息管理系
文本信息检索 杨建林
29
2. 研究历史和现状—国内2000~2006
清华大学计算机科学与技术系
文本自动分类,自动文摘:2001~2006 陈群秀
25
2. 研究历史和现状
国内一些活跃的研究机构——
软件端
北京大学,复旦大学,清华大学,哈尔滨工业大学, 中科院计算所,中科院软件所,中科院自动化所
应用端
武汉大学,南京大学,北京大学
26
2. 研究历史和现状—国内2000~2006,CNKI
武汉大学信息管理学院
南京大学信息管理系 中山大学信息管理系
90年代的其他重要事件:
推荐系统的出现: Ringo,Amazon,NetPerceptions
文本分类和聚类的使用: 信息抽取:Whizbang
17
2. 研究历史和现状
2000’s的重要事件
文本检索会议TREC(Text Retrieval Conference )的发展 问答系统评测专项Q/A track(Question Answering Track) 2001年,成立。3221 21
清华大学计算机科学与技术系
复旦大学计算机科学系 中国科学院计算技术研究所 北京大学信息管理系 南京农业大学信息管理系 华中师范大学信息管理系 上海交通大学计算机系
17
16 15 14 11 10 10
27
2. 研究历史和现状—国内2000~2006
武汉大学信息管理学院
网络信息检索:2002,2004 情报检索模型理论:2001,2004,2006 信息过滤:2002,2006 文本知识的自动分类:2003
多媒体检索
模型与语言,标引与检索,并行与分布式检索
数字图书馆
OPAC,文献模型、表达与存取,元数据,云数据库检索技能
8
1. 课程概况(About the course)
授课方式
自学与课堂讨论相结合 课堂讲述和课后练习相结合
讲授内容既包含传统内容,也注意吸收最新研究成果 既考虑入门,也兼顾研究
考核方式
计算机出现以前
计算机出现以后 Internet出现以后
13
2. 研究历史和现状——计算机出现以前
约4000年前,人类就开始有目的地组织信 息,一个典型的例子就是图书中的目录。 随后,逐渐出现索引的概念,即从一些词 和概念指向相关信息或者文档的“指针”。 计算机问世以前,人们主要通过手工方式 来建立索引。
英国Glasgow大学Rijsbergen,ACM Fellow
信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决IR问题 Salton奖得主
英国微软剑桥研究院、伦敦城市大学Robertson
概率检索模型的倡导者 开发了OKAPI Salton奖得主
23
2. 国际著名研究机构和代表人物
14
2. 研究历史和现状 ——计算机出现以后
1948年C. N. Mooers在其MIT硕士论文中第一次 使用了“Information Retrieval”这个术语。 1960-70年代在建立文摘检索系统中,产生了布 尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model) 1980年代出现商用数据库检索系统:Dialog, ORBIT, MEDLINE
相关文档
最新文档