lecture1-booleanretrieval信息检索导论王斌课件第1章
信息检索概论PPT课件
期刊
Chun,Lu,and n, “Dynamic Analysis of Clamped Laminated Curved Panels” Composite Structures 30.4. (1995):389-396
ISSN 的含义(International Standard Serial Number)
第一章 信息检索概论
内容简介
1.1 信息素养教育 1.2 文献信息的基本概念 1.3 文献信息的类型与特点 1.4文献信息的分布规律
1.1信息素养
Information Literacy
也称信息素质或信息文化,是全球一体化、 全球信息化大环境下需要人们具备的一种基本能 力。
信息素养这一概念是美国信息产业协会主席保 罗·泽考斯基(Paul Zurkowski)于1974年在提 出的。
【实例】在《EBSCO》数据库的期刊论文著录格式如下: China Investment:Which Way To Profit? By: Wang Yong ; Chen Wen.Beijing Review,11/6/2003,Vol.46 Issue 45,p10,4p, 1c;(AN 11588866)
3.图书类型 阅读用书:包括教科书、专著、文集等。 参考工具书:是供人们释疑解难、翻检查考的出
版物。
【实例】《中国大百科全书》、《四库全书》、 《古今图书集成》、《大英百科全书》
检索用书: 是以图书形式刊行的书目、题录、文 摘等,是供人们查找一定范围内信息线索的出版 物。
【实例】《四库全书总目提要》、《中国国家书 目》、《全国总书目》、《全国新书目》
report,
Sci-Tech
proceedings (Pro.) specification
第一章信息检索基础知识PPT课件
信息、知识、文献的关系
信息 知识 文献
文献的类型
• 按载体的形态分 • 按内容、性质和加工深度来分 • 按文献的出版类型分
按载体的形态分
• 手写型 writer by hand form • 印刷型 printed form • 缩微型 Microform • 声像型 (视听文献)Audio-Visual form • 机读型(电子型)Machine Readable
。 美国国会图书馆总面积为34.2万平方米,世界上最大的图书馆
•
缩微型
• 以感光材料为载体,以照相为记录手段而形成的 文献形式
• 优:
–体积小。 –成本低,仅及印刷品1/10∽1/15 –长期保存 –忠实于原件
• 缺:
–不能直接阅读
缩微型
声像型
• 是以磁性和感光材料为介质记录声音、图像 等信息的一种文献形式。
• 知识(Knowledge) :是人类通过对自然界、人 类社会以及思维方式与运动规律的认识与掌握, 是人脑通过思维重新组合的、精简化的信息集 合。
• 知识包括个人知识和社会知识。
个人知识:存在于大脑、笔记或书信中,只 能 为个人所用。
社会知识:存在于文献中或人类的传说中
• 文献(Document / Literature):记录 有知识的一切载体。
form、Electronic Publication
手写型
• 以实物为载体的,以手工为记录手段的 文献
手写型
印刷型
• 以纸质材料为载体,以印刷为记录手段 而形成的文献形式。
•优
–便于阅读、传递
•缺
–十分笨重,保存起来费事费力 –难于实现信息自动化提取和高速度传递
• 国家图书馆总建筑面积25万平方米(含总馆一期、 二期,古籍馆),居世界国家图书馆第三位。
信息检索课件汇总全书电子教案完整版课件(最新)
1.文献按其出版形式分类 (1)图书(Book) (2)期刊(Periodical) (3)会议论文(Conference Paper) (4)专利文献(Patent Document) (5)科技报告(Sci-Tech Report) (6)标准(Standard) (7)学位论文(Dissertation) (8)技术档案(Technical Records)
1.2 计算机信息检索基础
1.2.4 计算机信息检索的原理
1.计算机信息存储过程 2.计算机信息检索过程
1.2 计算机信息检索基础
1.2.5 计算机信息检索系统的构成
1.计算机硬件 2.软件 3.数据库 (1)参考数据库。 (2)源数据库。 4.通信网络
1.2 计算机信息检索基础
1.2.6 计算机信息检索的基本技术
二次检索
3.2 万方数据知识服务平台
3.2.1 快速检索
二次检索结果
3.2 万方数据知识服务平台
3.2.2 Leabharlann 级检索高级检索页面3.2 万方数据知识服务平台
2.1.2 Internet信息资源的特点
1.信息源丰富 2.信息内容多样性 3.信息表现形式多样化 4.信息时效性 5.信息交互性 6.信息关联性 7.信息的开放性 8.免费信息资源丰富 9.信息组织的局部有序性与整体无序性
2.1 Internet信息资源及其组织方式
2.1.3 Internet信息资源及检索方法
2.2 Internet信息资源检索工具
2.2.3 阅读软件的安装和使用
1.Acrobat Reader的安装与启动 2.Acrobat Reader的基本操作 (1)打开文件。 (2)阅读文件。 (3)选择和复制文件。 3.CAJViewer的安装与启动 4.CAJViewer的基本操作
《信息检索导论》PPT课件
出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。
[信息检索]第一讲布尔检索BooleanRetrieval
[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容:1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索?Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据(通常是⽂本)的集合(通常保存在计算机上)中找出满⾜⽤户信息需求的资料(通常是⽂档)的过程。
Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询?布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如:信息 AND 检索2、⼀个信息检索的例⼦(莎⼠⽐亚全集)不到100万单词,假设每个英⽂单词平均长度为8字节,则整个全集不到10MB查询需求:莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?查询的布尔表⽰:Brutus AND Caesar AND NOT Calpurnia解决⽅案:⽅法⼀:暴⼒⽅法从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时⼜不包含Calpurnia不⾜之处:速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易(不到末尾不能停⽌判断)不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点:实现简单很容易⽀持⽂档动态变化⽅法⼆:倒排记录表词项-⽂档(term-doc)关联矩阵若某剧本包含某单词,则该位置为1,否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量,每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量,每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量,并对Calpurnia 的⾏向量求反,最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题:当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号),那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时,词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1:词项-⽂档矩阵⾼度稀疏(sparse)更好的办法:仅仅记录1的位置,即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰,通常是正整数,如1,2,3…磁盘上,顺序存储⽅式⽐较好,便于快速读取内存中,采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程:1、词条序列:<词条,docID>⼆元组2、排序按词项排序,然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了,如何利⽤索引来处理查询?AND查询的处理:考虑如下查询(从简单的布尔表达式⼊⼿):Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表,即求交集合并过程:每个倒排记录表都有⼀个定位指针,两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录,然后移动某个或两个指针。
lecture10xmlretrieval信息检索导论王斌
▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置: 结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体 (如人名、地名)的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章,这些文章提到 Vatican、the
Coliseum和sightseeing tours,但是并没有按照它们和查询的相关 度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如,用户可 能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉,或者他们压根就 不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理,返回新结果 ▪ 新结果可望(理想上说)有更高的召回率
《信息检索导论》课件
未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应 用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未 来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式, 为人们提供更快速的信息服 务。
目前的研究状况
信息检索领域的研究涵盖了 多个方向,包括模型、算法 和应用等。
3
用户界面
提供搜索框和界面展示,最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等,用于评估 检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估,来评 价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型,使用向量表示文档和查 询,适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型,以链接分析算法为 基础,比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用,了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据 中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域,如Web搜索、 数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型,检索效果 受到诸多限制。
lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章
现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式:
U.S.A. 和 USA
归一化的结果就是词项,而词项就是我们最终要 索引的对象 可以采用隐式规则的方法来表示多个词条可以归 一成同一词项,比如
剔除句点
U.S.A., USA USA
字:李 明 天 天 都 准 时 上 班
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾 文档 词项
通常做法+非英语处理
英语
❹
❺
跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥:324a3df234cb23e (800) 234-2333
最新信息检索导论-第一章-布尔检索(英文)教学讲义ppt
9
Sec. 1.1
Term-document incidence matrices
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
Antony and Cleopatra 1 1 1 0 1 1 1
Julius Caesar 1 1 1 1 0 0 0
The Tempest 0 0 0 0 0 1 1
Hamlet 0 1 1 0 0 1 1
Othello 0 0 1 0 0 1 1
Macbeth 1 0 1 0 0 1 0
Brutus AND Caesar BUT NOT Calpurnia
1 if play contains word, 0 otherwise
– On disk, a continuous run of postings is normal
and best
– In memory, can use linked lists or variable lenPogsttihng
arrays
Brutus
•
Some
tradeoffs
in 1size/2ease 4of
in1s1ertio3n1
45 173 174
Caesar
1 2 4 5 6 16 57 132
Calpurnia
2 31 54 101
Dictionary
Postings
Sorted by docID (more later on why). 17
Sec. 1.2
Inverted index construction
Doc 1
信息检索技术讲义
中截断主要用于
• 第一,单复数在词中元音上变化的情况 --man men ; goose geese • 第二,动词与名词拼写的不同 --advice advise • 第三,同一单词英美拼写的差异 --defense defence
ORBIT前后截词
CHEMICAL CHEMISTRY CHEMISORPRION CHEMIST ELECTROCHEMICAL ELECTROCHEMISTRY PHYSICOCHEMICAL PHYSICOCHEMISTRY THERMOCHEMICAL THERMOCHEMISTRY
BRS
technique$1
词干后至多跟与截字符相同的字符数
DIALOG child????
child+children+ childish+childlike
ORBIT
child####
BRS
child$4
(2)无限截断(unlimited truncation),也称“开放式截断”
DIALOG中,词干后跟一个“?”
•
4、All that you do, do with your might; things done by halves are never done right. ----R.H. Stoddard, American poet做一切事都应尽力而为,半途而废永远不行
5.26.20215.26.202108:3008:3008:30:5708:30:57
• 布尔逻辑检索反映了检索词之间的逻辑关系, 属于一种定性的信息检索技术,这种定性检索 难以分辨出检索结果之间的重要程度。
• 严格的二值逻辑判断,使单纯布尔逻辑检索的 结果缺乏“量”的比较。
信息检索导论-第一章-布尔检索(英文)
Sec. 1.1
Unstructured data in 1620
• Which plays of Shakespeare contain the words Brutus AND Caesar but NOT Calpurnia?
• One could grep all of Shakespeare’s plays for Brutus and Caesar, then strip out lines containing Calpurnia?
The Tempest 0 0 0 0 0 1 1
Hamlet 0 1 1 0 0 1 1
Othello 0 0 1 0 0 1 1
Macbeth 1 0 1 0 0 1 0
Brutus AND Caesar BUT NOT Calpurnia
1 if play contains word, 0 otherwise
Misformulation?
how trap mice alive
Searc h
Search engine
Query refinement
Results
Collection
Sec. 1.1
How good are the retrieved docs?
▪ Precision : Fraction of retrieved docs that are relevant to the user’s information need
5
The classic search model
User task Info need
Query
Get rid of mice in a politically correct way
信息检索入门
信息分析
信息分析是对原始数据的预处理
格式分析与转换(html/xml/doc/pdf/rtf) 语种识别、编码识别与转换
(GB/BIG5/Unicode) 噪声数据的清洗 冗余数据的处理 信息编号
信息索引(1)
为加快搜索速度,建立特定的数据结构
不可能是逐个文档扫描(太慢) 倒排表、后缀树、签名表等等
相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等 等
现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖 度等度量。
Google中据说用了上百种排名因子
内容
信息检索的基本概念 信息检索的基本流程Å 信息检索的评价方法 信息采集 信息分析及索引 信息检索模型及其他相似度计算方法 查询扩展及相关反馈
评价指标
召回率(Recall): RR/(RR + NR),返回的相关结 果数占实际相关结果总数的比率,也称为查全 率
正确率(Precision): RR/(RR + RN),返回的结 果中真正相关结果的比率,也称为查准率
一个例子:查询Q,本应该有100篇相关文档, 某个系统返回200篇文档,其中80篇是真正相 关的文档,Recall=80/100, Precision=80/200
例2:毛主席的生日是哪天?Æ问答系统(Question Answering, QA)
例3:返回联想PC的型号、配置、价格等信息Æ信息抽取 (Information Extraction, IE)
例4:订阅有关NBA的新闻Æ信息过滤(Information Filtering)、信息推荐(Information Recommending)
信息检索导论-王斌 第一次课后练习(1-4)
信息检索导论第一次课后练习(第1讲-第4讲)1.习题1-3 [*]对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a. schizophrenia AND drugb. for AND NOT (drug OR approach)解答:习题1-2的文档集如下:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patients词项文档对应如下:词项docID 词项docId breakthrough 1 approach 3drug 1 breakthrough 1for 1 drug 1 schizophrenia 1 drug 2new 2 for 1 schizophrenia 2 for 3drug 2 for 4new 3 hopes 4 approach 3 => new 2for 3 new 3 treatment 3 new 4of 3 of 3 schizophrenia 3 patients 4new 4 schizophrenia 1 hopes 4 schizophrenia 2for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3它对应的倒排索引表如下:词项文档频率倒排记录表approach 1 → 3breakthrough 1 → 1drug 2 →1→2for 3 →1→3→4hopes 1 → 4new 3 →2→3→4of 1 → 3patients 1 → 4schizophrenia 4 →1→2→3→4treatment 1 → 3a.schizophrenia AND drugschizophrenia →1→2→3→4AND drug →1→2得出交集=> 1→2结果为文档1和2b. for AND NOT (drug OR approach)先求drug OR approachdrug →1→2OR approach → 3得出并集→1→2→3则NOT (drug OR approach)→ 4AND for →1→3→4得出交集→ 4所以结果为文档42. 习题1-7请推荐如下查询的处理次序。
第一章 《信息检索》导言-2014021910163375
Information Department of Library
第一章 《信息检索》导言
李 丰 老 师
信 息 检 索 课
图书馆信息技术部
Information Department of Library
戴尔计算机公司董事长兼首席执行官 迈克尔· 戴尔有这样的论断:“其实PC
和网络谁都不重要,重要的是信息。
Information Department of Library
案例六
上次老师推荐一本书《美的历程》, 李泽厚著,图书馆没有,请问我该如 何获得它的电子版?
信 息 检 索 课
图书馆信息技术部
Information Department of Library
案例七
高教社杯全国大学生数学建模竞赛又 要开始了,老师给了一个题目是“储 油罐的变位识别与罐容表标定的研究 ”,请问,我该如何查找资料?
问题:那7个字是什么?
特征一:信息具有价值性(相对)
信 息 检 索 课
图书馆信息技术部
Information Department of Library
注:信息的时效性 实际上与价值性联 系在一起,没有价 值也就无所谓时效 了。
特征二: 信息的时效性
信 息 检 索 课
图书馆信息技术部
Information Department of Library
较为理想的答案:钢刀、火石、指南针。
人类要在世界上生存与发展就必须物质、能量、信息这三大要素。
由此例我们可以认识到信息的重要性。
信 息 检 索 课
图书馆信息技术部
Information Department of Library
信息的概念及内涵
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ Title contains data AND Bullets contain search
▪ … 这里还没有提文本的语言结构
非结构化 vs. 结构化 vs. 半结构化
▪ 半结构化(Semi-structured): ▪ <title>李甲主页</title> ▪ <body>…</body> …
市场规模
Unstructured Structured
非结构化数据(文本) vs. 结构化数据 (数据库) @ 2009年
数据量
市场规模
布尔检索
▪ 针对布尔查询的检索,布尔查询是指利用 AND, OR 或 者 NOT操作符将词项 连接起来的查询
▪ 信息 AND 检索
▪ 信息 OR 检索
▪ 信息 AND 检索 AND NOT 教材
▪ 笨方法为什么不好?
▪ 速度超慢 (特别是大型文档集) ▪ 处理NOT Calpurnia 并不容易(一旦包含即可停止判断) ▪ 不太容易支持其他操作 (e.g., find the word Romans near
countrymen)
词项-文档(term-doc)的关联矩阵
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
▪ 文档集Collection: 由固定数目的文档组成 ▪ 目标: 返回与用户需求相关的文档并辅助用户来完
成某项任务 ▪ 相关性Relevance
▪ 主观的概念 ▪ 反映对象的匹配程度 ▪ 不同应用相关性不同
典型的搜索过程
任务
信息需求
自然语言描 述
查询
是否转义? 是否转义? 是否转义?
搜索 引擎
查询 重构
结果
Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive?
▪ 信息检索是从大规模非结构化数据(通常是文本) 的集合(通常保存在计算机上)中找出满足用户 信息需求的资料(通常是文档)的过程。
▪ Document –文档 ▪ Unstructured – 非结构化 ▪ Information need –信息需求 ▪ Collection—文档集、语料库
IR vs数据库: 结构化 vs 非结构化数 据
传统信息检索 vs. 现代信息检索
▪ 传统信息检索主要关注非结构化、半结构化数据
▪ 现代信息检索中也处理结构化数据
非结构化数据(文本) vs. 结构化数据 (数据库) @ 1996年
200 180 160 140 120 100
80 60 40 20
0 Data volume
数据量
Market Cap
最后按位进行与操作
▪ 110100 AND 110111 AND 101111 = 100100.
上述查询的结果文档
▪ Antony and Cleopatra, Act III, Scene ii
▪ Agrippa [Aside to DOMITIUS ENOBARBUS]: Why,
Enobarbus,
▪ 通常指自由文本 ▪ 允许
▪ 关键词加上操作符号的查询 ▪ 更复杂的 概念性查询,
▪ 找出所有的有关药物滥用(drug abuse)的网页
▪ 经典的检索模型一般都针对自由文本进行处理
半结构化数据
▪ 没有数据是完全无结构的 ▪ <title>李甲主页</title> ▪ <body>…</body> …
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
信息检索Information Retrieval
▪ Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).
▪
When Antony found Julius Caesar
dead,
▪
He cried almost to roaring; and he
wept
▪
When at Philippi he found Brutus
slain.
▪ Hamlet, Act III, Scene ii
IR中的基本假设
▪ Google的高级搜索?
提纲
① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理
一个简单的例子(《莎士比亚全集》)
▪ 莎士比亚的哪部剧本包含Brutus及Caesar但是不包 含Calpurnia? 布尔表达式为 Brutus AND Caesar AND NOT Calpurnia。
▪ 笨方法: 从头到尾扫描所有剧本,对每部剧本判 断它是否包含Brutus AND Caesar ,同时又不包含 Calpurnia
若某剧本包含某单 词,则该位置上为1, 否则为0
关联向量(incidence vectors)
▪ 关联矩阵的每一列都是 0/1向量,每个0/1都对应 一个词项
▪ 给定查询Brutus AND Caesar AND NOT Calpurnia ▪ 取出三个列向量 ,并对Calpurnia 的列向量求补,
▪ 结构化数据即指“表”中的数据
Employee Smith Chang Ivy
Manager Jones Smith Smith
Salary 50000 60000 50000
数据库常常支持范围或者精确匹配查询 。e.g., Salary < 60000 AND Manager = opatra 1 1 1 0 1 1 1
Julius Caesar The Tempest
1
0
1
0
1
0
1
0
0
0
0
1
0
1
Hamlet 0 1 1 0 0 1 1
Othello 0 0 1 0 0 1 1
Macbeth 1 0 1 0 0 1 0
Brutus AND Caesar BUT NOT Calpurnia