lecture6-tfidf 信息检索导论 王斌 PPT 课件 第6章

合集下载

信息检索概论PPT课件

信息检索概论PPT课件

期刊
Chun,Lu,and n, “Dynamic Analysis of Clamped Laminated Curved Panels” Composite Structures 30.4. (1995):389-396
ISSN 的含义(International Standard Serial Number)
第一章 信息检索概论
内容简介
1.1 信息素养教育 1.2 文献信息的基本概念 1.3 文献信息的类型与特点 1.4文献信息的分布规律
1.1信息素养
Information Literacy
也称信息素质或信息文化,是全球一体化、 全球信息化大环境下需要人们具备的一种基本能 力。
信息素养这一概念是美国信息产业协会主席保 罗·泽考斯基(Paul Zurkowski)于1974年在提 出的。
【实例】在《EBSCO》数据库的期刊论文著录格式如下: China Investment:Which Way To Profit? By: Wang Yong ; Chen Wen.Beijing Review,11/6/2003,Vol.46 Issue 45,p10,4p, 1c;(AN 11588866)
3.图书类型 阅读用书:包括教科书、专著、文集等。 参考工具书:是供人们释疑解难、翻检查考的出
版物。
【实例】《中国大百科全书》、《四库全书》、 《古今图书集成》、《大英百科全书》
检索用书: 是以图书形式刊行的书目、题录、文 摘等,是供人们查找一定范围内信息线索的出版 物。
【实例】《四库全书总目提要》、《中国国家书 目》、《全国总书目》、《全国新书目》
report,
Sci-Tech
proceedings (Pro.) specification

最新课件信息资源检索教程

最新课件信息资源检索教程

方 法
借鉴选题法
就是利用一种方法、制度等在某国某地某企业获 得成功的经验或导致失败的教训,探讨如何解决 自己关心的问题,或如何进一步完善现行的方法、
措施、对策等。
事件选题法
这里的“事件”是指国家的一些重大活动、重大 政策出台、重大的方针政策调整等。这些重要事 件,为论文选题提供了明确的领域或方向。
实验条件应确实可靠,实验重现性要好。
2.列写作提纲要注意的问题
对实验结果应进行客观严密的验证。 由数据推导出的结果或结论必须正确。 结论、成果的应用范围与前提和方法之间关系要正确。 文章的内容、格式及表现手法要能充分地表达写作目的。 要注意发表文章的礼节,对他人在写作论文过程中给予的 协助要表示谢意。 用词要恰当,要谦虚,不要对自己所取得的成果言过其实。
课件信息资源检索教程
第六章 科技写作
1
科学论文的含义与种类
2
科学论文的特点与作用
3
科学论文的选题和准备
4
科学论文的写作
5
毕业设计说明书和毕业论文的写作
3.学术论文选题要点
突出反映作者在研究课题中,有创见性的成果,但选题范围 不宜过宽。 对理论研究课题,要以理论分析为主,突出学术价值。
对应用研究、实验研究的课题,要从理论与实践结合上突出 研究的成果。
从实践出发,从有实用价值的课题中选题。
4.科学论文的准备
4.1 制定研究计划 4.2 查阅资料或现场调查 4.3 制定实验方案 4.4 开展实验研究 4.5 实验结果的整理和提炼
1
2
制定研究计划,包括研3究 的进查度阅,资实料验和的现安场排调,查实,4其 验 费所 、目 工需 设的 作的 备制 研是 ,原 、定 究了 掌料 仪实 课解 握、 器验 题他 所材 等人 要方,料 的已研案设、筹做究计,经集过问证就的题实是5本根课据 ,以的及全最题部后结发完论展成的过的程实时,验间以,,及以了便得到 均 可 人 人应 共 的行解 有 是 横有 同 职,关 纵 向已留所 研 责可 实 而 实研 向 调经有考 究 。验定 验靠在 验 作 。进究 调 研虑 ,余工、 。 ,行研 。实 操。 观, 还地归 选作完 有 有, 这或验 作察这都 应。取纳。 现 样正要的 的整过中里、应 明若能、查场调要根需 则的程的最观属切确突整阅调研进据要要实中偶重察多实各出理行资查的具进求验然要,、论实的料是结体行进结发的要记点验情模行果现是进录记,况拟硬。观行等,录反察实工一映,事要

信息检索课件

信息检索课件

综合性图书 水利工程
自然科学
N O
P
TP TQ TS TU TV
哲学 马列
历史、地理 文学 艺术 语言 文教、科学、体育 经济 军事 政治、法律 社会科学总论 哲学 马列主义、毛泽东思想 社会科学 A B C D E F G H J I K
标准二
高效获取所需信息
信息源分布(图书馆、网络资源、专业协会、 研究机构等) 选用恰当的调查研究方法 信息检索系统中利用有效方法和检索策略 (如关键词、相关术语、规范化语言、逻辑算 符、命令语言)

标准三
能客观、审慎地评估信息与信息源


概括信息源的适用性 评价和比较信息的可靠性、权威性、时 效性 综合主要观点的逻辑统一、可查实性
标准的种类

标准按内容可分为:
(1)基础标准 (2)产品标准 (3)方法标准

按范围分:
(1)国际标准 (2)地区标准 (3)国家标准 (4)专业标准 (5)企业标准

按成熟程度分:
(1)正式标准(2)试行标准(3)推荐标准(4)标准草案 我国国家标准代号为GB(汉语拼音GUO BIAO缩写),中间是 标准顺序号;最后是此项标准颁布的年代。如: GB—8— 1989,即为1989年颁布的第8号国家标准。 ISO是由国际标准化组织制定的国际标准。
标准四
个人或作为群体的一员能有效地利用信息 以完成特定的任务
应用信息创造成果、完成项目(如完成课题报 告、学位论文等) 为实现成果和目标修正学习过程 选用最有力的交流媒体和形式

标准五
获取与使用信息要符合道德与法律规范
识别并研究印刷型、电子型信息环境的隐私和安 全 免费和收费信息 知识产权、版权 合适的文献格式,引用格式等

信息检索课件汇总全书电子教案完整版课件(最新)

信息检索课件汇总全书电子教案完整版课件(最新)
1.1.4 文献的分类
1.文献按其出版形式分类 (1)图书(Book) (2)期刊(Periodical) (3)会议论文(Conference Paper) (4)专利文献(Patent Document) (5)科技报告(Sci-Tech Report) (6)标准(Standard) (7)学位论文(Dissertation) (8)技术档案(Technical Records)
1.2 计算机信息检索基础
1.2.4 计算机信息检索的原理
1.计算机信息存储过程 2.计算机信息检索过程
1.2 计算机信息检索基础
1.2.5 计算机信息检索系统的构成
1.计算机硬件 2.软件 3.数据库 (1)参考数据库。 (2)源数据库。 4.通信网络
1.2 计算机信息检索基础
1.2.6 计算机信息检索的基本技术
二次检索
3.2 万方数据知识服务平台
3.2.1 快速检索
二次检索结果
3.2 万方数据知识服务平台
3.2.2 Leabharlann 级检索高级检索页面3.2 万方数据知识服务平台
2.1.2 Internet信息资源的特点
1.信息源丰富 2.信息内容多样性 3.信息表现形式多样化 4.信息时效性 5.信息交互性 6.信息关联性 7.信息的开放性 8.免费信息资源丰富 9.信息组织的局部有序性与整体无序性
2.1 Internet信息资源及其组织方式
2.1.3 Internet信息资源及检索方法
2.2 Internet信息资源检索工具
2.2.3 阅读软件的安装和使用
1.Acrobat Reader的安装与启动 2.Acrobat Reader的基本操作 (1)打开文件。 (2)阅读文件。 (3)选择和复制文件。 3.CAJViewer的安装与启动 4.CAJViewer的基本操作

最新信息检索课件教学讲义ppt课件

最新信息检索课件教学讲义ppt课件
• 第一章 绪论 • 第二章 信息的相关知识 • 第三章 信息检索的基本知识 • 第四章 计算机信息资源检索 • 第五章 特种文献检索 • 实习
信息素养 • 信息素养:利用大量的信息工具及主要信息
源使问题得到解答的技术和技能。
本课程 的教学 目标
了解自己的信息需求 承认准确和完整的信息是制定明智决策的基础 能在信息需求的基础上系统阐述问题 能识别潜在的信息源、检索信息源,制定成功的检索策略 能利用以计算机为基础的信息技术和其它技术 具有评价信息的能力 能为实际应用而对信息进行组织 具有将新信息结合到现存的知识体现中的能力 能采用批判性思关的其它概念
§ 1.知识:人类对于客观世界的认识。 § 2.情报:人们搜集到的能为我们所用的新知
识或新信息。 § 3.文献:记录有知识的一切载体。
(人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性 认识或经验,然后对这些感性认识通过大脑进行加工处理,形成理性认识。)
现实信息源
口头信息源 体语信息源 实物信息源 文献信息源等
非文献信息源
第二节 文献的基本知识
一、文献(信息源)类型
§ 文献(信息源)类型: 1.按文献载体形式分:印刷型
微缩型:存储量高达22.5万页/平片 声像型 电子型 2.按文献加工深度分: 零次, 一次, 二次, 三次文献。
§ 一次文献:
§ 二次文献: 20061128:太湖西区公路两侧植物物种多样 性的研究/[刊]/朱晓勇,胡海波,鲁小珍/南 京林业大学学报.2006.30(3):-85~88
u 一、概念 信息检索:信息存储&信息查找
信息标引和存储过程:对大量无
信息的需求分析和检索过程。分
序的信息资源进行标引处理,使

《信息检索导论》PPT课件

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。

信息检索教程(第三版)PPT6

信息检索教程(第三版)PPT6

3.2.1 概念逻辑
2.概念逻辑方法 检索语言在表达各种概念及其相互关系时,普遍地应用了概念逻辑的原理,有效地利 用了
“概念的划分与概括”和 “概念的分析与综合”这两种逻辑方法来建立自己的结构 体系。 (1)概念的划分与概括 (分类) 即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形 成新的
之间相互交叉渗透和综合而形成的新知识领域很困难,也难以反映客观实际中多维的知 识 空间结构。
3.3.2 体系分类法
(三)主要体系分类法介绍 目前,国内常见的体系分类法有 《中国人民大学图书馆图书分类法》,简称 《人大
法》,初版于1953年; 《中国图书馆分类法》,简称 《中图法》,初版于1975年,名为 《中 国图书馆图
1.标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性 2.对内容相同及相关的文献信息加以集中或揭示其相关性 3.使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行 有
序化检索 检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排 列
信息标识的方法主要有三种: ①分类排列法,用于号码标识系统; ②字顺排列法,用于 语词标识系统和代码标识系统; ③分类和字顺结合的排列法,即先按照分类排,再按字顺 排,用于语词标识系统 (如分
3.1.3 检索语言的分类
2.描述文献内容特征的检索语言 描述文献内容特征的语言指主要依据文献内容特 征而形成的检索语言,这是检索语言 研究的核心部分,具体有分类语言、主题语言 和代码语言。
3.1.3 检索语言的分类
(二)按结构或原理,可分为分类语言、主题语言、代码语言和引文语言 分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排。分

信息检索教程第六章

信息检索教程第六章
第六章 网络信息检索
本章的主要内容为:网络信 息系统及网络信息资源的特征 、 网络信息检索的原理与方法 、常 用的网络信息检索工具、网络信 息检索技巧和专业性信息的网络 检索 。
1
第一节 网络信息系统及网络信息资源的特征
一、Internet网络信息系统

TCP/IP协议


DN域名和IP地址
全球资源定位器URL
17
(一)Google()
Google的核心技术称为PageRank(TM),它 是Larry Page和Sergey Brin在斯坦福大学开发的 一套用于网页评级的系统。该系统以PageRank 技术为基础,这项技术可以确保将搜索结果首先 呈现给用户。Google使用一组独特的硬件和软件, 制造出了一部超网页的 数量每天正以相关搜索 拼音提示


12
(三)自动索引程序
自动索引程序robot广泛搜集网络信 息资源数据,经过一系列判断、选择、 标引、分类等处理后形成供检索用的数 据库,并以Web页面的形式向用户提供 有关的资源导航、目录索引以及检索界 面。
13
二、搜索引擎的运作和检索
(一)搜索引擎技术的运作

发现并搜集网页信息


对信息进行提取并建立索引库


15
(二)搜索引擎的检索方法

简单搜索(Simple Search) 词组搜索(Phrase Search)

高级搜索(Advanced Search)
16
三、万维网搜索引擎
万维网搜索引擎(Web Search Engines)的 主体是全文搜索引擎(Full text Search Engine), 具 有 代 表 性 的 全 文 搜 索 引 擎 是 Google、 AlltheWeb、AltaVista、Ink站的信息,建立索引数据库,并 在用户检索时予以匹配响应,然后按一定的排 列顺序将结果返回给用户。这里重点介绍四大擎

信息检索教程 第6章 网络信息检索

信息检索教程 第6章  网络信息检索
有目前世界上最大 的中文信息库,并且还在以每天几十万页的速度快速增长。 使用高性能的“网络蜘蛛”程序自动在Internet中搜索 信息。能在极短的时及个性化的各种检索需求。的服务产品• 前程无忧
– 前程无忧是国内第一个集多种媒介资源优势的专业人力资源服务机构, 已成为中国占有领导地位的专业招聘网站 。 – 网站目标有两大部分:致力于为积极进取的白领阶层和专业人士提供更 好的职业发展机会;同时,网站致力于为企业搜寻、招募到最优秀的人
是大势所趋。
(1) IPv4
目前,我国大部分上网用户使用的都是IPv4地址,IPv4
使用32位地址,因此最多可能有232个网络地址。一般的
书写法为4个用小数点分开的十进制数,每段数字范围为0
~255,段与段之间用句点隔6是IETF(Internet Engineering Task Force,互联网工程任务组)设
6.3 常用网站介绍
目录:
6.3.1
教育类网站
求职招聘类网站
6.3.2
6.3.3
医学健康类网站
其他网站
6.3.4
6.3.1 教育类网站
• 教育网站是专门提供教学、招生、学校宣传、教材、教学 资源共享等的网站。各大学校和教育部门、机构都有自己 的网站 。 • 一般情况下教育网站的后缀域名是edu,代表教育的意思 ,也有部分域名是以com/cn/net作为域名后缀。
第6章 网络信息检索
目录:
6.1 6.2
Internet应用基础
网络搜索引擎
6.3
6.4 6.5 6.6 6.7
常用网站介绍
学术论坛介绍 开放存取资源 小结 习题
6.2 网络搜索引擎
6.2.1 搜索引擎 6.2.2 6.2.3 学术6.1 Internet应用基础

《信息检索导论》课件

《信息检索导论》课件

未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应 用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未 来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式, 为人们提供更快速的信息服 务。
目前的研究状况
信息检索领域的研究涵盖了 多个方向,包括模型、算法 和应用等。
3
用户界面
提供搜索框和界面展示,最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等,用于评估 检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估,来评 价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型,使用向量表示文档和查 询,适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型,以链接分析算法为 基础,比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用,了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据 中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域,如Web搜索、 数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型,检索效果 受到诸多限制。

lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章

lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章

现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式:
U.S.A. 和 USA
归一化的结果就是词项,而词项就是我们最终要 索引的对象 可以采用隐式规则的方法来表示多个词条可以归 一成同一词项,比如
剔除句点
U.S.A., USA USA
字:李 明 天 天 都 准 时 上 班
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾 文档 词项


通常做法+非英语处理
英语


跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥:324a3df234cb23e (800) 234-2333

《信息检索导论》课件2

《信息检索导论》课件2

学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研 讨会和学术会议,与专家交 流并进行实践项目。
《信息检索导论》PPT课 件
欢迎来到《信息检索导论》PPT课件,本课程将介绍信息检索的基础概念、技 术和实践案例,让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和 技术,学习如何构建高效的 检索系统。
课程内容
包括信息检索的定义、流程、 模型与评价指标等重要概念。
课程安排
第一部分:信息检索基础 第二部分:信息检索技术 第三部分:实践案例分析 第四部分:进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率 和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干 提取等技术,以便更好地处理 查询和文档。
倒排索引
一种高效的索引结构,用于快 速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展, 同时通过界面展示与查询相关 的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百 度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的 信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如 何实现快速准确的商品搜索。

信息检索概论课件

信息检索概论课件
信息检索概论课件
1. 信息概论
• 1.2信息的特性
(7) 可共享性 与物质、能量不同,信息没有排他性,它可以共享。
信息检索概论课件
1. 信息概论
• 1.3 信息的作用
(1)信息是人类认识客观世界及其发展规律 的基础
人类的认识器官,包括感觉器官和思维器 官,对各种渠道的信息进行接收,并通过思 维器官将已收集到的大量信息进行鉴别、筛 选、归纳、提炼、存贮而形成不同层次的感 性认识和理性认识。
第一章 信息检索概论
• 1. 信息概论 • 1.2信息的特性
(1) 普遍性 信息是事物运动的状态和状态变化的方式(本体论,的反 映—认识论),因此,只要有客观事物的存在,只要客观事物 在不断地运动,就会有它们运动的状态和状态变化的方式, 也就存在着信息,所以信息是普遍存在的,信息具有普遍性。 (2)传递性 信息在事物之间的相互联系必定在信息流动中发生。信息 的传递性表现在人与人之间的消息交换,人与机器、机器与 机器之间的信息交换,动物与植物的信号交换。信息的传递 和流通过程是一个重复使用的流通过程,在这一过程中,信 息的占有者不会因传递信息而失掉信息,一般说来,也不会 因多次使用而改变信息的自身价值。
• 3 信息源
3. 1 信息源的类型 信息源的类型可依不同的标准划分如下:
3.1 . 3 按信息表现形式划分 可以划分为文字信息、图像信息、数值数据信息和语音信。
其中数值数据信息是“信息的数字形式”或“数字化的信息 形式”。狭义的“数据”是指有一定数值特性的信息,如统 计数据、测量数据以及计算机中区别于程序的计算数据。广 义的数据是指在计算机网络中存储、处理、传输的二进制数 字符编码,文字信息、图像信息、语言信息以及从自然界直 接采集的各种自然信息等均可转换为二进制数码,网络中的 数据通信、数据处理和数据库等就是广义的数值数据信息。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
23
现代信息检索
二值关联矩阵
Anthony Julius and Caesar Cleopatra
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 1 1 1 0 1 1 1 1 1 1 1 0 0 0
28
现代信息检索
课堂练习
计算下列查询-文档之间的Jaccard系数 q: [information on cars] d: “all you’ve ever wanted to know about cars” q: [information on cars] d: “information on trucks, information on planes, information on trains” q: [red cars and red trucks] d: “cops stop red cars more often”
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 1
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率
→ 0 个结果 – 太少
在布尔检索中,需要大量技巧来生成一个可以获得合适规 模结Βιβλιοθήκη 的查询15现代信息检索
排序式检索

排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多
前提:排序算法真的有效,即相关度大的文档结果会排在 相关度小的文档结果之前
21
现代信息检索
Paul Jaccard(1868-1944)
瑞士植物学家,ETH教授
1894年毕业于苏黎世联邦理工 学院ETH(出过包括爱因斯坦在 内的21位诺贝尔奖得主)
1901年提出Jaccard Index即 Jaccard Coefficient概念
22
提纲
❶ ❷
上一讲回顾
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 157 4 232 0 57 2 2 73 157 227 10 0 0 0
The Hamlet Tempest
0 0 0 0 0 3 1 0 2 2 0 0 8 1
Othello
Macbeth ...
19
现代信息检索
Jaccard系数的计算样例
查询 “ides of March”
文档 “Caesar died in March”
JACCARD(q, d) = 1/6
20
现代信息检索
Jaccard系数的不足
不考虑词项频率 ,即词项在文档中的出现次数 罕见词比高频词的信息量更大,Jaccard系数没有考虑这个 信息 没有仔细考虑文档的长度因素 本讲义后面,我们将使用 (即余弦计 算) 来代替 |A ∩ B|/|A ∪ B| ,前者进行的长度归一化
9
现代信息检索
ϒ编码
将G 表示成长度(length)和偏移(offset)两部分 偏移对应G的二进制编码,只不过将首部的1去掉 例如 13 → 1101 → 101 = 偏移 长度部分给出的是偏移的位数 比如G=13 (偏移为 101), 长度部分为 3 长度部分采用一元编码: 1110. 于是G的ϒ编码就是将长度部分和偏移部分两者联接起来 得到的结果。
The Hamlet Tempest
0 0 0 0 0 1 1 0 1 1 0 0 1 1
Othello
Macbeth ...
0 0 1 0 0 1 1 1 0 1 0 0 1 0
每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V|
24
现代信息检索
非二值关联矩阵(词频)
Anthony Julius and Caesar Cleopatra
tf-idf权重计算 向量空间模型
2
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率
tf-idf权重计算 向量空间模型
3
现代信息检索
Heaps定律
词汇表大小M 是文档集规 模T的一个函数 图中通过最小二乘法拟合 出的直线方程为: log10M = 0.49 ∗ log10T + 1.64 于是有: M = 101.64T0.49 k = 101.64 ≈ 44
可变字节(VB)码
被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照 位对齐)的简单且不错的混合产物 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特,那么c 置 1,将间隔编入一个 字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的 位数采用同样的方法进行处理,最后一个字节的c置1 (表示结束)
18
现代信息检索
第一种方法: Jaccard系数
计算两个集合重合度的常用方法 令 A 和 B 为两个集合 Jaccard系数的计算方法:
JACCARD (A, A) = 1
JACCARD (A, B) = 0 如果 A ∩ B = 0
A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值
10
现代信息检索
Reuters RCV1索引压缩总表
11
现代信息检索
本讲内容
对搜索结果排序(Ranking) : 为什么排序相当重要? 词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法 向量空间模型(Vector space model): 信息检索中最重要的形 式化模型之一 (其他模型还包括布尔模型和概率模型)
29
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
30
现代信息检索
文档中的词频 vs. 文档集中的词频
除词项频率tf之外,我们还想利用词项在整个文档集中 的频率进行权重和评分计算
31
现代信息检索
罕见词项所期望的权重
罕见词项比常见词所蕴含的信息更多 考虑查询中某个词项,它在整个文档集中非常罕见 (例 如 ARACHNOCENTRIC). 某篇包含该词项的文档很可能相关 于是,我们希望像ARACHNOCENTRIC一样的罕见词项将有 较高权重
33
现代信息检索
文档频率(Document frequency, df)
对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的 匹配得分 文档频率指但是出现词项的文档数目
34
现代信息检索
idf 权重
dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值 于是可以定义词项t的idf权重:
12
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
13
现代信息检索
排序式检索(Ranked retrieval)
迄今为止,我们主要关注的是布尔查询
文档要么匹配要么不匹配
对自身需求和文档集性质非常了解的专家而言,布尔查询 是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条 结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练 才能撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web 搜索更是如此
词项 calpurnia animal sunday fly under the dft idft
1 100 1000 10,000 100,000 1,000,000
6 4 3 2 1 0
36
现代信息检索
32
现代信息检索
常见词项所期望的权重
常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相 关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给 一个正的权重,但是这个权重小于罕见词权重

b = 0.49
4
现代信息检索
Zipf定律
反映词项的分布 拟合度不是太高,但是今 本反映词项的分布规律: 高频词少,低频词多。
5
现代信息检索
将整部词典看成单一字符串 (Dictionary as a string)
6
现代信息检索
单一字符串方式下按块存储
7
现代信息检索
对间隔编码
8
现代信息检索
14
现代信息检索
布尔搜索的不足: 结果过少或者过多
布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 查询 1 (布尔与操作): [standard user dlink 650]
→ 200,000 个结果 – 太多
查询2 (布尔与操作): [standard user dlink 650 no card found]
(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标 实际中往往计算[log N/dft ]而不是 [N/dft ] ,这可以对idf 的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式
相关文档
最新文档