第6章信息检索与web搜索

合集下载

信息检索知识点

信息检索知识点信息检索考点整理1.信息检索的概念⼴义的信息检索是指将信息按⼀定的⽅式组织、存储起来，并根据信息⽤户的需要找出有关信息的过程，包括信息的存储和检索两个过程；⽽狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索⼯具中的信息特征标识进⾏相符性⽐较，凡是信息特征标识与检索提问标识相⼀致或者信息特征标识包含着检索提问的标识，则具有该特征的信息就从检索⼯具中输出，输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体？检索的全过程包括存储和检索两个过程，存储和检索是相辅相成、不可分割的。

存储过程主要是利⽤检索语⾔对⽂献进⾏标引，形成⽂献特征标识并输⼊检索⼯具，为检索提供有规律的检索途径；检索过程主要是利⽤检索语⾔对检索提问进⾏标引，形成检索提问标识，再按照存储所提供的检索途径，将检索提问标识与⽂献特征标识进⾏⽐较。

检索过程是存储过程的逆过程。

因此，检索者只有在全⾯了解存储者是怎样把⽂献存⼊到检索⼯具中去以后，才知道怎样从检索⼯具中把所需要的信息检索出来。

4.信息检索的⽅法（1）顺查法（2）倒查法（3）抽查法（4）追溯法（5）循环法5.信息检索的途径（1）内部特征途径a)分类途径b)主题途径（2）外部特征途径a)题名途径b)著者途径c)⽂献编号途径d)⽬录检索途径e)机构检索法f)引⽂检索途径6.布尔模型的优缺点优点：（1）简单，形式简洁，易于理解；（2）可操作性强，应⽤⼴泛；（3）构成的逻辑提问式可以表达与⽤户思维习惯相⼀致的查询要求，提供⾮常精确的语义概念；（4）能处理结构化提问。

缺点：（1）表达⽤户复杂需求效果⽋佳（2）准确匹配⽆法提供定量⽐较（3）匹配标准不尽合理（4）检索结果不易控制7.概率排序原则：如果⼀个检索系统对⽤户的每个检索提问的反应是以⽂献集合中的⽂献按相关性递减的顺序排列的，那么系统的总体效果是最好的。

信息检索名词解释

1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。

所以，它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。

狭义的信息检索则仅指该过程的后一步，即从信息集合中找出所需要信息的过程。

相当于我们所说的信息查询(information search)。

2)零次文献：也叫灰色文献，未经公开发表或未交流于社会的文献。

如私人笔记，设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。

其主要特点是内容新颖，但不成熟，不公开交流，难以获得。

3)一次文献(Primary Document)：以著者本人的研究或研制成果为依据而创作或撰写的文献，习惯上称做原始文献。

如期刊论文、科技报告、专利说明书、会议论文、学位论文等。

体现创作性。

其主要特点是内容新颖丰富，叙述具体详尽，参考价值大，但数量庞大、分散。

4)二次文献(Secondary Document)：就是检索工具。

是将大量分散的无组织的一次文献经浓缩，整序的加工整理，编辑成目录、题录、文摘、索引等检索工具或数据库。

如文摘，目录、索引等。

它有存贮、检索、报道的功能。

体现高度的浓缩性。

其主要功能是检索、通报、控制一次文献，帮助人们在较少时间内获得较多的文献信息。

二次文献具有汇集性、工具性、综合性、交流性等特点。

5)三次文献(Tertiary Document)：在一、二次文献的基础上，经过综合分析而编写出来的文献，如专题述评、动态综述、学科年度总结，进展报告以及数据手册、百科全书等参考工具书。

三次文献是情报研究的产物和成果。

具有很强的的综合性。

总之，一次文献(创造性)，二次文献(有序化)，三次文献(高度浓缩，提炼，再创造)。

6)以上四个级别的文献中，零次文献由于没有进入出版、发行和流通这些渠道，收集利用十分困难，一般不作为我们利用的文献类型。

武汉大学信息检索整理

名词解释1．信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。

2．引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目，按照引证与被引证的关系进行排列而编制的索引。

3．CALIS：China Academic Library and Information System中国高等教育文献保障系统。

4．邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系，并且可以不依赖叙词表而直接使用自由词的检索方法。

5．搜索引擎(Search Engine)是一种Web 上应用的软件系统，它以一定的策略在Web 上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务。

用户可以通过主题浏览和关键词检索的方式搜索所需信息。

6．截词检索：是指在检索标识中保留相同的部分，用相应的截词符代替可变化部分。

检索中，计算机会将所有含有相同部分标识的记录全部检索出来。

截词符一般用“？”或“*”表示，但不同的数据库中有所差别。

7．查准率：是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。

8．查全率：是指检出的文献数量占数据库中全部相关文献数量的比例。

9．文献及其要素“文献”是泛指“有历史价值或参考价值的图书资料。

”要素：1、构成文献内核的信息、知识、数据、事实.2、载体信息、知识、数据、事实的物质载体。

3、记录信息、知识、数据、事实的符号系统。

10．专利文献：专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物，包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。

11．三大检索系统：SCI（《科学引文索引》，EI是美国《工程索引》（TheEngineeringIndex）的简称，ISTP是IndextoScientific&T echnicalProceedings的缩写。

信息检索重点复习资料 2

第一章信息检索概述信息检索（IR）：将信息按一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。

信息素养:人们在解答问题时利用信息的技术和技能。

信息检索与文献检索的主要区别：文献检索是以获取文献信息为目的的检索，信息检索是收集，组织，存储一定范畴的信息，并根据用户需求查询文献中的信息或知识单元，比文献检索更深入。

信息检索的分类：1、根据检索手段不同可分为1）手工检索2）光盘检索3）联机检索4）网络检索 2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。

信息检索的原理：通过对大量的分散无序的文献信息进行收集、加工、组织、存储，建立各种各样的检索系统，并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致，以便有效的获得和利用信息源。

存储是检索的基础，检索是存储的目的。

信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。

其物理结构：是信息检索所用的硬件资源、系统软件以及信息资源集合（数据库）的总和。

信息检索语言的主要目的：把存储和检索联系起来，把标引人员和用户联系起来，以便取得共同理解，实现交流。

信息检索的历史:最早的信息检索主要依靠信息分类。

1手工检索 2机械信息检索。

3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型：1布尔模型 2向量空间模型 3概率模型1浏览型模型:扁平式模型、结构导向模型、超文本模型 2检索型模型：结构化模型、基于内容的检索型模型。

信息检索模型是信息检索的核心。

信息检索系统：是具有信息存储和信息查询功能的一类服务设施。

信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。

2019信息检索课件第6章

? </~scholzcr/eval.html>
? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告（2019.1 ）显示，绝大多数网络信息来自商业网站，来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价（IT）
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主，辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章网络信息的选择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3

网络信息检索的原理及技术

1.1搜索引擎综合分类
（1）全文搜索引擎（2）目录搜索引擎
（3）元搜索引擎
网络信息检索的原理及技术
全文搜索引擎的工作原理
网络信息检索的原理及技术
常用的中文搜索引擎
网易搜索引擎
雅虎中国搜索引擎
搜狐搜索引擎
北大天网中英引擎
网络信息检索的原理及技术
网页1链出个数
+ —网—页—2—级—别—...+—网—页—N—级—别—
网页2链出个数
网页N链出个数
网络信息检索的原理及技术
9.7网络信息检索的研究热点
• 9.7.1 海量数据的存储与处理
A
Group
B
Group
C
Group
（1）海量数据的磁盘列存储技术
（2）海量数据存储模式
• DC元数据规范最基本的内容是包含十五个元素的元数据元素集合，用以描述资源对象的语义信息。
题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description
其他责任者Contributor 格式Format 来源Source 权限Rights 标识符Identifier
中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据，将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
（随便告诉大家元数据是元数据是一种二进制信息，用以对存储在公共语言运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述）
• （大家可以想象下我们经常使用PPT中的那个超级链接，个人觉得和那个很相似）
网络信息检索的原理及技术

信息检索与分析第3-5章

4．查找数值、公式、规格、条例、专业知识
• 查考数值、公式、规格、条例、专业知识的数据库主要有： • 1）中国科学数据库（http:// /）由中国科学院创建。内容涵盖了多种学科，提供了大量具有重要科学价值和实用意义的科学数据和资料。 • 2）贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3）物质的物理化学参数数据库（/CUU/Constants/index. html）。 • 4）化学元素周期表（/chemistry/webelements/）查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫 “指南”、“便览”、“须知”、“大全”；包括综合性《读者百科词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世界经济手册》等。此外，还有表册，如《常用数学公式大全》、《电子学数据表与公式手册》。
• • • • • • 1．分类查询 2．关键词查询 3．多次查找 4．按照地域查询 5．查询最新信息 6．其它搜索技巧
1．Google高级检索技巧
• 1）短语检索 • 2）字段限定检索 (1) 限定网站【实例】输入“金庸 site:”搜索中文教育科研网站（）上所有包含“金庸”的页面。 (2) 限定网页【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声笑”。
(3)使用字段限定
• ① intitle title是网页的标题， intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② site site是限定在某类站点或某个网站内搜索。例如“论坛搜索引擎 site: ”，是在sowang这个网站内搜索 “论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。用法是“关键词A filetype:文件格式后缀名”。如“个人年终总结 filetype:doc”，搜索结果全都是word文件的个人年终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。例如“搜索引擎 inurl:ssyq ”，是检索在url中含有ssyq的网页中关于 “搜索引擎”的信息。

第6章Internet搜索引擎-

分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也可以归属为原始的分类目录，比如“网址之家”（ /）。
3.元搜索引擎
这类搜索引擎一般都没有自己网络机器人及数据库，它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”，也无独立的索引数据库，但在检索请求提交、检索接口代理和检索结果显示等方面，均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”。元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、 Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。
一般的搜索引擎由于缺乏对关键词语义的理解，检索结果对用户而言往往不够理想，主要表现在：检索结果中无关的网页过多；没有考虑用户的个性差异。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品（即对注册用户提供服务）的方式来组织个人信息，然后在搜索引擎基础信息库的检索中引入个人因素进行分析，获得针对个人不同的搜索结果。今后搜索引擎将越来越懂得个人用户的特定需求，并能提供更符合个人需求的搜索答案。或许搜索引擎将来会了解你所在位置，或许了解你此前已进行了哪些搜索活动。
6.1.2搜索引擎的工作原理
搜索引擎优化，首先要知道搜索引擎是如何工作的，只有知道搜索引擎是如何工作的以后，才能更好的进行优化工作，做出对于搜索引擎更加友好的网站，这样才会有好的排名。

信息检索

? 狭义的网络信息检索——指网络搜寻——利用相应的检索工具或检索系统，运用科学的方法，从有序的信息集合中查出所需信息的过程。
5.信息检索新策略
? 目前综合性搜索引擎的特点是查找范围很广而深度和专业性不够。
? 实行“元搜索”，即利用元搜索引擎先对综合性搜索引擎进行主题相关的检索，分析返回页面，下载结果URL，将得到的页面进行分析、存储、提取，得到一个庞大的初始结果集。再利用这个结果集对超链进行一定的分析判断后，按照传统的沿链递归方法“爬行”，对结果集进行扩展。利用这种检索策略，既需要掌握知名综合性搜索引擎的使用方法，又需要了解专业引擎和元搜索引擎的特点。
? 智能代理是在人工智能技术上发展起来的，常见的应用功能有资源挖掘、资源集成（沟通网络上不同物理位置的分布资源）和资源定制。
? 检索领域中的智能代理的研究就是要Agent去模仿人在信息检索中的行为（思考、比较、甄别、去重、判断、评估等等），并主动完成一系列高级、复杂的自动处理任务，而不是机械、被动地代理用户完成任务。
主题目录方式：主题目录方式的优点是可通过浏览的方式层层遍历，找到所需要的信息线索，再通过信息线索链接到相应的网络信息资源。该方式具有系统性、可扩充性、结构清晰、使用方便的优点，但更适合于建立专业性网络信息资源体系。
超媒体方式：超媒体技术是超文本与多媒体技术的结合，它将文字、表格、声音、图像、视频等多媒体信息以超文本组织起来，使用户可以通过高度链接的网络结构在各种信息库中自由航行，找到所需信息。
10.跨语言检索技术
? 跨语言信息检索是指使用一种语种的提问查询不同语种的检索技术，例如，输入的是中文的提问式，信息检索系统将返回英文、法文或其他语种描述的相关信息。结果信息资料可以是文本信息，也可以是以其他形式存在的信息。目前研究的较多的是文本信息与语音信息的跨语言信息检索。

信息检索概念

（3）光盘检索（CD-ROM Retrieval）
（4）网络检索（Internet Retrieval）
1.2.1信息检索系统的概念
信息检索过程的实现要依靠特定的系统，这个系统就是信息检索系统。系统是由两个或两个以上既相互区别又互相影响的各种要素构成的统一整体，信息检索系统的构成包括六个要素：
（1）目标
联机检索系统也称国际联机检索系统，通常采用相对封闭的客户机/服务器模式，属于典型的主从式结构。如图1-3所示，联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。
联机检索系统的特点是：
①检索范围广，数据库数量多，几乎涉及到各个学科领域，世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。
因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。
信息检索模型主要从两个方面抽象地研究信息检索方法：一是确定在检索模型中如何表示构成检索系统的两个要素，即文档和检索式；二是确定在模型中如何定义和计算文档和检索式之间的关系。
检索模型的重要作用主要体现在以下几个方面：更精确地描述出文档与文档、文档与查询间的相关关系，使之能比较和计算；安排更合理、更便于检索的文档存储形式；在此基础上设计出合理的检索方
（5）方法
（6）人员
由此可见，信息检索系统由若干个相互作用的部分构成，各部分的功能互异，设计的目的也各不相同，但它们之间相互联系，共同实现系统的目标。狭义地讲，这个目标就是检索信息；广义地讲，则是提升用户的知识水平。通常认为，信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说，信息检索系统并不告诉用户他所询问的主题（即不改变用户的知识结构），它只是告诉用户这一主题是否存在于数据库中，相关的文献都存在哪里。

信息检索技术(讲授版)

3.常规法
所谓常规法就是利用常规检索工具查找有关文献的方法，是信息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手段已日趋完善，各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷，有很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
分类检索的步骤：
1。分析待检课题，确定其学科，并厘清学科间的各种关系。 2。查出待检课题的分类号（工具简单时可以省略） 3。选择适当的检索工具 4。进入检索系统后选择分类号途径，并在对话框内输入分类号，开始检索。 5。对比题目，阅览相关信息，选出所需信息，并下载相关信息
6。原文的索取
《中图法》结构

二级类目
三级类目
四级类目
五级类目

…
中图法8种复分表
4/18
《中图法》五大部类
马克思主义、列宁主义、毛泽东思想
哲学宗教
社会科学自然科学
综合性图书
5/18
《中图法》结构
1）类目结构
F 经济
一级类目
6/18
F、经济类 F0 经济学 F1 世界各国经济概况、经济史、经济地理
4.排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念，是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中，就是在时间或空间上极大地收缩检
索范围。限定法是相对于排除法而言的，指对查找对象在时间和空间
上加以内在的肯定。排除的结果必然是限定，反之亦然。
16/18
图书馆图书标识：索书号
图书馆同一分类号的文献数量很多，为了区别相同类号的文献，在分类号的基础上，又给了一个区分符号，这个符号称之为书次号。书次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文献就是按照索书号的顺序排架管理的，书次号使用的是著者号，同样以字母+ 数字标明。。中文书索书号如：

信息检索方法和步骤

其它特色功能（检索策略保存、信息定制）
全文阅读工具（PDF、专用阅读器）
36
2.4 如何获得数据库的检索帮助与指南信息

一般数据库界面上都有“帮助”或者“检索指南”。图书馆等文献机构发布数据库时提供的使用帮助。通过Google等搜索引擎搜索。如：filetype:ppt 中国期刊全文数据库
3

3.1 间接检索法（即检索方法）

间接检索法是借助于检索工具查获所需文献的方法，包括顺查法、倒查法和抽查法。 • 顺查法是经过分析，确定查找的起始年代，再利用选定的检索工具由远及近地逐年查找文献的方法。 • 它适用普查一定时间的全部文献，查全率较高，并能掌握课题的来龙去脉，了解其研究历史、研究现状和发展趋势。 • 倒查法 • 此法与顺查法相反，是按照时间范围，利用选定的检索工具由近及远地逐年查找，直到查到所需文献为止。 • 由于这种方法重点是查检近期文献，所以能获得较新的文献信息，节省检索时间。 • 然而不如顺查法查全率高，容易产生漏检的现象。

来源：龚国伟.分析检索课题的方法与技巧研究.图书馆工作与研究.2006/04
20
1.2.1 分析检索课题的内容实质

从镀锌残渣中回收锌
• 工艺？ • 实际是：从高品位镀锌残渣中分离铁 • 所以课题可以这样表述：
“从锌块中分离铁”
21
1.2.2 隐性主题的处理---主题概念具体化

请分析主题概念。
硅化物、硫酸、钛络合物、钉胺、呋喃、吡啶、醇聚四氟乙烯、丁二酸（Ｐ）以及如金属板耐蚀钢、耐蚀合金等；

表示国家名称、地名、组织机构名称及人名的专有名词以及文献类型、文献载体的名词术语，

信息检索复习资料

一、名词解释1．信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。

2．白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。

3．数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

4．检索策略——就是在分析课题内容实质的基础上，确定检索系统、检索途径和检索词，并科学安排各词之间的位置关系、逻辑联系和查找步骤等。

5．截词检索——是指在检索式中用专门的符号（截词符号）表示检索词某一部分允许有一定词形变化。

6．参考数据库——有时又称为书目数据库，是指包含各种数据、信息或知识原始来源和属性的数据库。

7．特种文献——是指出版发行和获取途径都比较特殊的科技文献，一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。

8．学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文，它是随着学位制度的实施而产生的。

9．科技报告——是关于某科研项目或活动的正式报告或记录，多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。

10．电子图书——是指以电子文件形式存储在各种磁性或电子介质中，以磁盘、光盘、网络等电子媒体形式出版发行，通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。

11．电子报纸—多媒体技术、网络技术和通信技术的产物，是指在排、印、投递等方面基本上实现了电子化的报纸。

12．参考工具书——是指根据人们的需要，把某一范围的知识或资料加以分析、综合或浓缩，并按一定的排检方法编排，以备查阅、参考，用以解决有关事实和数据方面的疑难问题的图书。

13．年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料，提供详尽的事实、数据和统计数字，反映近期政治、经济发展的动向及科学文化进步的年度出版物。

网络信息资源检索

e、Gopher信息资源 Gopher信息资源 Gopher又称信息鼠，这是一种基于菜单的网络服务， Gopher又称信息鼠，这是一种基于菜单的网络服务，又称信息鼠类似万维网的分布式客户机/服务器形式的信息资源体系。类似万维网的分布式客户机/服务器形式的信息资源体系。它是因特网上一种分布式信息查询工具，各个Gopher Gopher服务它是因特网上一种分布式信息查询工具，各个Gopher服务器之间彼此连接，全部操作都在一级级菜单的指引下，用器之间彼此连接，全部操作都在一级级菜单的指引下，户只需在菜单中选择和浏览相关内容，户只需在菜单中选择和浏览相关内容，就完成了对因特网上远程联机信息系统的访问。此外，Gopher还可提供与前上远程联机信息系统的访问。此外，Gopher还可提供与前文所提及的其他多种信息系统的连接， WWW、FTP、文所提及的其他多种信息系统的连接，如WWW、FTP、 Telnet等 Telnet等。
（5）按发布机构分：）按发布机构分：
a、企业站点信息资源、这类资源站点一般以com为一级或二级域名注为一级或二级域名注这类资源站点一般以如中国石化公司。其册。如中国石化公司。信息资源一般以初始信息为主，信息资源一般以初始信息为主，如提供公司整体概各类产品信息、商业服务信息等，更新及时、况，各类产品信息、商业服务信息等，更新及时、动态性强。动态性强。 b、学校、科研院所站点信息资源、学校、这类站点一般以edu或ac为一级或二级域名注或为一级或二级域名注这类站点一般以册，如（江南大学）现名：（江南大学）现名：。主要提供学术性较强的各种。信息，如科研活动介绍、学术动态、信息检索、信息，如科研活动介绍、学术动态、信息检索、远程教育等。程教育等。

第6章计算机网络基础知识及Internet应用

计算机应用基础Internet部分
首页
6.1.4 计算机网络的拓扑结构
网络拓扑结构是指网络中计算机的连接方式，它既反映了网络的整体结构外貌，也决定了网络的性能、连通性、可靠性和通信费用。网络的拓扑结构有6种：星型、树型、环型、总线型、网状型和任意型，其中常用的有星型、总线型和环型，它们的结构如图所示。
通信协议具有可靠性和有效性。
计算机应用基础Internet部分
首页
Internet所采用的通信协议是TCP/IP协议。 TCP/IP协议由两部分组成：TCP协议（Transmission Control Protocol传输控制协议）和IP协议（Internet Protocol网际协议），它们目的是用于不同网络和计算机系统之间的连接。
计算机应用基础Internet部分
首页
2. 域名
域名系统用域名来表示IP地址，是IP地址的一个映射。域名系统的主要功能为:将域名转换成为实际的IP地址。如中国教育科研网的WWW服务器域名地址是 “ ” ，它对应的 IP 地址是 “202.112.0.36”，其中“www”是主机名。
星型结构
总线结构计算机应用基础Internet部分
环型结构
首页
6.2 Internet基础
6.2.1 Internet简介
Internet即因特网，又称国际互连网，是当今世界上最大的计算机网络，是一个将全球成千上万台计算机连接起来形成一个全球性计算机网络系统。它使得各网络之间可以自由的交换信息或共享资源，是一个全球的、开放的信息资源网。目前，我国与Internet直接接驳的主要有四大网络：中国科技网（CSTNNET）中国公用计算机网（CH INANET）中国教育和科研计算机网（CERNET）中国金桥网（CHINAGBN）

计算机信息检索02139自考资料

计算机信息检索02139自考资料第一章信息检索概述1.信息检索：指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。

2.根据检索手段的不同，信息检索能够分为手工检索、光盘检索、联机检索和网络检索。

3.信息检索的基本原理经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储，建立各种各样的检索系统，并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致，以便有效地获得和利用信息源。

4.信息检索语言信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

5.五个信息检索阶段：手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索，后三者统称为计算机信息检索。

6.与手工检索相比，计算机信息检索的特点表现在：（1）速度快、效率高，仅几分钟就能够从成千上万条记录中找到所需信息；（2）检索范围广，能够迅速而方便地浏览相关学科或主题的所有数据库中的记录，在网络中，几乎每一台个人计算机都能够成为信息源；（3）检索不受时空的限制，只要拥有相应的软件和硬件设备，就能够在任何地方借助光盘和通信网络查询所需信息。

7.信息检索的模型：就是运用数学的语言和工具，对信息检索系统中的信息及其处理过程加以翻译和抽象，表述为某种数学公式，再经过演绎、推断、解释和实际校验，反过来指导信息检索实践。

信息检索的三个经典模型是：布尔模型、向量空间模型和概率模型。

8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。

9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。

10.数据库由字段、记录和文档构成。

11.根据载体的不同，数据库可分为：联机数据库、光盘数据库和网络数据库三种。

12.信息检索系统评价的核心是检索性能评价。

13.检索性能评价：根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价，以进一步完善检索工作的过程。

文献检索与利用 ppt课件

《中国分类主题词表》
馆藏书目：
四. 信息检索的关键技术
信息抽取：对文本中包含的信息进行结构化处理，以表格的形式加以组织。
输入的是原始文本，输出的是固定格式的信息点。信息以统一的形式集成在一起，便于查找和比较。
文本分类与聚类：分类--基于统计或规则，根据文本的内容或结构特征，
将文本自动分到已知的类别中。聚类：将文本集合分组成多个类或者簇，使得同一个簇中的文本内容具有较高的相似度，二不同簇中的文本内容差别较大。分类一般需要训练，聚类不用。
• 信息检索是对信息项(information items)进行表示(representation)、存储(storage)、组织 (organization)和存取(access)。
• 狭义的信息检索
根据特定的需求，利用某种检索工具，按照一定的方法与步骤，从大量文献中查找出符合用户需求的信息与文献的过程。（information search）
自动文摘：是一种压缩技术，目标是从信息源中提取出重要且不冗余的信息，并以简介、浓缩、全面的方式呈现出来。
链接分析：用来分析网页的重要程度、如A链接向B，那么可以认为B中包含
A认为有价值的资源。
分布式信息检索：多台计算机、多个处理器大规模检索 Web信息检索：处理Internet信息的检索。
教学目的与意义
• Why --- 为什么学习信息检索 • What --- 什么是信息检索 • How --- 怎样进行信息检索 • Where --- 在哪里进行信息检索 • How-to-better --- 如何提高检索效率效果
教学目的与意义
• Knowledge 了解相关知识
• Skill
• 第三章信息检索系统的评价 • 第四章文本操作技术 • 第五章文本索引和搜索

02139 计算机信息检索

第一章互联网信息资源1、网络上的信息内容：①政府信息（最有价值，权威性，可靠性、低廉）；②科研信息；③教育信息；（各大学所设立的网站及相关信息）。

互联网已经发展成为一种重要的教育手段、学习环境。

④媒体信息；网络媒体受众广泛、关注度高、交互性强、价格低廉⑤商务信息；（各种采购、招标、推广与服务信息）⑥休闲娱乐信息；（最成功）2、互联网的信息资源：（1）特点：广泛性，多样性，共享性，新颖性，互动性，经济性；（2）局限性：分散，无序，多变，信息质量难以控制，信息安全难以保障。

3、互联网上信息资源的种类：（网络传输协议划分）（1）、Web信息资源：Web是World Wide Web(WWW,3W)的缩写，“全球信息网”“万维网”。

它把各种类型的信息（如文本、声音、动画、录像）和服务无缝链接，提供了丰富多彩的图形界面，直观方便。

①超文本传输协议HTTP：是浏览器与Web服务器之间相互通信、传输、响应用户请求的协议。

Web服务器根据客户提出的HTTP 请求，为用户提供信息浏览、数据查询、安全验证等方面的服务；②超文本标记语言HTML：一种专门编程语言，具体规定和描述了文件显示的具体格式。

③通用资源定位程序URL：又称网络资源的统一定位格式或统一资源定位器④主页Home Page：主页是浏览器访问某个Web服务器上的信息时第一个链接到的文档。

⑤链接Link：是Web网页的元素，是指向其他信息资源的指针，把Web页捆绑在一起。

⑥浏览器：指Web服务客户端的浏览程序，是显示网页服务器或档案系统内的文件，并让用户与这些文件互动的一种软件。

（2）、Telnet（互联网远程登录服务）资源的功能：通过在远程计算机上登录，使用户正在使用的计算机暂时成为它所登录的某一远程主机的仿真远程终端，进而实时访问、共享、使用到远程计算机系统中对用户开放的相应资源。

Telnet曾经是一个强有力的互联网资源共享工具，通过Telnet方式提供的信息资源主要有：政府部门、研究机构对外开放的数据库，某些商业性联机检索系统，一些大学和研究机构开发的电子布告栏系统BBS，还有许多大中型图书馆的在线公共检索目录。

信息检索教程PPT课件

目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的 Muscle Fish系统。
第30页/共34页
第6章计算机检索概述
1．什么是计算机信息检索？ 2．概述计算机信息检索发展简史。 3．简述计算机信息检索的类型。 4．与传统的手工检索相比，计算机信息
检索有什么特点？ 5．简述计算机检索策略的含义和作用。 6．什么是检索表达式？ 7．检索表达第3式1页的/共构34成页可以采用哪几种方法？
第6章计算机检索概述
8．提高查全率的方法有哪些？请举例说明。 9．结合自己的检索实践，说明如何提高查准率。 10．概述全文检索技术。 11．概述基于内容的图像检索技术。
第6章计算机检索概述
基于内容的图像检索技术
第26页/共34页
第6章计算机检索概述基于内容的图像检索方式主要有3种：（1）选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例
如用户可以给出红、绿、蓝三种颜色的百分比，或从系统所提供的图例中选择某个作为检索图样。
（2）草图查询。用画图工具生成草图，从系统中查询与草图颜色分布、形状或纹理相似的结果。
第8页/共34页
第6章计算机检索概述
6.2.2 检索表达式
检索表达式是检索策略的具体体现，简称检索式。检索式一般由检索词和各种逻辑运算符组成，具体来说，它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来，成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。
根据所检索媒体对象的不同，基于内容的多媒体检索技术又可分为基于内容的图像检索技术、基于内容的视频检索技术和基于内容的音频检索技术等。
第24页/共34页
第6章计算机检索概述

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关键词查询布尔查询(using AND, OR, NOT) 短语查询邻近查询全文搜索自然语言查询
7
信息检索模型

IR模型决定文档和查询的表示,以及文档和用户查询关系的定义. 主要的模型:

Boolean model Vector space model Statistical language model etc
Aspects Data Operator User’s need Results IR Unstructured Read only keywords DB Structured Read/Write SQL
Similar function Exactly match
IR 基本框架
6
IR查询

Trie树
例子
36
构建索引

Easy! See the example,

37
使用倒排序索引搜索
给定一个查询q, 按照下面的步骤搜索: 1.(词搜索): 从倒排序索引中找出查询q包含的每一词(组). 2.(结果匹配): 融合结果找出具有q包含的词(组) 的文档. 3.(排序分数的计算): 对结果中文档/页面排序,使用

词干: use
engineer
无用的: 提高IR和文本挖掘的效率

相似词匹配主要的作用是提高召回率融合具有相同词根(干)词，可以降低索引40-50%的大小.
23

降低索引大小

基本的词干提取方法
使用规则集. 例如：结尾移除法

如果一个词的结尾是辅助的s, 删除s. 如果结尾是es, 去除s. 如果结尾是ing, 删除ing, 除非剩下的仅是一个字符或th. 如果结尾是ed,在辅助符之前删除ed,除非仅剩下一个字符. …... 如果一个词结尾是 “ies”,而非“eies”或“aies”,则 “ies --> y.”

用户较少查看30页之后的页面. 原因?

查全率在Web搜索中意义不大.

30
作为巨大的IR系统——Web搜索

一个网络爬虫(robot)收集所有的网页. 服务器建立一个巨大的倒排序数据库和其他的索引数据库在查询(搜索)时,搜索引擎进行不同类型的查询向量匹配.
31
倒排序索引

倒排序索引是所收集文档的一个数据结构

每一不同词(组)后面跟着包含它的文档列表. 找出包含查询词(组)的文档. 多重查询词(组)也容易处理.

在检索中,需要一定量的时间：

32
实例

下面介绍一个例子，之前要了解一下Trie 树
Trie，又称单词查找树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。它有3个基本性质： 1. 根节点不包含字符，除根节点外每一个节点都只包含一个字符。 2. 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。 3. 每个节点的所有子节点包含的字符都不相同。这是一个Trie结构的例子：

基于内容的排序基于链接的排序
38
隐式语义索引

Latent semantic indexing 在随机的词组下，隐藏着语义结构，然后利用奇异值分解(singular value decomposition: SVD)的统计学方法，来估算这种结构并去除噪音。
2011-4-30
南京航空航天大学陈永洲
26

度量系统的效果:

精度—查全率曲线
27
不同的检索算法比较
28
多重查询的比较

计算所有查询的平均精度.

画出精度的召回曲线进行F-score计算.
29
精度排序

对选出的排序位置上计算其精度. 主要用于Web搜索的估算. 对Web搜索引擎,能计算出精度为前5, 10, 15, 20, 25 和 30的返回页面
9
Boolean model (contd)

组合的查询词间逻辑关系使用Boolean操作符 AND, OR, 和 NOT.

例子, ((data AND mining) AND (NOT text)) 给定一布尔查询, 系统检索出满足布尔逻辑关系为真的所有文档结果. 称为exact match.
39
步骤

Create the frequency matrix Frequency_Matrix. SVD construction: Compute the singular valued decomposition of Frequency_Matrix by splitting Frequency_Matrix into 3 matrices, U, S, V. Vector identification: For each document d, let vec(d) be the set of all terms in Frequency_Matrix whose corresponding rows have not been eliminated. Index creation: Store the set of all vec(d)’s, indexed by one of a number of techniques (such as TV-tree).

降低索引 (或数据)文件的大小停用词计数占所有词计数的20-30%. 提高效率和效益停用词对搜索和文本挖掘是无用的停用词可能增加检索系统的负担
22
词干提取

找出词干和词根的技术. 例如:

user users used using
engineering engineered engineer
Vector space model

文档也可以作为词和词组的 “bag”. 每一个文档可以表示为一个向量. 权重不仅为0或1.基于TF或TF-IDF计算每个词的权重. Term Frequency (TF) Scheme: dj文档中ti的权重就是在文档dj中出现ti的次数, 用 fij表示. 归一化方法也可以使用.
8
Boolean model

每一文档或查询作为一个“bag” of words or terms. 词序不考虑. 给定文档集合D, 词集V = {t1, t2, ..., t|V|}. V 也称为词汇表vocabulary. 权重wij > 0是文档dj ∈ D 中每一词ti 的. 在文档 dj中不出现的词, wij = 0;其中|V|所有词数目. dj = (w1j, w2j, ..., w|V|j),
13

词TF-IDF权重法

所知道的最好的权重方法
TF: term frequency IDF: inverse document frequency. N: 总文档数 dfi: 具有ti 的文档数目.

最后的TF-IDF词权重:
14
vector space model的检索

查询q用同样或类似的方法表示. 查询q对文档di的关系: 比较查询q和文档di的相似性. 余弦相似性(两个向量夹角间的余弦值)

文档集定义为:

如果查询是“hardware and software” 那么检索的文档结果是什么?
16
例子 (cont.)

布尔查询匹配:

将检索到 A4, A7 (“AND”) 结果: A1, A2, A4, A5, A6, A7, A8, A9 (“OR”)
q=(1, 1, 0) S(q, A1)=0.71, S(q, A2)=0.71, S(q, A4)=1, S(q, A5)=0.5, S(q, A7)=0.82, S(q, A8)=0.5, 检索的文档集 (排序)=

相似性匹配 (余弦):

S(q, A3)=0 S(q, A6)=0.5 S(q, A9)=0.5
{A4, A7, A1, A2, A5, A6, A8, A9} 17
Okapi相关度方法

另一个直接计算每一文档与查询的相关度. Okapi方法和它的变异变量都是一些流行的方法.
3
Information Retrieval (IR)

理论上IR就是要找到所需要的信息, IR帮助用户找到匹配他们需求的信息.

表达为查询找出用户查询的文档

IR关于文档的检索强调文档作为基本的单元.

技术上, IR是研究关于获得、组织、存储、检索和信息的分布的.
4
IR与数据库查询的区别

余弦一般也在文本聚类中使用
15
例子

三个词表示的文档向量:

hardware, software, users the vocabulary
A1=(1, 0, 0), A4=(1, 1, 0), A7=(1, 1, 1) A2=(0, 1, 0), A5=(1, 0, 1), A8=(1, 0, 1). A3=(0, 0, 1) A6=(0, 1, 1) A9=(0, 1, 1)
Web数据挖掘
南京航空航天大学陈永洲 yzchen@ 2011年4月30日星期六
第6章: 信息检索与Web搜索
Introduction

文本挖掘参考数据挖掘,将文本视为数据. 大部分的文本挖掘使用信息检索方法—— Information Retrieval (IR) methods来预处理文本文档. 这些方法与传统的对关系数据库的数据处理方法不完全相同. 网页搜索是IR的一个分支.