什么是信息检索

合集下载

04 网络信息检索-检索表达式

04 网络信息检索-检索表达式
44
3、 科 技 特 种 文 献
科技报告 科技会议文献 专利文献 学位论文 标准文献 政府文献 产品资料 科技档案
45
(1)科技报告(technical report)
是报道科学研究项目和开发调查工作的成 果总结,或是其进展中的阶段性进展情况报告。 科技报告的内容不少涉及国家部署、支持的高 科技研究项目,包括生产技术方面的、基础理 论方面的。它专业性强,报道详尽,有技术数 据、图表,有研究比较,出版速度快。
37
科技图书内容比较成熟、全面、可靠、系统, 它是对已有研究成果、生产技术和经验或某一 知识体系的论述或概括。 科技图书的基本素材来自期刊论文、会议论文、 研究报告、学位论文等一次文献,其中包括作 者本人的研究、见地。 科技图书的出版周期较长,信息传递较慢,这 是它的一大遗憾。为获得最新研究信息,科技 人员首选的出版物是科技期刊。
——十大信息源
(1)科技图书 (6)科技报告
(专利文献 (5)学位论文
特 (8)标准文献

文 (9)科技档案 献 (10)产品样本
36
1、科技图书(Sci-Tech book)
一般分为两大类:阅读类图书(reading book)和参考类图书(reference book),前 者有教科书(text book)、专著(monograph) 和论文集(anthology)等,后者是参考工具 书(reference book),它们是百科全书 (encyclopedia)、手册(handbook)、年鉴 (yearbook)等。
20
逻辑与(AND)*
换一个角度看,“逻辑与”又能 防止漏检。
例如,用户输入“新闻美学”作 为检索词,可命中《戈公振的新闻 美学实践》这样的文献,但漏检了 《新闻的美学属性》、《新闻标题 中的美学》这些文献。如果用“新 闻*美学”来进行检索,则上述三 篇文献都检中。

文献检索整理(W)

文献检索整理(W)

一、概念1.信息:信息是人类了解自然及人类社会的凭据;是指对消息的接受者来说预先不知道的报道;是生物以及具有自动化控制系统的机器通过感觉器官和相应的设备与外界交换的一切内容。

2.知识:是人类对客观事物规律的认识。

是人的主观世界对客观世界的概括和如实反映。

是人类征服自然、改造自然的经验记载。

是人类大脑通过思维重新组合、转换、提炼系统化的信息组合,是信息的一部分。

3.情报:为解决一个特定问题所需要的、取得的一种针对性、及时性的知识。

是人们在一定时间内为一定目的而传递的有使用价值的知识。

4.文献:在存贮、检索、利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、或在载体上或依附载体而存贮有信息或数据的载体。

换言之,文献就是记录有知识的一切载体。

5.一次文献:也叫一级文献或原始文献,是作者根据工作经验、研究成果和实践体会为依据形成的处于原始形式中的文献。

6.二次文献:也叫检索性文献是将一次文献(包括部分三次文献)浓缩、整序、加工编辑成有系统的条目化文献,将大量分散的无序信息转变为有序的便于管理的系统。

7.检索工具:检索工具是用以储存、报道和检索文献的工具。

因此,它具有存储和检索的功能。

8.检索语言:检索语言是指用于描述检索系统中信息的外部特征和内部特征及表达用户信息提问的一种专门的人工语言,是保证存储和检索一致的一种共同性的人工语言。

9.索引:是指对文献的外表特征和内容特征用各种检索标识符(字母、数字、汉字等)进行描述,并将它们按一定的规则及排列方式组织起来。

10.信息检索:广义的信息检索全称为“信息存储与检索”,是指把信息按一定的方式予以排列、贮存,并根据用户需要检出所需信息的过程和技术。

狭义讲是指从信息集合中查找并检出用户所需要的信息的过程。

信息检索分为文献检索、数据检索、事实检索。

11 分类号:每一个类目都用相对固定的代码作为标识,叫做分类号。

12.知识产权:知识产权,概括的说,是指公民、法人或其公组织对其在科学技术和文学艺术等领域内,主要基于脑力劳动创造完成的智力成果所依法享有的专有权利。

信息检索技术

信息检索技术

第一章信息检索概述1,什么是信息检索?它有哪些主要类型?信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。

有目的和组织化的信息存取活动,其中包括“存”和“取”两活动。

旧分类方法:文献检索、事实检索、数据检索新分类方法:文本检索、数值检索、音/视频检索2,试分析阐述信息检索的基本原理,信息集合、需求集合、匹配与选择,信息检索三阶段及期特点?答:即信息集合与需求集合的匹配与选择。

(1)信息集合是指有关某一领域的,经采集、加工的信息的集合。

形成可供用户访问与检索的对象,在某种意义上说,它是以一种公共知识结构,它有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或者提供某种信息区激活人脑中存储的知识。

(2)需求集合:用户的信息需求是在社会实践活动中产生的。

众多用户不同形态的信息需求的汇集,就形成了需求集合的存在。

信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。

(3)选择与匹配:面对信息集合与需求集合,如何在两者之间建立起了解与沟通的桥梁,以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢?这就需要信息检索提供一种“匹配”机制。

它的主要功能在于:能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。

这里,我们要求匹配机制至少包括两个要素:一是匹配标准,即相似性标准;二是执行匹配的动因。

3,信息检索主要经历了哪些不同的发展阶段?各阶段有何特点?(1)手工检索阶段,主要特点可以概括为印刷文献(图书、期刊、会议、专利、学位论文)为主要检索对象;以各类文摘、题录、和目录性工具书为可利用的主要检索工具;以图书馆的参考咨询部门为开展信息检索服务的中心机构。

(2)计算机化检索阶段(脱机批处理检索时期、联机实时检索时期、联机网络化与多元化检索时间),主要特点:以各类机读数据库为检索对象;各类信息中心,联机服务中心作为新兴的信息服务部门而存在;信息检索用户逐渐由专业检索人员(检索中介)向个人终端用户转移和扩散。

什么是信息检索

什么是信息检索

什么是信息检索?1、信息检索是一门关于如何查找文献、知识和信息的工具性课程,被认为是开启知识宝库的金钥匙。

2、信息检索课程是一门对于本科生到博士生都具有很强实用性的课程,对于帮助我们学生提高科研能力和拓宽科研领域具有重要的作用。

开设信息检索课的作用大学生需要学习,如何提高自己获取和利用文献信息的能力;进入工作岗位后如何更新自己的知识结构,使自己不落伍.所以,获取知识和信息的能力成为了大学生必须具备的重要能力之一.信息检索这门课主要讲授检索文献的一些基本方法,培养学生检索文献的技能.学习和科技需要文献,个人全面素质的提高需文献,生活中也离不开各种信息.我们在信息检索课中,老师侧重介绍了信息检索工具与检索技巧!但对于今后我们的生活中,这种检索思想将会发挥更大的作用,所以平时我们应多积累一些有关互联网上的检索工具(包括搜索引擎和检索技巧)方面的知识,这方面的能力可能带给我们更大的实惠。

信息检索课程作为一门方法课程,它不仅使我们的信息意识更为敏锐,而且使我们了解了信息组织与检索的原理,让我们学会了操作使用各种专业文献信息数据库和网络检索工具。

通过老师认真指导在我们不断练习的基础上,我们不仅掌握了娴熟的检索操作技能,而且逐步掌握了如何选择合适得信息源,如何确切表达特定的信息需求,以与如何应对检索过程中出现的各种问题。

在信息检索课中学习到了什么?1、通过信息检索课程学习,知道了什么是信息,信息的有哪些类型,信息有什么特征,信息有什么作用。

2、通过信息检索课程的学习,知道什么是信息检索,信息检索的类型有哪些,知道了信息检索的过程,知道了信息检索的方法和途径,知道了信息检索的技巧和策略,学会了如何去评价信息。

3、通过信息检索课程的学习,知道了网络上原来还有那么多数字图书馆,有那么多知识数据库。

4、通过信息检索课程的学习,发现搜索引擎并不是仅仅用来搜索网页和MP3,还可以用来搜索重要的知识,发现了搜索引擎原来还有如此多的笑秘密。

信息检索

信息检索

1.什么是信息检索?从广义的角度讲,信息检索包含信息存储和信息获取两个过程。

信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。

获取是存储的逆过程,其实质是根据特定的需求,运用以组织好的检索系统,将特定的信息查找出来。

存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。

狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程,相当于人们所说的信息查检等。

具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。

2.信息检索效果的评价指标有哪些?(1)检索效果有效性评价,即检索技术效果的评价,是对检索系统满足检索要求的有效程度的评价,主要以查全率和查准率为评价标准。

(2)检索系统使用的评价,包括系统对用户是否需要,是否实用有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法。

(3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。

评价信息检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。

附:查全率=【检出相关文献信息量/检索系统中相关文献信息总量】*100%=(a/a+c)*100%查准率=【检出相关文献信息量/检出文献信息总量】*100%=(a/a+b)*100%漏检率=【漏检相关文献信息量/检索系统中相关文献信息总量】*100%=(c/a+c)*100%误检率=【误检文献信息量/检出文献信息总量】*100%=(b/a+b)*100% 3.什么是检索语言?检索语言的实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。

它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代码),用于对文献内容进行主题标引、特征描述或逻辑分类。

荷兰医学文摘excerptamedica

荷兰医学文摘excerptamedica
1、光盘: 英文名:Compact Disc 简称CD,
定义:一种用激光技术在特制圆盘上记录和再生信息的介 质,是一种不同于磁性载体的光学存储器
直径4.75英寸 重量150g
* 只读光盘 CD-ROM(Compact Disc-Read Only Memory) * 写读光盘 WORM (Write Once Read Many) * 可擦写光盘 Writable
⑶倒排文档: 将数据库中记录的全部文献特征标识按一
定顺序排列而成的文献记录集合。 2、数据库的利用
倒排文档:
著者倒排文档 著者 存取号 Han js … 010003 Han qd …010001 Ma dl …010002
.
.
.
.
.
.
主题词倒排文档 主题词 存取号 基因 … 010003 心血管 … 010001 肿瘤 … 010002
(一)脱机检索 Off-line Retrieval
定义:又称批式检索,是指用户将检索要求送往检索 中心,由专职操作计算机的人员进行检索,再将 检索结果返回给用户的一种检索方式。
优点:①批处理可同时进行多项检索(信息存储在 磁带上)
②检索费用低,无通讯费用,费用由用户平贪
缺点:①缺乏用户与系统的直接交流,检索要求表 达不清,影响检索质量, “ 一次机会”式的检索 ②时间上的延迟
优点:
① 克服了地理上的障碍 ,“人机对话”方式可使检索 者随意更改检索策略,从而达到很高的检全率和 检准率
② 消除了时间上的延迟:分时 ③ 保证检索者获得最新、最及时的文献信息
缺点:
①检索费用高:如 Dialog系统 ②检索技术较为复杂,难以成为普及型的检索手段
(三)光盘检索 CD-ROM SEARCHING

信息检索简答题

信息检索简答题

信息检索大题1.搜索引擎有哪些类型,其主要组成是什么?答:类型:按检索机制划分,可分为全文搜索引擎、目录搜索引擎、元搜索引擎。

按检索内容划分,可分为综合型搜索引擎、专题型搜索引擎。

2.已知名叫孙钱章的作者99年出版了一本书,但不知书名及其他信息,该如何找?写出书名及出版社。

答:可以各种检索工具检索,比如可以用“读秀图书搜索与文献传递系统”进行检索,点击“图书”选项,在检索框中输入“孙钱章”,选择“年代”为1999年,得到检索结果为《知识经济概论》,北京市:警官教育出版社。

3. 举例说明布尔逻辑运算中“逻辑与”和“逻辑或”的检索特点。

逻辑“或”是用于表示并列关系的一种组配,用来表示相同概念的词之间的关系,用OR 或“+”算符表示。

例如检索式A OR B,表示检索的文献记录中只要含有A或者B中的任何一个即算命中。

这种组配可用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。

4.分别列举搜索引擎、馆藏检索工具、文摘索引检索工具、全文检索工具、数据检索工具和专利检索工具各两个。

搜索引擎:Google搜索引擎Yahoo搜索引擎馆藏检索工具:清华大学OPAC —— Innopac 华中农业大学OPAC —— ILAS Ⅱ文摘索引检索工具:知网节维普中文科技期刊数据库全文检索工具:Elsevier全文数据库百度数据检索工具:国科图OPAC “万方”数字化期刊专利检索工具:SIPO 专利检索USPTO 专利检索5.必考)谈谈如何提高文献检全率和检准率?答:提高检全率的方法:(1)降低检索词的专指度,可从词表或检出文献中选一些上位词或相关词补充到检索式。

(2)调节检索式的网罗度,如删去某个不甚重要的概念面。

(3)进行族性检索,可用分类号或采用一组近义词、同义词或者相关词用OR 连接在检索中。

(4)进行截词检索,可以采用后截断、前截断、前后截断等方法。

(5)增加检索途径,如将主题途径与非主题途径结合起来使用。

信息检索文字题复习提纲(名词解释、举例、简答、论述)

信息检索文字题复习提纲(名词解释、举例、简答、论述)

信息检索文字题复习提纲(名词解释、举例、简答、论述)信息检索复习题1、信息检索的原理是什么?(1)广义信息检索原理:在存储过程中,专门负责信息检索系统和数据库建立的人从各种各样的信息资源中,收集有用的信息,对有用的信息进行主题内容的分析,找出能够全面、准确表达主题内容的概念,借助于检索语言(通常是检索词表)把分析出来的概念转换成检索系统所采用的词语,或者直接使用自然语言,再按照一定的规则和方式将这些有用的信息组织成可供件所用的数据库,并存储在一定的介质上。

(2)狭义信息检索原理:狭义信息检索的原理就是广义信息检索中信息检索过程的那部分原理。

信息检索基本原理中的核心部分就是用户所使用的检索词或者由检索词和运算符所组成的检索式与数据库中的检索词及其逻辑关系之间的比较和匹配机理。

两者相匹配的信息被检索出来(命中),不相匹配的信息被拒绝。

*2、信息检索有哪些工具?按处理信息手段分:手工检索工具、计算机检索工具。

按著录方式分:目录型(国家书目、馆藏书目、联合书目、专题书目)、题录型、文摘型(指示性、报道性、评论性)、索引型(主题索引、分类索引、著者索引)。

3、信息检索的途径和方法有哪些?(1)信息检索途径分类途径:按学科分类体系来检索文献信息。

从分类途径检索文献信息,主要是利用分类目录和分类索引。

它以知识体系为中心,比较能体现学科系统性,反映学科与事物的隶属、派生与平行关系,便于从学科所属的范围来查找文献资料,并可起到“触类旁通”的作用。

题名途径:是根据文献名称包括书名、刊名、篇名等来检索文献的途径。

一些检索系统中提供题名字顺检索途径,如书名目录、刊名目录、篇名索引等。

(2)信息检索方法追溯法:也称引文法,是利用综述或已经掌握文献所附的引文注释和参考文献目录作为线索逐一追查原文,再利用这些原文所附的参考文献目录逐一扩检,产生滚雪球效果。

直接法:又称常用法,是直接利用检索工具检索文献的方法。

它又分为顺查法(由远及近)、倒查法(由近及远)和抽查法(重点时间段进行)。

信息检索复习思考题

信息检索复习思考题

信息检索复习思考题第一部分:信息检索概述1、信息资源的概念及其特点是什么?答:信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。

信息中的载体信息和主体信息是使信息资源的最基本的组成部分。

特点:客观性,寄载性,传递性,动态性,相对性,增长性,共享性,规模性。

2、简述信息资源的类型。

答:按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。

现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。

3、什么是信息检索?其类型是什么?答:信息检索包括存储与检索两个部分。

存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。

这里要理解概念分析。

概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。

类型:1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索2.按组织方式分,可有全文检索、超文本检索和超媒体检索3.按检索手段分,有手工检索和机器检索4、信息检索的研究内容有哪些?答:1.检索理论研究2.检索语言研究3.数据库研究4.著录法研究5.标引和组织法研究6.检索系统研究7.检索策略研究8.检索服务研究第二部分:信息检索理论与方法1、如何制定检索策略?答:1.选择检索系统2.确定检索词3. 构造检索表达式4.实施检索策略2、检索词有哪些?答:1)表示主题的检索词标题词,单元词,叙词,关键词2)表示作者的检索词作者姓名、机构名3)表示分类的检索词分类号4)表示特殊意义的检索词ISBN、ISSN、引文标引词3、信息检索方法主要有哪些?常规检索法、回溯检索法、循环检索法4、据文献的内部特征和外部特征,有哪些信息检索途径?据文献外部特征和内部特征,信息检索途径分为两大类:1.以文献的外部特征为检索途径1)题名途径2)责任者途径3)号码途径2.以文献内容为检索特征1)分类途径2)主题检索3)分类主题索引5、解释著录、著录法、款目、标引。

信息检索方法和步骤

信息检索方法和步骤




其它特色功能(检索策略保存、信息定制)
全文阅读工具(PDF、专用阅读器)
36
2.4 如何获得数据库的检索帮助与指南信息

一般数据库界面上都有“帮助”或者“检 索指南”。 图书馆等文献机构发布数据库时提供的使 用帮助。 通过Google等搜索引擎搜索。 如:filetype:ppt 中国期刊全文数据库
3

3.1 间接检索法(即检索方法)

间接检索法是借助于检索工具查获所需文献的方法,包括 顺查法、倒查法和抽查法。 • 顺查法 是经过分析,确定查找的起始年代,再利用选定的检 索工具由远及近地逐年查找文献的方法。 • 它适用普查一定时间的全部文献,查全率较高,并 能掌握课题的来龙去脉,了解其研究历史、研究现 状和发展趋势。 • 倒查法 • 此法与顺查法相反,是按照时间范围,利用选定的 检索工具由近及远地逐年查找,直到查到所需文献 为止。 • 由于这种方法重点是查检近期文献,所以能获得较 新的文献信息,节省检索时间。 • 然而不如顺查法查全率高,容易产生漏检的现象。


来源:龚国伟.分析检索课题的方法与技巧研究.图 书馆工作与研究.2006/04
20
1.2.1 分析检索课题的内容实质

从镀锌残渣中回收锌
• 工艺? • 实际是:从高品位镀锌残渣中分离铁 • 所以课题可以这样表述:
“从锌块中分离铁”
21
1.2.2 隐性主题的处理---主题概念具体化

请分析主题概念。
硅化物、硫酸、钛络合物、钉胺、呋喃、吡啶、醇 聚四氟乙烯、丁二酸(P)以及如金属板耐蚀钢、 耐蚀合金等;

表示国家名称、地名、组织机构名称及人名的 专有名词以及文献类型、文献载体的名词术语,

信息检索

信息检索

信息检索1.信息检索的概念。

狭义信息检索是指用户找出有关信息的过程。

广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。

2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。

当前三分方法:文本检索、音频与视频检索、数值检索。

(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。

实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。

一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。

二、需求集合:用户的信息需求是在社会实践活动中产生的。

当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。

三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。

匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。

4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。

5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。

信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。

检索是什么意思

检索是什么意思

检索是什么意思
对于这个问题相信大家都很好奇吧,下面我就为大家介绍一下。

检索的基本含义:检索,是指根据一定目的,从文献中查出所需信息的过程;也指从一定范围、领域或项目中找出所需要的事物或有关的人员等。

搜索引擎顾名思义,就是在互联网上通过相应的技术来帮助我们获取自己想要的资源并完成查询的服务平台,可以说只要你会使用电脑和能够正常接入互联网,那么使用搜索引擎来寻找您需要的资源将不再困难。

检索的概念检索一般是指按照某种要求或标准查找和选择信息
资料。

搜索则是指主动地、有目的地去寻找。

由此可见,两者之间既有区别又有联系。

从信息检索的角度看,它包括三方面的含义:1.
检索是从文献中查找所需要的知识和情报。

2.检索是对所需要的知识和情报进行鉴别和筛选,然后提供给用户。

3.检索是为了满足用户的需要而采取的各种手段和措施。

从搜索引擎的角度看,它是指为了实现特定的功能,利用计算机科学技术,对互联网上海量数据进行组织和处理,存储和管理,并为用户提供检索服务的系统软件。

从这些概念可以看出,检索与搜索是不同的。

检索侧重于对信息的收集,而搜索则侧重于信息的获得。

如何利用搜索引擎查询到所需内容呢?其实非常简单,你首先需要把你想要的内容输入到百度里面,当然前提是你必须知道你要查询的内容,然后点击百度的“搜索”键,当然还可以直接点击右边的搜索框,最后输入你要查询的内容,例如:输入“自考报名时间”,就
会显示出全国各省市的报名时间,并且会告诉你哪天开始报名,比较适合急着报名的朋友。

信息检索课堂作业

信息检索课堂作业

信息检索评价
要求:
【1】根据下表的提示,为每一类问题构建5个具体的query,检索式尽量用不同的表达,比如张学友是什么时候出生的?张学友的出生日期?等等。

同一类query的问法最多只能重复两次,比如乾隆的生日,张学友的生日(不是换人名,是换问法)。

问题不一定要跟例子一样,只要符合问题类型,请尽情发挥。

(记录时把例子清空)
【2】如果某个搜索引擎唤出了知识图谱的窗口,记录Y,否则记N。

【3】观察右侧的信息元侧边栏,为以下问题评分(1-5),1表示完全不认同,2表示不认同,3表示一般,4表示认同,5表示非常认同
Q1:信息元侧边栏是否提供了你感兴趣的关键事实?OR信息元侧边栏提供的结构化摘要信息是否是你需要的?1,2,3,4,5 (例如检索姚明生日,右侧出现姚明身高、体重等)
Q2:信息元侧边栏有没有提供更深入更广阔的知识?OR信息元侧边栏提供的知识是否超出你预期的(意想不到的、小惊喜)?1,2,3,4,5(例如检索姚明生日,右侧出现他家人的相关信息,或者科比、林书豪等其他球星的相关信息)。

信息检索 什么是搜索引擎和信息门户

信息检索  什么是搜索引擎和信息门户

什么是搜索引擎。

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

这种引擎它的特点是搜全率比较高。

什么是信息门户。

在Internet的环境下,把各种应用系统、数据资源和互联网资源统一集到信息门户之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面,并通过对事件和消息的处理、传输把用户有机地联系在一起。

什么叫文献检索

什么叫文献检索

什么叫文献检索文献检索(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,这是广义的信息检索。

狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。

下面由带领大家简单了解一下。

文献检索主要分类计算机信息检索是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。

与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。

零次文献指未经正式发表或未形成正规载体的一种文献形式。

如:书信,手稿,会议记录,笔记等。

特点:客观性,零散性,不成熟性。

一般是通过口头交谈、参观展览、参加报告会等途径获取,不仅在内容上有一定的价值,而且能弥补一般公开文献从信息的客观形成到公开传播之间费时甚多的弊病。

一次文献(primary document):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。

大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。

二次文献(secondary document):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。

检索工具书和网上检索引擎是典型的二次文献。

三次文献(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。

信息检索题目答案

信息检索题目答案

4、信息检索在发展过程中经历了那些阶段?20世纪中期以前,手工式阶段20世纪中期,机械式阶段3、试分析布尔模型的优缺点•缺点–开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难–实际上这种模型没有考虑关键词在文档中的频率(因为所有的权重都是二值的)–假设关键词之间相互独立第03章文本索引和搜索1、什么是索引?建立索引的目的是什么?常用的索引技术有哪些?–索引是一种数据结构,它在关键词与包含关键词的文档之间建立了一种映射关系,从而加快检索的速度。

•建立索引的目的–加快检索速度•常用的索引技术–倒排索引–后缀数组–签名文件2、什么是倒排索引•倒排索引–也称倒排文档,是从关键词快速查询到文档的索引结构。

文档正常表示为关键词的集合,建立倒排索引是把每个关键词表示为其所在文档的集合,这个过程称为inversion,即倒排。

3、倒排索引的记录表中可以存放哪些内容?•位置信息–形式上:序号或指针–内容上:文档、段落、句子、词•附加信息–特殊位置信息:所在单元(标题、小标题)–权重信息4、倒排索引的建立方法有哪些?各方法具体如何实现?•基于排序的倒排文档建立方法•步骤–在文档中抽取关键词,并在其后附上其文档编号。

即表示成<单词,文档编号>的形式–对抽出的关键词进行排序,使之便于归并相同关键词–对相同关键词进行归并,把合并后的关键词放入倒排文档的词汇表。

统计每一关键词的文档频率作为目长,把每一关键词后的记录号顺序放在记录表中•基于合并的倒排文档建立方法算法–①逐个读取文档,在内存中使用动态数据存储结构(如动态数组、链表等)保存索引,直到占用的内存大小超过一定的阈值为止–②将生成的临时索引结构转存到磁盘,并清空内存–③如果所有文档处理完毕,则转到④;否则,转到①记录表中一般用16位或32位整数表示文档和单词位置的绝对编号,16位容易溢出而32位浪费空间。

解决该问题的方法1、定长整数描述变化:用比较少的字节(如16位)表示编号的相对变化,仅记录相邻位置之间的差异。

信息检索之检索语言

信息检索之检索语言
内容摘要:社会信息化是当代社会的一种大趋势,他正推动着公共行政现在化的进展。信息技术发展对诸如行政人员、行政决策、行政组织、行政方法、行政公文、行政管理模式等公共行政管理要素和过程产生着深远影响。
布尔逻辑检索有哪几种,其功能是什么?
常用的布尔逻辑算符有三种,分别是:
结果:增加检索专指,提高差准率。
描述文献外表特征的检索语言可简要概述为:题名、著者、文献编号等索引。

(一)表达文献外部特征的检索语言
表达文献内部特征的检索语言
分类语言 分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。 以知识属性来描述和表达信息内容的信息处理方法称为分类法。
文字型数据库是指以文字字符为主要记录内容的数据库,包括书目型、事实型、百科全书型、词库型和全文型数据库。这类数据库主要用于查找相关文献信息。
数值型数据库包括来自科学研究,原始文献或者调查研究的各种数值型或图表型数据库。这类数据库主要用于查找确定对象的特定数值信息。
数据库的成
从使用者观点观察,数据库主要由“-----记录-----字段----”三个层次构成。
文档从数据库的内部来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档
记录是文档的基本单元。他是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一篇完整的文献:在书目数据库中,一个记录相当于一条文摘或题录。
字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录含有的题名、作者、出版年、主题词、文摘等字段。
基本字段包括题名、文摘、关键词等,是与文献内容相关的字段。辅助字段包括作者、着这单位和期刊名称等,是与文献内容基本相关的字段。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

17
—绪论
文献信息源→主要的文献信息源 IV
会议文献
会议文献指在各种会议上宣读和交流的论文、报告和其他有关资料。传统会议文 献多以会议录的形式出现,英文常用Transactions表示在会议上发表的论文,用 Proceedings表示会议的记录和会后整理出版的会议文献。会议文献的特点是专业 性强、内容新、学术水平高、出版发行较迅速。会议文献大部分是本学科领域内 的新成果、新理论、新方法等,且经过会议审查、推荐,经过专家学者提问、讨 论、评价、鉴定,可靠程度相当高。
19
—绪论
文献信息源→主要的文献信息源 VI
政府出版物
政府出版物指由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的 文献,可分为行政性文献(包括宪法、司法文献);科学技术文献,指政府部门 出版的科技报告、标准、专利文献、科技政策文献、公开后的科技档案、经济规 划等。 常见的政府出版物有:报告、公报、通报、会议录、统计资料、地名词典、官员 名录等。
16
—绪论
文献信息源→主要的文献信息源 III
标准文献
狭义的标准指按规定程序制定、经公认的权威机构批准的一整套特定范围内必须 执行的规格、规则、技术要求等规范性文献;广义的标准指与标准化工作有关的 一切文献,包括标准形成过程中的各种档案、宣传推广手册及其他出版物等。 标准文献具有约束力、时效性和针对性的特点。
信息认知: 对信息和信息活动的了解和看法,其中最重要的是评价 性 的认知; 信息意识 信息情感: 人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏惑性、 人们在感受信息的过程中,逐渐形成的反映需求关系的 内心体验; 选择能力和消化吸收能力。有无信息意识决定着人们捕捉、判断和利用信 信息行为倾向: 息的自觉程度,而信息意识的强弱对能否挖掘出有价值的信息、对文献获 个体在信息活动中表现出来的行为趋向,是信息行为的 取能力的提高起着关键的作用。 心里准备状态。
6
—绪论
知识与信息
OCED对知识的分类
1、Know-What:关于事实的知识;
2、Know-Why:自然原理和规律方面的科学理论,形成于专门研究机构 和大学等;
3、Know-How:指做某些事情的技艺和能力,企业的技术情报和商业信 息被归入这一类信息。 获取知识的途径 1、直接来源于产生信息的客观事物; 2、通过信息载体或媒介。
11
—绪论
文献信息源→文献的构成:符号系统
•图画:最早出现的文献信息符号,具有较强的直观性,信宿无须接受文字训练便 可与信源沟通。 •文字:是有声语言信息的书面表达形式,由图画演变而来。文字可弥补图画难以 表达的抽象思维信息的缺陷。但文字的特点——高度概括性、使用随意性、音义 双重性也往往导致词不达意、一音多义、一语多音的现象,给信息交流带来误解。 这说明人工符号永远只能是接近表述信息的原意。 •声像:指留在唱片、磁带上的音频信息和拍摄在胶卷、磁带上的视频信号。通过 一定的播放设备方可展现信息的内容。 •电磁信息符号:指计算机可读磁盘或光盘上的信息符号。这类型信息符号必须通 过计算机相关设备的解码方可提供给人类。
9
—绪论
文献信息源→文献的涵义
ISO/DIS5127 为了把人类知识传播开来和继承下去,人们用文字、图形、符号、音频、 视频等手段将其记录下来,或写在纸上,或晒在蓝图上、或摄制在感光片 上、或录制在唱片上、或存储在磁盘上。这种附着在各种载体上的记录统 称为文献。 GB3792.1-83 记录有知识的一切载体。
15
—绪论
文献信息源→主要的文献信息源 II
报纸
报纸是出版周期最短的定期连续出版物。报纸的基本特点是内容新,涉及面广、 读者众多、影响面广。及时性是报纸区别于图书与期刊的最主要特征,有的新闻 时差仅几小时。报纸能体现信息传播的连续性和完整性:人们可以从报纸上得知 即将发生什么事(预测),正在发生什么事(报道),对最后结束的的反馈信息 (综述)、以及发生的事意味着什么(分析、评论)。报纸的缺点是材料分散、 知识不够系统、信息分布零散。
4
—绪论
信息的涵义 II
在信息论理论角度,将信息定义为用来减少随机不确定性(Uncertianty) 的东西,信宿未收到消信源的不确定性。
信息的定义多元化的成因
1、信息本身的复杂性,信息是多元化、多层次、多功能的综合物。
2、信息学科是一门新兴学科,它的许多分支学科仍随着社会、经济、科 学技术的发展而发展,其内涵与外延并不明确。
12
—绪论
文献信息源→文献的构成:记录方式、载体
记录方式
指将表达信息的符号系统通过特定的技术手段使其附着在一定的文献载体上。
文献载体
纸质文献:以纸张为载体通过一定的符号系统记录(书写、印刷)信息内容。
缩微文献:以感光材料为载体、用缩微照排技术制成的文献复制品,使用阅读机 进行阅读。易于保存、复制、转化成其他文献形式。
专利文献
专利文献指记录有关发明创造信息的文献,蕴涵着技术信息、法律信息和经济信 息。广义的专利包括专利申请书、专利说明书、专利公报和专利检索工具,以及 一切与专利有关的资料。狭义的专利仅指各国专利局出版的专利说明书。 由于构成专利起码要符合新颖性、先进性和实用性三个条件,因此专利反映的发 明都是首先取得、在此之前不曾发表过的有关文献,在技术上有独到之处并有实 际应用价值。
音像文献:以磁性材料、光学材料为记录载体,利用专门的机械电子设备记录与 显示声音或图像的文献。 磁盘和光盘文献:使用软盘、硬盘等载体记录文献,可存储文字、图像、声音等 信息形式。
13
—绪论
文献信息源→文献的分类
按出版或加工形式
分成专著、报纸、期刊、专利文献、标准文献、会议文献、产品样本、档案资料、 “灰色”文献和各种工具书。
3、人们出于不同的研究和使用目的,从不同的角度和层次出发,对信息 概念作出不同的解释。
本体论
认识论
5
—绪论
信息的种类
按信息产生的客体性质 •自然信息
•生物信息
•机器信息 •社会信息 按信息所依附的载体 •文献信息 •口头信息 •电子信息
科技信息 经济信息 政治信息 军事信息 文化信息 …………
以文字、符号、声音、图像为编码,并经人们 筛选、归纳和整理后记录下来的人类精神信息
2
—绪论
课程安排
章节 绪论、基本知识
内容 信息的涵义、种类、知识、信息源、信息服 务。
课时(%) 15% 30% 20%
检索基础与检索 方法
资料检索 网络信息检索
分析、选择、确定检索入口、获取、检索语 言、认识检索工具、检索方法。 书刊检索工具、论文资料检索工具、网络书 刊资料检索工具、专业资料检索。 Internet基础知识、超文本、浏览器、搜索 引擎、专业搜索工具等。 传统书刊资料检索、网络书刊资料检索、搜 索引擎、专业搜索工具实验
20%
实验
15%
3
—绪论
信息的涵义 I
经济学 信息是与物质、能量相并列的客观世界的三大要素之一,是为管理和决策 提供依据的有效数据。 心理学 信息是存在于意识以外的事物,它存在于自然界、印刷品、硬盘及空气之 中。
新闻学 对事物运动状态的陈述,是物与物、物与人、人与人之间的特征传输。 哲学 能被其他事物感知的,表征该事物特征的信号内容即为该事物向其他事物 所传递的信息。
按生产加工层次
一次文献(Primary Literature):人们对自然和社会信息进行首次加工而成的文字 记载,是文献信息源的主要部分。数量庞大、内容分散、无系统性、不便于管理 与传播。 二次文献(Secondary Literature):对一次文献进行加工、整理、提炼和压缩, 按其外部特征和内容特征进行序化,形成一种新的文献形式。 三次文献(Tertiary Literature):利用二次文献,选择有关的一次文献加以分析、 综合而编写出来的第三个层次的文献形式(包括专题报告、综述、进展、手册、 百科全书、年鉴等工具书)。
14
—绪论
文献信息源→主要的文献信息源 I
图书
图书是记录和保存知识、表达思想、传播信息的最古老、最主要的手段,便于存 放、携带、阅读可不受时间、空间、设备限制,这使得图书在过去、现在和将来 都是人类社会最主要的信息交流媒介之一,通过图书可了解图书作者对某个专门 问题的研究或对实践经验的系统论述。图书的生产过程较长,从写作到出版,要 通过核对、鉴别、筛选、提炼、校对等多道程序,出版周期较长。
科技报告
科技报告指对科学、技术研究成果的报告或研究进展的记录,按内容可分为基础 理论研究和工程技术两方面。按存储划分可分为报告书、技术札记、论文、备忘 录、通报、技术译文等。按流通范围分为绝密报告、机密报告、秘密报告、非密 报告、解密报告。密级较高的报告多属于国防工业、军事和尖端技术成果。 · 迅速反映新的科技成果 · 内容多样化 · 基本上都是一次文献
产品样本
产品样本指厂商向客户宣传和推销其产品而印发的介绍产品情况的文献,包括产 品目录、单项产品样本、产品说明书、企业介绍和广告性文献。 与专利文献相比,样本介绍的大多是已经投产或正在销售的产品,工艺已经成熟, 而专利文献中所介绍的产品多属未定型、未成熟的产品。产品样本的产品和技术 信息较为完整:性能、特征、参数、型号等有关信息在专利信息中并不存在。
8
—绪论
信息源
信息的来源。人们在科研活动、生活、生产经营和其他一切活动中所产生 的成果和各种原始记录,以及对这些成果和原始记录加工整理得到的成品。
按对信息源的加工层次和集约程度分层
•一次信息源:所有物质、能量均为一次信息源。
•二次信息源:主要存在于人的大脑中,传播、咨询、决策等领域所依赖的。 •三次信息源:包括口头信息源、体语信息源、文献信息源、电子信息源、实物信息 源。 •四次信息源:是文献信息源和实物信息源的集约化和系统化
期刊
相关文档
最新文档