信息检索3
第三章 信息检索的基本知识
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索基础3
一、单项选择题•1、手稿、私人笔记等属于()文献,辞典、手册等属于()文献。
• A 一次,三次 B 零次,二次 C 零次,三次 D 一次,二次•2、按照出版时间的先后,应将各个级别的文献排列成( )• A 三次文献、二次文献、一次文献 B 一次文献、三次文献、二次文献 C 一次文献、二次文献、三次文献 D 二次文献、三次文献、一次文献•3、图书分类法中,类名之间有同位类关系一般反映了学科概念之间的( )关系。
• A 包含 B 排斥 C 延伸 D 相容•4、具有概念交叉限定关系的两个检索词之间应该使用( ) 算符。
• A 逻辑“或” B 逻辑“非” C 逻辑“与” D 优先•5、逻辑“或”算符是用来组配( )。
• A 不同检索概念,用于扩大检索范围 B 相近检索概念,扩大检索范围 C 不同检索概念,用于缩小检索范围 D 相近检索概念,缩小检索范围•6、文献按载体形式可划分为书写型文献、()、缩微型文献、声像型文献和机读型文献。
• A 零次文献 B 印刷型文献 C 标准文献 D 手写型文献•7、如果检索结果过少,查全率很低,需要扩大检索结果,此时,调整检索策略的有效方法有( )等。
• A 用逻辑“与”或者逻辑“非”增加限制概念 B 用逻辑“或”或截词符增加同族概念 C 用字段算符或年份增加辅助限制 D 用“在结果中检索”增加限制条件•8、以文献线索为检索对象的书目检索,是属于()。
• A 文献信息检索 B 事实信息检索 C 数据信息检索D 全文信息检索•9、根据我国的相关国家标准,文献的定义是指“记录有()的一切载体。
”• A 信息 B 资讯 C 知识 D 数据•10、使用搜索引擎查找某一课题,希望在网页中出现两个检索词中的前一个,而不希望出现其中的后一个,应该使用下列哪个检索算符( )• A 空格 B * C - D +•11、下列哪个不是超星数字图书馆的检索方式• A 一般检索 B 高级检索 C 快速检索 D 分类导航•12、在下列哪种检索工具中可以得到历年的统计数据?• A 字典 B 百科全书 C 年鉴 D 手册•13、在CALIS的书目查询系统中,要查询易中天写的图书,应该首选择的检索途径是:( )• A 题名 B 作者/出版社 C 主题 D ISBN/ISSN•14、在广西工学院图书馆中,新书库的图书可以外借的期限是:( )• A 10天 B 60天 C 30天 D 20天二、多项项选择题•1、针对不同时间要求的文献应使用不同的文献类型,就最新的文献信息而言,例如近一两个月的文献信息而言,应该使用( )。
信息检索 第3章 中文主要信息资源检索系统
轻工 纺织
建筑 建材
环境 《环境科学文摘》
《馆目:环境污染与保护》
《汽车文摘》 《公路运输文摘》 《水陆运输文摘》 《造船文摘》 《中目:船舶工程》 《外目:造船工程》 交通 《中目:公路、水陆运输》 《铁道文摘》 运输 《中目:铁路》 《专利文献通报:汽车 》 《专利文献通报:包装、搬运、储存》 《外目:航空与航天》 《航空发动机文摘》 航天 《馆目:交通运输、航空航天》
WEB版(网上包库)、镜像站版、光盘版、流量计费。
四川农业大学图馆网站简介
◆
点击
各种类型的电子文献资源: 中外文期刊、图书及特种文献
读者查询 点击:
四、中国期刊全文数据库信息检索
1. 登录检索系统
鼠标接触
点击: 外网或本地镜像
CNKI中国知识资源总库
点击
选择单一数据库 或选择多个数据库进行跨 库检索
《电工文摘》 《中目:电力电工、原子能》 水利 《外目:电力》 《中目:水利水电》 电力 《外目:水利水电》 《中文电子科学文摘》 《电子科技文摘》 电子 《中国无线电电子科技文摘》 《计算机应用文摘》 学 《国外电子科学文摘》 《专科文献通报:电子技术》 《馆目:无线电电子学与自动化技术》
计算 《专利文献通报:计算机和信息存储》 机 《计算机应用文摘》 《中国纺织文摘》 《纺织文摘》 《皮革文摘》 《造纸文摘》 《中目:轻工、纺织》 《外目:轻工业》 《外目:粮油食品》 《外目:制糖工业》 《馆目:轻工、纺织》 《专利文献通报:纺织》 《专利文献通报:生活日用》 《专利文献通报:造纸、印刷、装帧》 《建筑机械文摘》 《中目:建筑工程》 《中目:建筑材料》 《外目:建筑材料》 《外目:建筑水利工程》 《馆目:建筑水利工程》 《城市文献通报》
信息检索的三个基本步骤s
信息检索的三个基本步骤s
信息检索的三个基本步骤是:
1. 收集信息:这一步骤包括确定需要获取的信息的关键词或主题,并使用各种途径和工具,如图书馆、数据库、搜索引擎等,收集相关的信息源。
2. 检索信息:这一步骤是根据收集到的信息源,使用合适的检索策略和技巧,从中筛选出与需求匹配的信息并获取。
常用的检索技巧包括利用关键词、使用布尔运算符、使用通配符、限定检索范围等。
3. 评估信息:这一步骤是对检索到的信息进行评估和筛选,以确定其是否符合需求,并对其可靠性、权威性、时效性等进行判断。
评估信息需要考虑信息来源的可靠性、作者的资质、内容的准确性等多个因素。
以上三个步骤是信息检索过程中的基本环节,可以帮助用户准确、高效地检索到所需的信息。
文献信息检索 第三章
The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。
信息检索第三次作业
1 复习并试查找网络有哪些常用的中外文元搜索引擎,并试着通过元搜索引擎查找自己专业领域的网络信息资源。
目前国内的元搜索引擎: ·搜魅网(someta)·马虎聚搜·佐意综合搜索(chinazss)·比比猫(bbmao)觅搜(MetaSoo)·抓虾网聚搜·万纬搜索·知合网的网页搜索·MMGOOGLE图片搜索 ·我要搜搜你·deyeb 社会化搜索引擎·北斗搜索国外的元搜索引擎MetaCrawlerDogpilMammaIxquick:I xqU i ck2 使用搜索引擎(中外文搜索引擎、元搜索引擎、专门搜索引擎等)查询3--5条与本专业有关的网址,要求注明搜索引擎的名称和查找的信息主题。
中文搜索引擎:百度主题:物流工程//wiki/Logistics_Engineering/元搜索引擎:搜魅网主题:物流工程/book/wz/10000054233138.html/ebook.aspx?metaid=m.20101116-m084-w084-1843 查找并利用本专业领域相关的网络资源导航,并列举出来。
中国物流导航国外物流网站物流供应链论坛UPS供应链方案网物流研究物流世界4 查找2012年你所学专业召开与即将召开的国际国内相关会议的信息,并列举出来有关网址。
1.关于第七次中国物流学术年会准备工作的通知http://219.219.191.244:1980/pe/wuliu/dynamic/meeting/200804/6569.html 2.2012物流、信息化与服务科学国际学术会议(LISS 2012)/cinfo.aspx?cid=25203.第二届计算机科学与物流工程国际学术会议/html/201203/4245563.html4.2012年交通及物流工程国际会议/company/weblog_viewEntry/9176181.html。
3-3 信息检索过程与策略
有些课题的实质性内容往往很难从课题名称上反映出 来,需要从中提取隐含概念,另外有些检索词已含有 的概念,在选词时应予以排除。
例: 聚乙烯的合成 垃圾的处理 垃圾的处理
聚乙烯 合成 垃圾 处理 回收 再生 玻璃纤维 石膏
玻璃纤维增强 玻璃纤维增强石膏制品 增强石膏制品
针对每一个概念, 针对每一个概念,选择与之相关的同义词或相关词 相关的词有: 与somking相关的词有: 相关的词有 smoker,smokers,tobacco等; 等 heart disease的同义词有 的同义词有cardiopathy,heart 的同义词有 trouble, heart attack. 将这些相关词记录下来,用于构造检索式: 将这些相关词记录下来,用于构造检索式: 概念1: 概念 :somking,smokers,tobacco 概念2: 概念 : cardiopathy, heart disease,heart , trouble, heart attack
以上步骤不一定按顺序执行,可根据所检课题和所使用的检索系统的情 况灵活运用。其中(3)和(4)是比较重要的。
3. 几种检索策略
计算机检索策略是近几年才得到人们的重视和 广泛研究的,很多检索策略只不过是某种检索 方式或检索式构造方法,真正称得上检索策略 的还不多。其中,美国人鲍纳(Charles Bourne)提出的检索策略影响较大:
如:“吸烟与心脏病的关系” 可以表达为 connection between somking and heart disease 通过分析发现,其中,只有somking和heart disease两个概念词,而“connection between”则不属于概念词。 概念1:somking 概念2:heart disease
现代信息检索第3章-IR模型(再次再次修正版)
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
TFdoc TFq IDF
公式(1)
长度规整
中国科学院研究生院课程2006
向量空间模型(9)
优点:
简洁直观,可以应用到很多其他领域(文本分类、生 物信息学)。 支持部分匹配和近似匹配,结果可以排序 检索效果不错
缺点:
理论上不够:基于直觉的经验性公式 标引项之间的独立性假设与实际不符:实际上, Term的出现之间是有关系的,不是完全独立的。 如:“王励勤” “乒乓球”的出现不是独立的。
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
i
t1 d
i
d •q Cosine: Sim( d , q ) = = || d || × || q ||
∑ (a
i i i
× bi )
q
2 i i
∑a ×∑b
2 i
t2
Dice:
Sim( d , q ) =
2×d •q = || d ||2 + || q ||2
信息检索与分析第3-5章
4.查找数值、公式、规格、条例、专业知识
• 查考数值、公式、规格、条例、专业知识的数据库主要有: • 1)中国科学数据库(http:// /) 由中国科学院创建。内容涵盖了多种学科,提供了大量具有重要 科学价值和实用意义的科学数据和资料。 • 2)贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3)物质的物理化学参数数据库 (/CUU/Constants/index. html)。 • 4)化学元素周期表(/chemistry/webelements/) 查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫 “指南”、“便览”、“须知”、“大全”;包括综合性《读者百科 词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世 界经济手册》等。此外,还有表册,如《常用数学公式大全》、《电 子学数据表与公式手册》。
• • • • • • 1.分类查询 2.关键词查询 3.多次查找 4.按照地域查询 5.查询最新信息 6.其它搜索技巧
1.Google高级检索技巧
• 1)短语检索 • 2)字段限定检索 (1) 限定网站 【实例】输入“金庸 site:”搜索中文教育科研网站() 上所有包含“金庸”的页面。 (2) 限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声 笑”。
(3)使用字段限定
• ① intitle title是网页的标题, intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② site site是限定在某类站点或某个网站内搜索。 例如“论坛搜索引擎 site: ”,是在sowang这个网站内搜索 “论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。 用法是“关键词A filetype:文件格式后缀名”。 如“个人年终总结 filetype:doc”,搜索结果全都是word文件的个人年 终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。 例如“搜索引擎 inurl:ssyq ”,是检索在url中含有ssyq的网页中关于 “搜索引擎”的信息。
信息检索3
检索方法
(2)常用法——倒查法
由近-→远,重点为近期,在基本上获得所需 信息时即可终止检索。 优点:可保证情报的新颖性,工作量小 缺点:因漏检而影响查全率 查全率较高 适用:多用于查找新课题 或 有新内容的老课题 要求快、新用此法
目的在于了解课题的现状时采用
检索方法 (3)常用法——抽查法
查找某一段时间(高峰期)的文献 优点:针对性强,节省时间。 缺点:局限性 有较高的查全率、查准率 适用:了解课题的发展阶段特点时用
报道量,质量水平
(三)确定检索途径(检索点) 与检索策略
主题途径 序号途径
分类途径 书名途径
著者途径
(三)确定检索途径
1.主题途径
用主题语言作检索标识,表达概念准确灵活 使用有“主题索引”、“关键词索引”、“叙词索引”等 优点:能把同一主题的文献集中在一起 具有特性检索功能。
(三)确定检索途径
2.分类途径
按学科分类体系来查找文献的途径,使 用的检索语言是分类语言。
使用有“分类目录”、“分类索引”等。
具族性检索的功能
(三)确定检索途径
3.著者途径
根据已知著者姓名来查找文献的途径 包括:个人著者,团体著者,专利发明人,学术 会议主办单位等。
使用有:“著者目录”、“著者索引”等
(三)确定检索途径
主题概念分析
4、明确概念组面之间的交叉关系,即明确是 逻辑“与”、逻辑“或”还是逻辑“非”的关系。
(1)(电子银行+网上银行)*风险? (2 )(电子银行+网上银行) *(层次分析法 +AHP) (3)(电子银行+网上银行)* D-S证据理论
3:信息检索的基本知识
查找“广告”“媒 介”的中英文词源、 词义。
计算机检索
根据用户的需求,利用计算机检索系统,从存储 在计算机里的大量数据中检出所需要信息的一种检 索手段。 计算机检索的特点:检索方便快捷、检索功能强 大、获得的信息类型多、检索范围广泛。 计算机检索经历了脱机检索、联机检索、网络检 索几个阶段。
广义理解:存 取
狭义理解:取
信息检索的类型:
文献检索 数据检索
事实检索
按检索对象的性质划分
超文本检索
多媒体检索
超媒体检索 手工检索
• 按检索方式划分
计算机检索
文献检索(Document Retrieval)
定义:是以文献为检索对象,从文献集合中查找出特定文献 的过程。 下列几例均属于文献检索。 1、如查找一本图书-《白轮船》
是限定检索词在数据库记录中出现的字段 范围的一种检索方法。将检索过程限制在 特定的字段中,提高了查全率和查准率。 每个字段都有一个两个字母表示的字段代 码。
限制检索字段代码列表
字段代码 AB AU CS DT 字段名称 Abstract Author Corporate source Document Type 文摘 作者 机构名称 文献类型
如physic* 可检出的词汇有: physic, physical, physically, physician, physicians, physicist, physicists, physics 如physic??可检出的词汇有: physic, physical, physics
字段限制技术
信息检索作业-3
一、确定下列课题的关键词,并写出检索式(每小题3分,共18分)1.基于DSP的机器人控制系统的设计与实现关键词:机器人控制系统数字信号处理功能模块检索式:机器人*控制系统2.发光二极管的热阻测量关键词:热敏电阻LED 热阻支架材料发光二极管测量过程测量方法检索式:热阻*发光二极管*测量3.火星探测飞行轨道分析关键词:轨道设计火星探测器轨道拼接法检索式:轨道*火星探测器4.汽车发动机故障诊断关键词:汽车发动机故障诊断检索式:发动机*故障5.层析成像技术在检测中的应用关键词:层析成像流动成像多相流检测检索式:层析成像*检测6.化疗在肿瘤治疗中的作用关键词:软组织肉瘤化疗方案联合化疗辅助化疗动脉内化疗平均有效率局部控制检索式:化疗*肿瘤二、简答题(每小题5分,共30分)1. 在文献检索中,ISSN、ISBN的含义分别是什么?答:ISSN:国际标准刊号。
国际标准连续出版物编号,International Standard Serial Number 是根据国际标准ISO3297制定的连续出版物国际标准编码,其目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识。
ISBN:国际标准书号。
ISBN号是国际标准书号的简称,是专门为识别图书、小册子、缩微出版物、盲文印刷品等文献而设计的国际编号。
ISBN号有10位数字组成,分四个部分:组号(国家、地区、语言的代号),出版者号,书序号和检验码。
ISBN可以作为一个检索途径。
从2007年起,ISBN 号升到13位。
如7-109-07953-82. 哪些文献属于特种文献?(至少答出五种)答:特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献、科技档案、出版物等。
3. 国家标准中GB、GB/T分别代表什么含义?答:GB:为强制性国标GB/T:推荐性国标4. 要检索天津大学申请的专利,应把“天津大学”放在哪个字段进行检索?答:5. 在EI来源刊上发表的文章肯定能被EI收录,这种说法正确吗?为什么?答:不正确。
新手学信息检索3:词频-逆文档频
阿里巴巴首席工程师经验分享,物超所值。
上一篇介绍了倒排表这种数据结构,接下来将介绍一下词频-逆文档频(tf-idf)这个概念。
首先,什么是词频?词频就是一篇文档包含一个词的次数。
举个例子,如果一篇文档d中“cat”这个词出现了5词,那么我们就说“cat”的词频为5,记做tf(cat)=5。
那么,什么是文档频?这个概念也是对于一个词来说的。
通俗来说文档频就是包含一个词的文档数目。
举个例子,如果有100篇文档都有“cat”这个词,我们就说“cat”的文档频为100,记做df(cat)=100。
那么什么叫做逆文档频呢?idf表示逆文档频,检索库中一共有N篇文档,那么idf=log(N/df),例如上例,“cat”的逆文档频记做idf(cat)=log(N/df(cat))=log(N/100)。
么为什么需要逆文档频的概念我们后面将会介绍。
为什么需要这几个概念呢?我们下面就说一说。
直观上想像,一个搜索引擎应该如何工作呢?1:首先用户输入查询词。
2:搜索引擎根据查询词查找相应的文档。
3:搜索引擎把查询结果以一定的方式显示给用户。
我们知道搜索引擎还无法做到语义检索,它只会根据一篇文档包不包含查询词来判断这个文档是否符合用户需要。
那么显而易见一个能说得通的假设是:一个文档包含查询词的次数越多,就认为该文档越符合用户的需要。
例如:用户查询“cat”,A文档包含“cat”10次,B文档包含“cat”1次,搜索引擎更可能把A文档返回用户。
所以,词频对于搜索引擎来说是一个非常重要的信息。
现在说说逆文档频,它主要告诉搜索引擎用户输入的哪个词更能说明用户的需求。
例如用户输入“dog cat”,有100篇文档包含“dog”,但是只有一篇文档包含“cat”。
这样搜索引擎就认为用户可能更想得到包含“cat”的文档,因为该词足够特殊(包含该词的文档数目少),要不然用户怎么会输入这个词来作为查询呢?所以搜索引擎会把包含“cat”的这篇文档放在结果列表的第一个位置,而把剩下的包含“dog”的文档放在后面。
信息检索3-通配查询
更新时间: 2015/9/4
现代信息检索 Modern Information Retrieval
第3讲 词典及容错式检索 Dictionary and tolerant retrieval
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
1
现代信息检索
提纲
上一讲回顾 词典 通配查询
编辑距离
拼写校正
Soundex
2 2
现代信息检索
提纲
上一讲回顾 词典 通配查询
按照Google自己的说法, 2010-04-29: “* 操作符只 能作为一个整体单词使用,而不能作为单词的一部 分使用” 但是这点并不完全对,尝试一下 [pythag*] 和 [m*nchen] 问题: 为什么Google对通配查询并不充分支持?
37 37
37
现代信息检索
原因
问题 1: 一条通配符查询往往相当于执行非常多的布尔查询 对于 [gen* universit*]: geneva university OR geneva université OR genève university OR genève université OR general universities OR . . . 开销非常大 问题 2: 用户不愿意敲击更多的键盘 如果允许[pyth* theo*]代替 *pythagoras’ theorem+的话, 用户会倾向于使用前者 这样会大大加重搜索引擎的负担 Google Suggest是一种减轻用户输入负担的好方法
信息检索技术第3章搜索引擎应用简明教程PPT课件
第3章 搜索引擎应用
3. 多元集成型 多元集成型又称为元搜索引擎。Internet上信息非常丰富,任何一 个搜索引擎都无法将其完全覆盖。建立在多个搜索引擎基础之上的多元 集成型搜索引擎,在一定程度上满足了用户更多、更快地获得网络信息 的要求。 多元集成型搜索引擎有串行处理和并行处理两种方式。串行处理是 将检索要求先发送给某一个搜索引擎,然后将检索结果处理后,传递给 下一个搜索引擎,依次进行下去,最终将结果反馈给用户。串行处理方 式准确性高,但速度慢。并行处理则是将检索请求同时发给所有要调用 的搜索引擎。并行处理方式速度快,但重复内容较多。
第3章 搜索引擎应用
3.1.2 搜索引擎概念及工作原理 早期的搜索引擎只是把Internet中的资源服务器的地址收集 起来,按其提供的资源类型分成不同的目录,再一层层地进行分 类。要找到自己想要的信息可按他们的分类一层层进入,最后到 达目的地。 1994年初,第一代真正基于WWW的搜索引擎Lycos诞生。 到1995年,商业化的搜索引擎开始大规模开发,第一代产品的代 表厂商包括Yahoo、Excite、Infoseek、AltaVista 等,其从典 型的目录式分类结构发展到全文搜索引擎。目前,搜索引擎的使 用已经成为收发电子邮件之后的第二大互联网应用技术。 对于搜索引擎的概念,在教材里指的是一种在Internet上的 应用软件系统,它以一定的策略在网络中搜集、发现信息,对信 息进行理解、提取、组织和处理,并为用户提供检索服务。
第3章 搜索引擎应用
3.3 移动搜索 移动搜索是指以移动设备为终端,对普遍互联网进行的搜索。其能够 帮助用户高速、准确地获取信息资源。手机已经成了信息传递的主要设备 之一。尤其是近年来手机技术的不断完善和功能的增加,利用手机上网也 已成为一种获取信息资源的主流方式。 3.3.1 移动搜索技术 移动搜索是指用户在移动通信网络中,通过移动终端,利用 SMS、 WAP等多种特定搜索方式获取所需信息的搜索行为。移动搜索服务的核 心是将搜索引擎与移动设备有机结合,生成符合移动产品和用户特点的搜 索结果,从而脱离对固定设备和固定通信网的依赖,实现随时随地的信息 获取。
第4章 网络信息检索3
例:检索“唐宋诗歌”的有关信息。
关键词:唐、宋、诗歌; 检索表达式:
(唐 OR 宋)AND 诗歌; 唐AND诗歌 OR 宋AND诗歌;
错误表达式:
唐 OR 宋AND诗歌;
8
截词检索
是预防漏检提高查全率的一种常用检索 技术。 例:books---book?
12
表述准确
一般搜索引擎会严格按照您提交的查 询词去搜索,因此,查询词表述准确是获 得良好搜索结果的必要前提。 一类常见的 表述不准确情况是: 脑袋里想着一回事,搜索框里输入的 是另一回事。 另一类典型的表述不准确,是查询词 中包含错别字。
13
查询词的主题关联与简练
目前的搜索引擎并不能很好的处理自然 语言。因此,在提交搜索请求时,您最好 把自己的想法,提炼成简单的,而且与希 望找到的信息内容主题关联的查询词。
信息检索
1
信息
从客观上说,信息是指一切事物存在方 式和运动规律的表征,或我们对周围世界的 一种认识,有正确与错误之分。 信息是区别于物质和能源的第三类资源。
2
信息检索概念
从信息集合中查找出特定信息的过程。 其实质是将用户的需求与信息集内的信 息进行比较,如果匹配,信息就被查找 出来,否则就查不出来。
9
检索结果比较
查看结果:找出更合适的关键词; 其它搜索引擎:尝试同样的搜索;
10
精确匹配—双引号 精确匹配 双引号
如果输入的查询词较长,在搜索结果中的查 询词,可能是拆分的。如果您对这种情况不满意, 可以尝试不拆分查询词。给查询词加上双引号, 就可以达到这种效果。 四六级〞 例:〝英语 四六级〞 找到 4,450,000 篇 英语 四六级 找到 7,990,000 篇
信息检索3(广西科技大学)
一、单项选择题∙1、根据文后参考文献信息区别图书和会议文献,主要依据是判断有无( )特征词,有则为会议。
∙ A 出版社 B 会议 C 题名 D 出版年∙2、文献数据库中字段的基本内容是( )。
∙ A 对记录属性的描述 B 对记录某一方面具体属性的描述 C 对数据库属性的描述 D对文档属性的描述∙3、当某些检索词词干相同、词义相近,但词尾有变化时,可采用( )方法表示。
∙ A 逻辑“与” B 截词 C 位置算符 D 字段限定∙4、下面不是布尔逻辑算符的是∙ A NOT B 0R C AND D NEAR∙5、下列文献中属于二次文献的是∙ A 综述 B 索引 C 手册 D 论文∙6、关于逻辑算符 AND、OR,以下说法正确的是:∙ A 检索式中,使用AND 和 OR,效果一样 B 检索式中,AND 用得越少,检索结果越少 C 检索式中,AND 用得越多,检索结果越少 D 检索式中,OR 用得越少,检索结果越多∙7、利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是:∙ A site: B intitle: C inurl: D info:∙8、国际连续出版物编号是:∙ A ISSN B OCLC C ISBN D CSSCI∙9、检索语言中,()是自然语言。
∙ A 标题词 B 主题词 C 单元词 D 关键词∙10、按照顺序,根据已知印刷型文献的书目信息获取原文的四个步骤为( )。
∙ A 判断文献类型,提取检索项,使用OPAC,通过一定手续借阅 B 提取检索项,使用OPAC,通过一定手续借阅,判断文献类型 C 通过一定手续借阅,判断文献类型,提取检索项,使用OPAC D 通过一定手续借阅,提取检索项,使用OPAC,判断文献类型∙11、布尔逻辑()是用来组配不同的检索词限定关系的。
∙ A 与 B 或 C 非 D∙12、根据布拉德福文献分散定律,阅读( )文献是一种有效的情报获取方法。
信息检索第三章EI
印刷版EI 编排结构与著录
正文:即文摘部分,是EI的主体。由一些文摘 条目组成,并以规范主题词为标目。主题词取 自规范词表。1992年以前使用《工程标题词 表》,1993年起使用《EI叙词表》
印刷版EI (月刊、年刊) 索引
月刊索引:著者索引、主题索引
年刊索引:著者索引、主题索引、 工程出版物索引
附录
EI文摘正文著录格式
叙词
COMPUTER AIDED INSTRUCTION
文…摘…号…
文献篇名
文摘内容
009057 Current situations and future directions of
intelligent CAI research/development . This pa-per
• PL以连续出版物的缩写题名字母为序编排。
• 著录内容包括:连续出版物的缩写题名、连续出 版物的全称、计算机识别代码与ISSN号。 • PL的主要作用:通过EI文摘正文给出的刊名缩 写查找连续出版物(期刊)的全称,从而通过查 找馆藏目录,获取原文。
J Inf Image Manage① Journal of Information and image Management② JIIMDW③
第三章 外文检索工具
常用外文检索工具
美国《工程索引》 英国《科学文摘》 美国《科学引文索引》 美国《科技会议录索引》
3.1 美国《工程索引》EI
1 概述 2 印刷版EI编排结构与著录 3 EI标题词表与叙词表 4 EI检索方法及检索示例
EI 概 述
• 美国《工程索引》 (The Engineering Index),简称EI • 1884年创刊,由美国工程信息公司编辑
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1/30)、《中国学术期刊全文数据库》中选择作者字段,输入“方志”,选择“模糊匹配”控制,系统给出的检索结果不可能包含有作者姓名为()记录的。
(2分)▪A、成方志▪B、方志成▪C、方成志▪D、方志(2/30)、利用维普中文期刊数据库检索我校老师“康思本”在2003至2014年发表在核心期刊上的文献篇数为()(2分)▪A、3▪B、2▪C、5▪D、4(3/30)、SCI指的是()(2分)▪A、科学引文索引▪B、美国科学情报研究所▪C、中国社会科学引文索引▪D、中国科学引文索引(4/30)、在维普中文科技期刊数据库中,对检索词的扩展功能是()(2分)▪A、当前检索词的相似词▪B、当前检索词的相关词▪C、近义词▪D、同义词(5/30)、《中国学术期刊全文数据库》中,()使用的优先算符是合理的。
(2分)▪A、(文学+小说)*(翻译)▪B、(文学)*(翻译)▪C、文学+(小说)*翻译▪D、(文学+小说)*翻译(6/30)、《中国学术期刊全文数据库》中,不可以进行()检索。
(2分)▪A、逻辑或▪B、逻辑与▪C、位置检索▪D、逻辑非(7/30)、要查找李平老师所发表的文章,首选途径为()(2分)▪A、分类途径▪B、著者途径▪C、题名途径▪D、主题途径(8/30)、()是知识网络节点的简称,它提供单篇文献的详细信息和扩展信息的浏览页面,不仅包含了单篇文献的详细信息如题名、作者、机构、来源、时间、摘要等,还包含各种扩展信息的汇集点。
(2分)▪A、专辑导航▪B、知网节▪C、扩展词推荐▪D、匹配检索(9/30)、()是指通过文献信息资料的主题内容进行检索的途径。
(2分)▪A、作者检索途径▪B、题名检索途径▪C、主题检索途径▪D、分类检索途径(10/30)、CSCI指的是()(2分)▪A、科学引文索引▪B、美国科学情报研究所▪C、中国社会科学引文索引▪D、中国科学引文索引(11/30)、模糊匹配主要适用于(),精确匹配主要适用于()(2分)▪A、辅助字段,基本字段▪B、基本字段,辅助字段▪C、全部字段,除开年份以外的字段▪D、除开年份以外的字段,全部字段(12/30)、()是世界上最大的连续动态更新的中国学术期刊全文数据库。
(2分)▪A、中国重要会议论文全文数据库▪B、中国博硕士学位论文全文数据库▪C、中国学术期刊网络出版总库▪D、中国年鉴网络出版总库(13/30)、下列哪个检索工具不能检索到专利文献()(2分)▪A、维普中文科技期刊数据库▪B、CNKI资源总库▪C、中华人民共和国知识产权局网站提供的文献服务▪D、万方数据库资源系统(14/30)、( )被公认为是最权威的科学技术文献的综合性索引工具,能够提供科学技术领域最重要的研究成果,同时也是重要的统计工具和学术分析及评价工具。
(2分)▪A、Web of Science 三大引文数据库▪B、SCI▪C、科学引文索引▪D、SSCI(15/30)、利用图书馆数据库检索期刊论文时,可选择的中文数据库是()(2分)▪A、万方学位论文▪B、超星数据图书馆▪C、维普科技期刊▪D、国研网(16/30)、《中国学术期刊全文数据库》中,()使用的优先算符是合理的。
(2分)▪A、(材料)*(测试+测量)▪B、(材料)*(测试)▪C、材料*(测试)+(测量)▪D、材料*(测试+测量)(17/30)、阅读万方学位论文数据库必须首先安装()阅读器。
(2分)▪A、SWF▪B、CAJ▪C、FLA▪D、PDF(18/30)、《中国学术期刊全文数据库》的全文检索结果()(2分)▪A、直接在屏幕浏览无需全文浏览器,但下载存盘再阅读也无需全文浏览器▪B、直接在屏幕浏览无需全文浏览器,但下载存盘再阅读需全文浏览器▪C、直接在屏幕浏览需全文浏览器,但下载存盘再阅读也需全文浏览器▪D、直接在屏幕浏览需全文浏览器,但下载存盘再阅读无需全文浏览器(19/30)、《中国学术期刊全文数据库》给出的检索结果为()(2分)▪A、仅文摘▪B、仅题录▪C、题录、文摘和全文三种▪D、仅全文(20/30)、CALIS指的是()(2分)▪A、中国高等教育文献保障体系▪B、中国知网▪C、万方学位论文数据库▪D、中刊库(21/30)、《中国学术期刊全文数据库》提供的文献内容特征检索途径有()(2分)▪A、篇名/关键词/摘要▪B、机构▪C、作者▪D、中文刊名(22/30)、()是中国内容最全、质量最高、出版周期最短、数据最规范、最实用的全文数据库。
(2分)▪A、中国年鉴网络出版总库▪B、中国重要会议论文全文数据库▪C、中国学术期刊网络出版总库▪D、中国博硕士学位论文全文数据库(23/30)、将存储于数据库中的整本书、整篇文章任意内容查找出来的检索是()(2分)▪A、文献检索▪B、全文检索▪C、超媒体检索▪D、超文本检索(24/30)、( )是世界上位居全球领先地位的、最大的、高质量的科学技术和医学全文数据库,包括了各类期刊、丛书、图书、参考工具书以及回溯文档。
(2分)▪A、EBSCOhost系统全文数据库▪B、SpringLINK全文数据库▪C、ISI Web of Knowledge 数据库▪D、ProQuest系统全文数据库(25/30)、下列哪个数据库是以人文和社科为主的()(2分)▪A、维普数据库▪B、万方数据库▪C、CNKI数据库▪D、人大复印资料(26/30)、已知文献书目信息:“胡静.原产地规则在国际贸易中的作用.财经理论与实践,1997年04期,63~65”,可使用()直接获取原文。
(2分)▪A、IPAC书目数据库▪B、中国学术期刊全文数据库▪C、ElsevierSDOS数据库▪D、期刊目录数据库(27/30)、查找上海大学师生2003年发表的论文被《中国学术期刊全文数据库》收录情况,可选择的检索策略是((2分)▪A、作者机构字段:上海大学并且年份字段:2003▪B、作者机构字段:上海大学并且作者字段:师生并且年份字段:2003▪C、作者机构字段:上海+ 大学并且年份字段:2003▪D、作者机构字段:上海并且大学年份字段:2003(28/30)、《中国学术期刊全文数据库》中,在单逻辑检索的文摘字段中输入检索词“经济”检索的基础上,再在篇名字段中输入“全球化”,选在“结果中检索”再行检索。
这个检索过程可以策略表示为()。
两次检索后,检索范围被()了。
(2分)▪A、文摘字段:经济*篇名字段:全球化,缩小▪B、文摘字段:经济*篇名字段:全球化,扩大▪C、文摘字段:经济+篇名字段:全球化,缩小▪D、文摘字段:经济+篇名字段:全球化,扩大(29/30)、已知文献书目信息:“戴新宇.浅析虚拟仪器.中国仪器仪表,2013年10期,23~30”,可使用()获取原文。
(2分)▪A、中国学术期刊全文数据库▪B、IPAC书目数据库▪C、ElsevierSDOS数据库▪D、期刊目录数据库(30/30)、下列数据库中,我校读者可下载中文电子图书全文的是()(2分)▪A、万方▪B、CNKI▪C、中国咨询行▪D、超星多选题(1/10)、ISI Web of Knowledge 以()三大引文索引数据库作为核心。
(4分)▪A、CSCI▪B、SCI▪C、SSCI▪D、A&HCT(2/10)、已知文献信息:篇名:民事诉讼与民法关系辨析;作者:王国征;关键词:民事诉讼法,民法;关系机构:青岛大学法学院;出处:东方论坛,2001,(4):79~84。
如果使用其辅助字体信息,查找《中国学术期刊全文数据库》提供的原文,检索策略就为()(4分)▪A、作者字段:王国征* 机构字段:青岛大学法学院▪B、篇名:民事诉讼法与民法关系辨析* 作者字段:王国征▪C、作者字段:王国征* 关键词字段:民事诉讼法▪D、机构字段:青岛大学法学院* 中文刊名字段:东方论坛(3/10)、《中国学术期刊全文数据库》的多逻辑检索界面与单逻辑检索界面的主要区别是()(4分)▪A、多逻辑检索界面的检索文本框有若干个,而单逻辑则只有一个▪B、多逻辑检索界面能同时实现跨字段检索,而单逻辑不能▪C、单逻辑检索界面能同时实现跨字段检索,而多逻辑不能▪D、单逻辑检索界面的检索文本框有若干个,而多逻辑则只有一个(4/10)、基本字段包括()(4分)▪A、文摘▪B、题名▪C、作者▪D、作者单位▪E、主题词▪F、语种(5/10)、在维普数据库中,当打开“精确”检索时,检索式为“K=(基金)”,则下列关键词哪些不会命中?()(4分)▪A、货币基金▪B、封闭式基金▪C、基金▪D、基金会(6/10)、辅助字段包括()等。
(4分)▪A、文摘▪B、题名▪C、作者▪D、作者单位▪E、主题词▪F、语种(7/10)、一篇完整的学术论文,除了其主体部分外,还必须包含以下那些部分()(4分)▪A、参考文献▪B、篇名、作者及其单位▪C、关键词、文摘▪D、附录(8/10)、数据库的特点有()(4分)▪A、数据库中数据的共享性好,冗余度低▪B、数据库的数据具有结构化特点▪C、数据库中所存储的数据是面向现实世界的▪D、数据库中的数据是无序的▪E、数据库中数据的独立性强▪F、数据库由数据库管理系统统一管理和控制(9/10)、在CNKI中“主题”检索是在()检索项中进行检索。
(4分)▪A、关键词▪B、篇名▪C、责任者▪D、摘要(10/10)、已知文献信息:篇名:晶粒细化用铝钛硼线轩的对比分析;作者:张劲松;关键词:铝钛硼线轩,TiAl3,TiB2,晶粒细化;机构:成都铝箔厂,四川新都610500;出处:四川有色金属,2001,(2):52~55。
如果使用其辅助字段信息,查找《中国学术期刊全文数据库》提供的原文,检索策略为()(4分)▪A、作者字段:张劲松* 机构字段:成都铝箔厂▪B、篇名字段:晶粒细化用用铝钛硼线轩的对比分析* 作者字段:张劲松▪C、作者:张劲松* 关键词字段:铝钛硼线杆▪D、机构字段:成都铝箔厂* 中文刊名字段:四川有色金属。