网络资源与信息检索第三章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
木子网 http://gallery.muzi.com/index2.shtml 天网FTP搜索 http://bingle.pku.edu.cn/
3.2 网络信息检索的语言
3.2.1 检索语言的概念
1、什么是检索语言?
检索语言是根据信息检索的需要而 创制的人工语言,是各种信息存储检索 系统表达信息的主题概念和检索课题概 念的约定语言。
3.1.1
因特网信息检索技术的产生和发展
• 信息检索的基本概念
• 信息检索产生和发展的背景 • 信息检索技术的发展
1、信息检索的基本概念
• 信息检索包含信息储存和信息查找两 个过程。 – 信息储存是对信息进行收集、标引 及著录,并加以有序化编排,编制 信息检索的工具的过程。 – 信息查找是运用科学的方法利用检 索工具或参考工具书,从大量的信 息集合中查找出特定的信息或信息 线索的过程 。
⑷ 多元搜索引擎
Mamma http://www.mamma.com/ MetaCrawler http://www.metacrawler.com/
• Dogpile、Metacrawler、Matafind
中文集合型搜索引擎 “万纬搜索”
http://www.widewaysearch.com
缺点: 大量同义、多义、 同形异义等现象。
3.2.3
分 类 语 言
分类语言是一种按学科范畴和知识体 系来划分事物的人工语言 。
语言标识:阿拉伯数字或者以拉 丁字母与阿拉伯数字混合字符。 基本词汇:基本类目。 语法:按学科的性质进行分类和 系统排列。
特点
体系分类检索语言
• 直接体现知识分类的等级制 概念的标识系统。 • 原理: (1)知识概念的划分。 (2)用等级来表示类目的隶属 关系。 自然 (3) 用树状结构排列其类目系 科学 统。 数学
信息检索的类型
文献检索 手工检索 信 息 检 索 机器检索 图像检索 事实检索
http://www1.cei.gov.cn/economi st/
数据检索
2、计算机信息检索产生和发展的背景
⑴科学技术的发展和文献信息的 爆炸性增长。
⑵计算机的产生、发展和普及。
计算机信息检索 —科学技术发展的必然结果
关键词搜索引擎
–用户可以用逻辑检索等方式输入各种自然检 索语词. –搜索引擎根据这些关键词寻找含有该词的资 源地址. –然后根据一定的顺序(如字母排列、时间、相 关级别等)返回. – eg. AltaVista、 Infoseek、google 天网 http://e.pku.edu.cn/ 网易 search.163.com
网络检索语言的类型
自然语言
中国图书馆分类法
检索语言
分类语言
中国科学院图书分类法 国际十进分类法
汉语主题词表
主题语言
工程标题词表 美国国会图书馆主题词表
3.2.2 自然语言
• 自然语言是指直接使用不经过控制的自 然语言中的语词作标识,进行信息资源 的标引和检索的一种检索语言。
优点: 容易使用 可任意条件匹配
物理
知识
社会 科学
化学
采用文献信息工作中使用的文献分类法
中国图书馆分类法
文献分类法
中国科学院图书分类法
国际十进分类法
A 马列主义、毛泽东 思想、邓小平思想
B 哲学、宗教
社会科学 C D E F G 社会科学总论 政治、法律 军事 经济 文化、科学、教 育、 体育 H 语言、文字 I 文学 J 艺术 K 历史、地理
3.3
因特网信息检索工具的检索功能
搜索引擎的常用搜索功能
• 布尔逻辑检索 • 词位置检索 • 字段限定检索 • 截词检索 • 词组短语查询法
3.3.1 布尔逻辑检索
1、布尔逻辑检索
布尔逻辑检索
布尔逻辑是表达不同概 念之间关系的符号逻辑 系统。 例:检索要求:
金人庆论金融体制改革
⑴逻辑乘
检索式: 也称逻辑“与” 指定命中文献应同时含有 算符左右两边的检索词。 金人庆 and 金融体制改革 可用“&”、“and”或“*” 表示。 可以缩小命中范围,起到 缩检作用。
按照一定的主题分类体系组织,并辅以年代、地区 等分类。
–用户通过逐级浏览这些目录来找寻自己需要的网 址或相关内容。 –搜狐 (www.sogou.com/dir/) –网易(dir.so.163.com) –新浪(dir.iask.com)
⑵ 检索型搜索引擎
通过用户直接输入检索词来查找所
需网络信息资源的检索工具。 关键词型 主题词型
财 政 金 融
F83 金融、银行
F831 世界金融、银行
F84 保险
各检索系统自行编制的分类法
• 主题分类法的特征是以事物对象为中心的分类 体系。 • 实质上是分类法和主题法互相融合的产物 。 • 特色:
– 多重划分、多元展开
– 简练、直观、易理解
• 代表性的主题分类法:
– 雅虎、搜狐
3.2.4
自然科学
N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学
综合性图书 Z
《 中 国 图 书 馆 分 类 法 》
F 经济 F0 政治经济学 F1 世界各国经济概论、
F20 国民经济管理
标题词 单元词
主题语言的特点
1.直观性 2.专指性 3.集中性 4.灵活性
经济-信息检索-高等学校-教材
信息检索-经济--高等学校-教材
信息检索-生物-高等学校-教材
信息检索-医学-高等学校-教材
信息检索-计算机科学-高等学校-教材
3、叙词语言和《汉语主题词表》
⑴叙词语言
叙词语言是以从自然语言中精选出来的,
科 学 技 术 发 展
科技文献 爆炸性增长
电子计算机 发明和发展
计算机 信息检索
3、信息检索技术的发展
光盘检索
手工检索
20世纪50 年代以前
脱机检索
20世纪50年代
联机检索
网络检索
20世纪 20世纪
60年代-70年代
80年代以来
3.1.2
搜索引擎的概念、结构与原理
1、概念
– 搜索引擎是对因特网信息资源进行标
法律网站搜索引擎
东方法眼法律网站搜索引擎
3、
特殊型搜索引擎
• 专门用来检索某一类型信息或数据的检索工 具。 • 地址、图片、电话号码、地图、新闻组、多 媒体、mp3、电子邮件等。 –Eg. Who Where http://www.whowhere.lycos.com Email和电话查询、高级查询、名人检索、 问路查询。
F27 企业经济
F28 基本建设经济
F6 邮电经济
F7 贸易经济 F8 财政金融
F29 城市与市政经济
F832.0 F81 财政、 国家财 政
方针政策
F832.1 金融银行 体制
F82 货币
F832.2 F830 金融、银行理论 银行制度 与业务 F832.3 金融组织、 银行 F832 中国金融、银行 F832.4 信贷 F833 各国金融银行 F832.5 金融市场
主题搜索引擎
–主题:表达文章中心思想的词或词组叫主题 词。 –主题检索,即以某一主题为匹配原则来查找 相关文章的一种信息检索方式, –由于它不是进行单纯的字面匹配,因此能够 向用户提供相关度较高的检索结果。 – ”计算机世界网”的主题搜索引擎:I检索
http://www.ccw.com.cn/
i搜
⑶ 混合型搜索引擎
兼有检索型和目录型两种检索方式,
既可直接输入检索词查找特定资源,又 可浏览目录了解某个领域范围的资源的 检索工具。
⑷ 多元搜索引擎
也称集合型搜索引擎,是一种能利用多个 搜索引擎进行网络信息查询的检索工具。
允许用户同时使用多种搜索引擎,查找
结果是多个搜索引擎查询结果的大集合。
2、按内容划分
⑴ 综合型搜索引擎
⑵ 专题型搜索引擎
⑶ 特殊型搜索引擎
1、综合型搜索引擎
在采集信息资源时不限资源的主题范围和数据类 型 通用性检索工具。 数据量大,学科分类详尽。 国外的Google,Yahoo, Inforseek, Altavista 国内的门户网站搜索引擎 百度,新浪搜索引擎,网易搜索引擎等。
引和检索的wk.baidu.com索系统机制。 – 因特网上提供网络信息资源导航服务
的一个网站。
搜索引擎的基本结构示意图
3.1.3
因特网信息检索工具的类型与特点
1、 按检索机制划分
⑴ 目录型检索工具
⑵ 检索型检索工具
⑶ 混合型检索工具
⑷ 多元检索引擎
⑴ 目录型检索工具
分类目录型搜索引擎是通过浏览层次型分类目录来 查找所需网络信息资源的检索工具。 也称为网络目录、分类站点、站点导航系统等。
• WSRN ( Wall Street Research Network)
http://www.wsrn.com
专门检索经济研究、工商企业、市场新闻 等各类经济信息的检索工具。
国内专题型搜索引擎
慧聪搜索行业搜索引擎 http://www.hc360.com/
IT罗盘
http://search.ccidnet.com/
F21 经济计划
F22 经济计算 F23 会计 F24 劳动经济 F25 物资经济
F230 会计核算理论
F231 会计簿算方法 F232 会计设备 F233 会计工作组织与 制度 F234 各种会计 F235 各部门会计 F239 审计
经济史、经济地理
F2 经济计划与管理 F3 农业经济 F4 工业经济 F5 交通运输经济
第三章 因特网信息检索
3.1 因特网信息检索概述
3.2 网络信息检索语言
3.3 因特网信息检索工具的检索功能
3.4 综合型检索工具
3.5 专题型检索工具 3.6 多元型检索工具
3.1 因特网信息检索概述
3.1.1 因特网信息检索技术的产生和发展 3.1.2 搜索引擎的概念、结构与原理 3.1.3 因特网信息检索工具的类型与特点
①
表示单元概念的规范化语词作为文献主题标
识,通过概念组配方式表达文献主题的检索
语言。
③
②
⑵《汉语主题词表》
第1卷:社会科学部分 第一分册是主表(字顺表)A--Z, 第二分册是索引(词族索引、范畴索引、英汉对照索 引)。 第2卷:自然科学部分 1- 4分册是主表(字顺表), 第5分册是词族索引A--Z,第6分册是范畴索引,第7 分册是英汉对照索引A--Z。 第3卷:合用的附表 世界各国政区名称表、自然地理区划名称表、组 织机构表、人物名称表及英汉对照索引。
主 题 语 言
1、主题检索语言的概念
主题语言是以表达事物或概念的
规范化名词术语作为标引、存储、检
索信息的标识的一种检索语言。
2、主题检索语言的主要类型
从文献的题目、正文或摘要中抽出的 能表达文献主题内容的具有实质意义 的语词。未经规范化 处理。 经过规范化处理的,以基本概念为基
• 关键词
叙词
础的表达文献主题的词和词组。
•
www.scour.net
我国的特殊型搜索引擎
雅虎图片搜索 百度MP3搜索 http://image.yisou.com http://mp3.baidu.com/ http://www.qihoo.com http://www.souyo.com/
奇虎网(BBS搜索) Soyou中文博客搜索
“图行天下”网站 http://www.go2map.com 图像词典公司 http://cn.gograph.com
2、专题型搜索引擎
• 专门采集某一主题范围的信息资源,并用更 为详细和专业的方法对信息资源进行标引描 述。 • 不要求包罗各个学科,但求本专业、本学科 最全。 • 检索结果更精确、相关性更强。 • 获取“所查即所要” 的网络信息资源.
国外典型专题型搜索引擎
• FindLaw http://www.findlaw.com
贸易搜索引擎Tpage http://cn.tpage.com/ - 提供商贸机会、供求信息、经贸新闻。 中国化工搜索 中http://sr2.chemnet.com.cn/ 和讯财经搜索
http://search.hexun.com
查价网
http://www.chajia.com/
http://www.law-lib.com/lawseek/ http://www.dffy.com/dir/
•
国外著名特殊型搜索引擎
• MapBlast http://www.mapblast.com
基本地图查询、驾驶线路查询、国际查询
• Alta Vista图像检索 www.altavista.digital.com • MP3搜索器 http://www.mp3meta.com
• scour多媒体检索引擎