网络信息检索(一).ppt
第一讲 信息检索 PPT课件
第一节 信息 知识 情报 文献
2.知识 知识是人类认识的成果或结晶,是系
统化信息的集合. 知识的属性:
意识性 信息性 实践性 规律性 继承性 渗透性
第一节 信息 知识 情报 文献
3.文献 知识借助于一定的语言形式或物化为某
种劳动产品的形式,就成为可以交流的 文献。 文献的三要素:知识、载体、纪录方式。 文献的属性:知识信息性、客观物质性、 人工纪录性、动态发展性等。 文字形式的文献变成数据形式即称之 为电子文献。
信息的重要性(二)
从知识层面上理解
知识经济建立在知识 材料、 消耗 不可 不可 利用与创新的基础上, 能源 性 共享 再生 知识创新需要大量的
信息做原料。
信息与材料、能源 被称为当今社会的三 大资源
信息
非消 耗性
可共 享
可再 生
二、信息意识和信息素质
信息意识:是人们对各种信息的自觉 心理反应。
第一节 信息 知识 情报 文献
4.情报 在英汉词典中,“information”可译
为“信息”,也可译为“情报”. 情报:人们在一定的时间内为了一定
的目的而传递的有使用价值的知识. 情报的属性:知识性、传递性、效用性。 情报交流:直接交流和间接交流
第一节 信息 知识 情报 文献
信息的重要性 从情报的层面上理解 1.信息决定战争的胜负 2.信息决定企业的兴衰 3.信息是领导决策的依据。
二、文献的出版类型
按出版类型文献划分以下十大类:
(1)图书 (2)期刊(3)会议文献 (4)科技报告 (5)专利文献 (6)学位论文(7)标准文献 (8)政府出版物(9)产品资料 (10)技术档案
二、文献的出版类型
1.科技图书(Sci-Tech book) 阅读类:科普读物、专著、文集等 工具类:百科全书、年鉴、手册、词典等。
第2章--信息检索PPT课件
经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
网络信息检索工具——搜索引擎.ppt
14
利用Google进行专题信息检索
1 简单专题信息检索及目录检索 接受一项简单专题,最直截了当就是在搜索框内输入一个 关 键 词 , 然 后 点 击 下 面 的 “ Google 搜 索 ” 按 钮 ( 或 者 直 接 回 车),结果就出来了。 如果对查询的领域熟悉,只想寻找某些专题网站,首先考虑 用目录检索。目录分类明确,则网站专题信息集中,剔除了大 量不相关的信息。不过对查找中文信息,Google的中文目录太 少只有非常普通简单的类目,可能很难满足需求(中文目录 “/Top/World/Chinese_Simplified/” )。
搜索器、分析器、索引器、检索器和用户接口。
同检索数据库一样,利用搜索工具检索,也需要用户能 够将自己的检索需求编制成合适的检索策略,并且需要 一定的检索技巧。
搜索引擎采用的检索词和信息标识词匹配运算的主要方 法有:布尔逻辑检索、截词检索、限制检索、加权检索、 词位置检索和全文检索等。
2019-8-17
感谢你的观看
2
搜索引擎分类
检索型搜索引擎:它使用自动索引软件来发现、收集并标 引网页,建立数据库,并以Web形式让用户找到所需信息 资源。比较著名的有:引擎将信息系统地分门归类,经过 人工整理后形成庞大而有序的分类目录体系,用户可以在 目录体系的导引下通过逐级浏览,发现、检索到有关的信 息。雅虎就是以卓越的分类目录型导航服务而称誉全球。
-横向相关查询: 当用户找到某个感兴趣的网页,搜索引擎提供查询内容近似的其 他网页的功能(不限于同一网站)。一般是在信息条目后面给出 “Similar Pages”或“More results like this”链接。 -除上述功能外,现在搜索引擎都纷纷开始提供分类搜索,如新 闻搜索、图象搜索、新闻组搜索、Flash搜索等等。
网络信息检索
另外,需要说明的是,不管是从因特网 获取信息还是从其他途径获取信息,我们 需要对信息进行认真辨别和筛选,选择最 合理和准确的信息。同时面对网络隐私、 网络色情、网络心理等一系列问题时,也 要重视网络道德,自觉规范自己的言行。
网络信息检索 络信息检索
主讲:徐 磊
农历八月十五日,是我国传统的中 秋节,也是我国仅次于春节的第二 大传统节日。那么你知道中秋节有 哪些传说故事吗?
欣赏视频:中秋节沙画
想一想:如何才能使用搜索引擎准确快速地找到自己需要的信息。
1、关键词的选择最重要。 (1)提炼关键词 (2)组合关键词 AND或“+”、空格 OR或“|” NOT或“-”
关键词 中秋 月亮最圆 中秋 月亮 最圆 中秋节 月亮 最圆
找到的网页数量 132,000篇 315,000篇 1,340,000篇
2、不要局限于一个搜索引擎。
3、精确匹配——双引号和书名号
• 给查询词加上双引号,让结果精确匹配。
例如,搜索 北京大学 ,如果不加双引号,搜索结果被拆 分,效果不是很好,但加上双引号后,“北京大学”, 获得的结果就全是符合要求的了。
评价因特网信息资源的三种主要方式
统计评价:从统计角度来评价网站的可信度。 如“点击率”排行榜等。 专家或核心刊物评价:该方法专业性较强, 参考价值较高。 个人推荐:该方法参考价值较低。
提问:同学们这节课我学习了哪两种搜索方式,哪些?其中 搜索引擎的主要有哪些技巧?碰到网络搜索信息比较多的时 候,你会如何做出筛选?
分组练习
各小组可以自选一个中国传 统节日(如春节、清明节、 端午节、中秋节等),查查 你选定传统节日的来历、习 俗、传说、诗词并与同学交 流。
第三章 网络信息检索
第三章网络信息检索第一节网络信息检索的基本方法1、布尔逻辑检索逻辑检索是一种比较成熟、较为流行的检索技术。
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要的运算符有:(1)逻辑―与‖逻辑―与‖用AND(或﹡)表示。
检索词A、B若用逻辑―与‖相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。
例如,要检索儿童教育的文献,检索逻辑式可表示为:child AND education(2)逻辑―或‖逻辑―或‖用OR(或+)表示。
检索词A、B若用逻辑―或‖相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
例如,要检索―计算机‖或―机器人‖方面的文献,检索逻辑式可表示为:computer OR robot. (3)逻辑―非‖逻辑―非‖用NOT(AND NOT,BUT NOT)(或-)表示。
检索词A、B若用―非‖相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
例如,要检索有关―能源‖方面的文献,但涉及―核能‖方面的文献不要,检索逻辑式可表示为:energy NOT nuclear(energy –nuclear)。
1、搜索引擎的定义搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。
用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。
搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要(文本描述摘录)、超链接文件大小、检索结果总数、相关度估计、评论等。
搜索引擎的检索结果一般按查询的相关程度进行排列,最相关的通常排在最前面。
2、搜索引擎的常用检索方法(1)简单搜索(simple search)指输入一个单词(关键词),提交搜索引擎检索后反馈结果。
它也叫单词搜索。
第四章网络信息检索(1)(1)
• 主要运用于集合型网络信息检索系统 • 技术关键:A、对标引机制和检索功能相异的网络系统 的使用 采用尽量简单的检索式 B、对来自不同网络系统的检索结果的整合 去重合并
检索技术对查准率和查全率的影响
截词检索
• 截词是指检索者将检索词在他认为合适的地方 截断。 • 截词检索就是用截断的词的一个局部进行的检 索,并认为凡满足这个局部中的所有字符的文 献,都为命中的文献。 • 截词可分为前、中、后截词,又可分为有限截 词和无限截词,通常用“*”表示有限截词, 用“?”表示无限截词。
相关反馈
• 根据对检得结果的分析和计算,抽取有助于提 高检索结果相关度的关键词,将它们用于原有 检索式的修改,然后再据些检索更多的相关结 果。
网络信息资源
• 通过计算机网络可以利用的各种信息资源的总和, 即以数字化形式记录的,以多媒体形式表达的, 分布式存储在网络计算机的存储介质以及种类通 信介质上,并通过计算机网络通信方式进行传递 的信息内容的集合。
网络信息资源特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、动态和不稳定
• 整个过程由系统自动完成。
• 提高查全率
• 例:sogou
加权检索
• 根据检索要求,赋予同一检索式中各个 检索词以不同的权数。 • 以数字(如:1,2,3,其中3为最高权 数)或符号(如:*)表示。
• 例:金融危机影响:金融危机+影响
模糊检索
• 自动纠正在输入数据库信息和检索式过程中产 生的错误,以保证输入信息的正确性。
• 表达式: 检索词/基本索引字段
附加索引字段=检索词 例:Dialog联机检索系统中,基本索引字段代码: TI 题名、篇名 ID 标引词 AB 摘要 DE 主题词、叙词
信息检索技巧PPT课件
⑥ 搜索多媒体信息 格式:media:text 功能:检索文件的名字中含有指定文字的多媒体信息 示例:要检索取名为(或名字中含有)cloud的图像、声
音或录像,可使用media:cloud查询。在具体使用时, 还需参考“Help”等等。
domain name 功能:检索词必须出现在域名、主机名或主机地址中 示例:domain:UK,检索英国(United Kingdom)的网页;
domain:com,检索所有com网站。
③ 搜索URL 格式:url:text或u:text 功能:检索整个URL中含有指定的字或词组的所有页面。 示例:如果你不知道Intel公司的网址,可通过url:intel查
功能:词组检索功能,只检索含有该词组的资料
示例:检索提问“computer network”,表示只检索含有词组computer network的网络文档;检索提问“电脑商情报”,会找出包含
电 脑商情报的网站,不会查找有关电脑商情,XX商情报的内容。 此外,一些标点符号如“-”(连字符)、“\”(斜杠)、“_”
为:+克林顿 +琼斯,表示克林顿与琼斯这两个词必须 出现在搜索结果网页中。
②减号:格式:- 检索词 功能:检索词不能出现在搜索结果中。 示例:查找关于windows2000的资料,但又不想看 到关 于 Windows 98的网 页 , 检 索 提问可 以为: +windows2000–windows98。减号的作用在于可以 使搜索结果集中反映你的需求,使你无需为大量 无关的搜索结果而头疼。
个检索词
OR A OR B
在搜索结果中,A、B两个检索词 只要出现一个即可
信息检索教程PPT课件
第30页/共34页
第6章 计算机检索概述
1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息
检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达第3式1页的/共构34成页 可以采用哪几种方法?
第6章 计算机检索概述
8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。
第6章 计算机检索概述
基于内容的图像检索技术
第26页/共34页
第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例
如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中 选择某个作为检索图样。
(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分 布、形状或纹理相似的结果。
第8页/共34页
第6章 计算机检索概述
6.2.2 检索表达式
检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索 词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置 关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行 的命令形式。检索式构造的优劣关系到检索策略的成败。
根据所检索媒体对象的不同,基于内容的多媒体检索 技术又可分为基于内容的图像检索技术、基于内容的视 频检索技术和基于内容的音频检索技术等。
第24页/共34页
第6章 计算机检索概述
网络信息检索案例(1)
可编辑版
5
作为科学研究,需要大量的全面而详实的资料,所以 需要结合多种搜索方法、利用多个搜索引擎进行资料 的检索
检索方法可用类别搜索和关键词搜索相结合的方法进 行,检索者可以在长期的实践中积累几种方便自己使 用的搜索引擎。
本例使用的是在科技文献检索中比较实用的搜索引擎。
可编辑版
6
3. 确定检索目标
图所示的是我们从“electromagnetic radiation + patent”的检索 结果,找到了10个有关研究课题的专利信息网站。
第二轮:分类逐层搜索
(1)通过搜狐网进行中文分类逐层搜索 首先进入搜狐网主页(/)。搜狐网将网
上的信息分为40多个大类,诸如“娱乐”、“财经”、“理 财”、“IT”、“汽车”等等。 针对所要检索的内容所属类别可利用分级检索的方法,但是, 这种方法一般情况下要与输入关键词检索配合使用,才能更 好地提高检索速度。
电磁辐射学术会议简介
第四轮:中文和英文E-mail查询
在以上三轮检索之后,对所研究课题的信息已经掌握得比 较全面了,但是,可能深度还不够。
这时,可以利用E-mail与相关研究者或相关单位联系,获 取更深层次以上的检索,可以发现,学术科研工作中的信息检索工 作量相当大,且非常复杂。在检索之后得到了以下的几点体会:
可编辑版
33
我们可以发现,在这个网站中几乎列举了所有我们需要所有 信息渠道,这就大大方便了查询工作,不必一遍一遍反复寻 找检索工具,只要从这个网站出发,就可以满足检索的要求。
万方数据库不仅提供了大量的信息和方便的检索途径,还设 计了检索帮助系统。
例如我们要检索专利文献,选择“专利” ,在检索框中输入 “电磁辐射”,可以轻松地找到如下图所示的专利信息资料。
网络信息检索一2014.3研究生
第二节 网络信息检索工具
当已经知道地址时直接通过地址访问。 当不知道地址的时候,需要借助检索工具
1 搜索引擎 2 网络资源目录 3 信息门户 4 搜索软件
1 搜索引擎
搜索引擎其实也就是一个数据库,内容以网页信息资源为 主,也包括文档、图片和多媒体。 搜索引擎与文献数据库相比,其中一个重要的不同是通过 计算机自动完成信息资源的发现、标引和入库。 搜索引擎的搜索技术继承了传统文献信息检索技术的精髓, 在搜索引擎中很多检索技术依然适用。 搜索引擎的好坏评判除了索引的网页数量外,其中重要的 一个方面是搜索结果的输出(结果的相关性)。
三、 网络信息资源的特点
复杂性:网络信息资源具有大数量、多类型、多媒体、非 规范、跨时间、跨地域、跨行业、多语种等特点。 在很大程度上网络的增长和信息资源的动态快速增加是由 用户驱动的,但缺乏有效的统一管理机制,信息安全和信 息质量的不均衡性。 信息分布和构成缺乏结构和组织,信息源不仅分散无序, 而且其更跌和消亡也往往无法预测,因此增大了信息资源 管理和利用的难度。
按所采用的网络传输协议可分为
WWW网络资源:因特网信息资源的主流,它使用http协 议,使用简单,功能强大,能方便迅速的浏览和传递分布 于网络各处的文字、图象、声音和多媒体超文本信息。 FTP信息资源:它使用ftp协议,FTP相当于在网络上两个 主机之间复制文件。目前仍是发布、传递软件和长文件的 主要方法。 TELNET信息资源:telnet是远程登陆协议。telnet信息资 源包括硬件资源和软件资源。许多机构都提供远程登陆的 信息系统,如图书馆的公共目录系统,信息服务机构的综 合信息系统等。 用户服务组资源:包括新闻组,电子邮件组等。这些电子 通信组形式所传递和交流的信息资源是网络上最自由、最 具有开放性的资源。news
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007
个人仓库:网络存储空间、网络硬盘
存储你的文档 /list/156wangluoying pan.htm 超大邮箱 /list/18youxiang.ht m Live mail(原Hotmail) 5 GB(3个月不登录 将自动清除) 其实,有1个G就可以存很多文章了。
9
2007
1.3 网络地址---网址---URL
网络地址是URL(Uniform Resource Locator)的俗称, 一般由三个部分构成,各个部分如下:
服务器标识符 通过选择服务器标识符能够确定将要访问的服务器的类型,URL 中的服务器标识符可以有HTTP://、FTP://、GOPHER://、 TELNET://、NWES://等等类型,分别指定为采用超文本传输 协议连接、采用文件传输协议连接、与GOPHER服务器连接、与 TELNET会话连接、与USENET新闻组相连接。 信息资源地址 信息资源地址是由两部分构成的,一是机器名称,如 是用来指示资源所存在的机器,另一个是通信端口 号,如HTTP的标准端口号为80,TELNET的标准端口号为23, FTP的标准端口号为21等等。 路径名 路径名是给出资源在所在机器上的完整文件名.
62007网络源自息资源检索基础网络基础(自学) 网络信息资源概念、类型及其特点 网络信息资源的评价与选择 网络信息检索工具
1. 2. 3.
4.
[教材P35~40]
7
2007
1.1 认识IP地址
人们为了通信的方便给每一台计算机都事先分配一个 类似我们日常生活中的电话号码一样的标识地址,称 作网络协议地址,是分配给主机的一个32位地址,由4 个字节组成。分为动态IP地址和静态IP地址两种。动 态IP地址指的是每次连线所取得的地址不同,而静态 IP地址是指每次连线均为同样固定的地址。如在图书 馆无线上网就是动态IP地址,每次所取得的地址不同。 静态地址如学校网站的IP 10.80.96.202 通常一经设定,变动较少。
8
2007
1.2 网络地址和认识域名
虽然可以通过IP地址来访问每一台主机,但是要记住那么多枯燥 的数字串显然是非常困难的,为此,Internet提供了域名 (Domain Name)。 域名也由若干部分组成,各部分之间用小数点分开,例如我校主 机的域名是 :“”。
所以在本课程中不仅仅介绍网络信息资源 及其利用,还对网络融入生活、网络融入学习 与方面的内容做了介绍。
3
2007
聚沙成塔:网摘工具---收集网页信息,
天天网摘:/
先进行免费注册。然后下载下载并安装插件(一个注 册表文件) 。安装完后,重启浏览器就能够使用天 天网摘了。使用时,在页面点右键,从弹出菜单中 选择“加入天天网摘”。
对网络信息资源的获取与评价有参考作用
11
2007
全世界为美国打工
目前,全世界共有13台根服务器,其中10台在美国,而 且2台由美军使用,1台由美国国家航空航天局使用。也 就是说,每天世界各地的电子邮件有很多要先由美国人 “过目”之后才能去它该去的地方。此外,美国私营公 司掌握着全世界互联网域名的分配大权。假如美国与日 本的关系急剧恶化,只要美国通过技术手段删去日本的 域名“. jp”,日本马上就会成为“网上孤岛”,无法通 过网络与外界联系。全世界的网络用户都要向美国支付 费用,“全世界都在为美国打工”。 中国已经建成了世界第一个同时也是规模最大的纯IPv6 网
.net 网络服务
.gov. 政府部门
.mil 军事领域
随着Internet向全世界的发展,除了edu、gov、mil、一般只在美国专 用外,另外三个大类com、org、net则成为全世界通用,因此这三 大类域名通常称为国际域名。ac 代表科研机构 由于国际域名资源有限,各个国家、地区在域名最后加上了国家标识段, 由此形成了各个国家、地区自己的国内域名,如: 中国的商业.org.hk 香港的组织.net.jp 日本的网络
天极网摘:
使用方法同上。 文章按类型整合,阅读方便。 有文摘、图摘、闪摘、MP3摘。 能制作图文并茂的网摘,更生动形象。
其它:Google Notebook
4
2007
移动网络导航:网络收藏夹---收集网址
央库 收藏:/ Winodws live favorites / 四楼 / Google bookmark (基于google工具栏) /T4/intl/zh-CN/ 首页网 / 抽屉 / social bookmarking
域名前加上传输协议信息及主机类型信息就构成了网址(URL), 例如我校www主机的URL就是: “http:// ”。
通常,进行网络访问时,域名的www可以省略。如 /,可以直接输入。不能省 略的与域名服务器的配置有关。 域名一般不会变动。
网络信息检索(一) 基础与检索工具
王建涛 2007-10 QQ:47072005
1
信息检索的三个层次
1. 2.
3.
知道在哪里能找到信息(了解不同的信息源) 能从信息源中检索出合适的信息(课题分析和 检索技术) 能对检索结果进行评价和分析(选择、综合利 用)
2
2007
网络社会
在现在的网络信息环境下,网络信息资源是 我们学习、工作、生活中利用率最高的信息资 源之一。对网络信息资源的利用是终身学习的 需要,也是个人信息素养中的重要内容。相对 与本馆纸质文献信息资源和数字资源的检索利 用,其对人的影响更为深远。
如:/index.php
10
2007
1.4 域名与网络信息资源有什么关系?
由于Internet最初是在美国发源的,因此最早的域名并无国家标识,人 们按用途把它们分为几个大类,它们分别以不同的后缀结尾:
.com 商业公司
.edu 教育机构
.org 组织、协会等