第四章 网络搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
4.1 网络信息资源概况 4.2 网络信息检索工具-搜索引擎 4.3 网络信息检索工具-网络资源目录、信息门户 4.4 谷歌/百度搜索语法实例
4.1 网络信息资源
4.1.1 概念
网络信息资源是指信息资源以电子数据的形式存放在 非印刷型的介质中,并通过网络通信手段,在计算机等终 端上再现的信息的总和。
形式因素。形式指标反映了外部特征以及操作使用等方面, 是为提示内容服务的,主要包括:美观性、条理性、查检 性、帮助性、快捷性、低耗性等。 定量的评价:Google的pagerank;星数评价等级。
权威性
在本学科领域具有一定的影响、具有较高的学术水平、 具有较高的知名度;Google网页级别评价作为重要的指 标,非独特性资源网页级别需3/10以上。 主要关注如下问题:所采集的网站(页)的主办者是否 为有声誉的大学、学会/协会、实验室?网站是否通过权 威评价机构评价过?所选的站点是否被多个internet站 点链接?网站是由某公司、机构还是某领域的著名的权 威或专家赞助?信息提供者的教育背景和职业背景及其 研究方向?责任者有知名的出版物吗?信息是否经过过 滤?信息是否经同行评议过?资源是否由相关的权威推 荐?是否有与权威机构的页面的共同链接?出版社是否 知名和有声望?出版社是否是公认的出版界的权威?出 版社是否是大学的出版社?是否有任何原创作品?选择 的资源与其它作品有相关性吗?
大量搜索引擎请参见这里:
中文搜索引擎指南网[搜网]: http://www.sowang.com/ 搜索引擎观察[专业、元、多媒体、购物] http://searchenginewatch.com/links/ 著名搜索引擎简介: http://www.se-express.com/about-se.htm http://www.sdau.edu.cn/support/search/
4.2.4 专业搜索引擎
专业搜索引擎也称为垂直搜索引擎,主要用于从因特网上 搜索和查询某一专门领域和特定主题的信息和知识。 国内:考研搜索(http://so.syzhi.com):专注于考研信息的搜 索引擎。 留学搜索( www. zhuansoo.com):为留学人员提供出 国咨询等专业解答。 中国教育搜索(www. edusoso.com):提供丰富的教育 考试资源网址导航。 健康网搜索( http://search.39.net):是面向广大网友的 建刚咨询检索系统。 国外:WallStreet Research Network(www. wallstreetresearch.org):专业检索经济研究,工商企业等。 Mathsearch (www.maths.usyd.edu.au/MathSearch.html):针对数学和 统计学的专业搜索。
4.1.2 网络信息资源的类型
按信息内容的表现形式和内容划分可分为 全文型信息:它指直接在网上发行的电子期刊,网上报纸, 印刷型期刊的电子版,网络学院的各类教材,政府出版物, 标准全文等; 事实型信息:天气预报,节目预告,火车车次,飞机航班, 城市或景点介绍,工程实况、IP地址等; 数值型信息:主要是指各种统计数据、实验数据; 数据库类信息:如DIALOG,万方等,是传统数据库的网 络化; 微内容(web2.0特征):如博客、播客,BBS,聊天,邮 件讨论组,网络新闻组等。 其它类型:投资行情和分析,图形图象,影视广告等。
续
正式出版物和非正式信息交流交织在一起,使传统的人类 信息交流链的格局被打破,各方在网络上既可以是信息的 生产者、发布者,也可以是传播者和使用者,对学术交流 环境和信息利用产生了深刻的影响。 网络营造了“地球村”,既极大地促进了人类信息资源的 共享,又带来了一些意想不到的问题,如文化冲突、信息 侵略、信息威慑等。 使用成本低 共享程度高 是信息资源的宝库……
准确性
信息资源需严肃正规、准确无误、完整规范。一方面是内 容的准确性,另一方面是格式和链接的准确性。对资源的 导航需能正常访问。 主要考虑所选网站(页)提供的信息是否准确?是否提供 了信息的来源和出处以备用户进一步核查;网页引证的书 目或提供的参考能否证实信息的准确性?页面的句法和拼 写是否准确?有否排印错误?提供的信息是否完整规范?
Βιβλιοθήκη Baidu
附:人肉搜索
基于大信息环境观念的信息搜索、挖掘、选择、评价、分 析、综合 请通过百度百科中的“人肉搜索引擎”词条了解人肉 搜索http://baike.baidu.com/view/860941.htm人肉搜索, 其实是情报学中的信息分析和情报调研过程,是信息 检索技能、信息分析方法和情报调研过程的集中应用。 其最大的特点是应用web2.0的思路,网聚人力,虚拟 与现实结合。
4.1.3 网络信息资源的特点
复杂性:网络信息资源具有大数量、多类型、多媒体、非 规范、跨时间、跨地域、跨行业、多语种等特点。
在很大程度上网络的增长和信息资源的动态快速增加是由 用户驱动的,但缺乏有效的统一管理机制,信息安全和信 息质量的不均衡性。 信息分布和构成缺乏结构和组织,信息源不仅分散无序, 而且其更跌和消亡也往往无法预测,因此增大了信息资源 管理和利用的难度。 信息发布具有很大的自由性和任意性,隐私型信息进入了 公共信息传播渠道;由于缺乏必要的过滤、质量控制和管 理机制,不仅学术信息、商业信息,政府信息、个人信息、 不合适(反动、黄色)的信息混为一体,质量良莠不齐。 增加了信息识别和利用的难度。
搜索引擎具有以下几个方面的特点: 1.搜索引擎其实也就是一个数据库,内容以网页信息资源为主, 也包括文档、图片和多媒体。 2.搜索引擎与文献数据库相比,其中一个重要的不同是通过计 算机自动完成信息资源的发现、标引和入库。 3.搜索引擎的搜索技术继承了传统文献信息检索技术的精髓, 在搜索引擎中很多检索技术依然适用。 4.搜索引擎的好坏评判除了索引的网页数量外,其中重要的一 个方面是搜索结果的输出(结果的相关性)。
按所采用的网络传输协议可分为:
WWW网络资源:因特网信息资源的主流,它使用http协 议,使用简单,功能强大,能方便迅速的浏览和传递分布 于网络各处的文字、图象、声音和多媒体超文本信息。 FTP信息资源:它使用ftp协议,该协议主要用语连网计算 机之间传输文件。FTP相当于在网络上两个主机之间复制 文件。目前仍是发布、传递软件和长文件的主要方法。 TELNET信息资源:telnet是远程登陆协议。telnet信息资 源包括硬件资源和软件资源。许多机构都提供远程登陆的 信息系统,如图书馆的公共目录系统,信息服务机构的综 合信息系统等。 用户服务组资源:包括新闻组,电子邮件组等。这些电子 通信组形式所传递和交流的信息资源是网络上最自由、最 具有开放性的资源。news
4.1.4 网络信息资源的评价与选择
相同内容的信息资源的载体形态或利用、获取的方式不同, 可以根据需要选择。 网络信息资源的评价与选择主要是针对信息源。
内容因素。内容是评价与选择的核心和重点,从中可以反 映网络信息资源的本质。评价网络信息资源的内容因素主 要有:权威性、完备性、可靠性、原创性、新颖性、稳定 性等。
垂直搜索引擎举例:1
找工作的搜索引擎:http://www.deepdo.com/ http://www.totojob.com/ google学术搜索:http://scholar.google.com/ google图书搜索:http://book.google.com/ Patent Search 比价购物搜索引擎:http://go.8848.com/ http://www.askyaya.com/ 博客与RSS搜索引擎:http://www.oao.cn/ [中客] http://so.blogchinese.com/ [博客中国人] http://www.feedsearch.net/ http://www.8fang.net/ [八方 ] 人脉搜索引擎: http://www.linkist.com/ [交友,找工作, 商机] https://www.linkedin.com/ http://www.digdig.com.cn/ [人物、软件] 论坛搜索引擎:http://www.teein.com/
5. 搜索引擎只是一个索引数据库,一般没有自己的信息资源, 信息的可获得性与搜索引擎无关。不过搜索引擎有时也会在 数据库中存储某些信息的内容。
4.2.2 搜索引擎的类型及工作原理
全文搜索引擎 搜索引擎的类型 目录搜索引擎 元搜索引擎
搜 索 引 擎
搜索引擎工作原理
抓取网页 处理网页 提供检索服务
4.2.3 常用搜索引擎的特色服务 1) 百度
2) 垂直搜索引擎
垂直搜索引擎:即专业或专用搜索引擎,它专门用来检索 某一主题范围或某一类型信息,追求专业性与服务深度是 它的特点。 垂直搜索引擎不但可保证此领域信息的收录齐全与更新 及时,而且检索深度和分类细化远远优于综合搜索引擎。 垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但 检 出结果重复率低、相关性强 、查准率高,适合于满足较 具体的 、针对性强的检索要求 。目前已经涉及到购物, 旅游,汽车,工作,房产,交友等行业。
4.2.5 其他搜索引擎 1)水平搜索引擎(综合搜索引擎)
水平搜索引擎索引几乎所有可能内容, 包括多种类型、 大量领域,在内容类型和领域方面表现出综合性。 水平搜索引擎强调信息的宽广、面对的是广泛用户的信 息需求。 典型的水平搜索引擎有: 百度中文搜索引擎:http://www.baidu.com/ Google中文搜索引擎:http://www.google.com.hk/
稳定性
信息资源需有较长的稳定期或有稳定运行的保障机制。 主要看所选网站(页)提供信息的时间、更新频率、最近 的修改日期,链接速度,断线率等。是否能持续提供给用 户使用?
可获得性
信息资源揭示信息的层次中,至少一个能无障碍地获得。 主要要考虑的是题名信息还是文摘信息或全文信息? 是 否有对信息结论的阐述标准?是否给出了表明信息内容的 关键词或主题词?希望在该网页上找到何种信息?主题的 涵盖面是否全?索引或目次页是否隐含了综合性的内容? 是否免费?是否注册?是否国际流量?是否符合标准?是 否有其它格式或镜像? 某种类型的信息有使用期限制吗? 访问资源的方式是否依赖用户使用的设备?是否需要专门 软件(如浏览器)?是否有方便的导航?是否容易链接所 需的信息?是否有清晰的链接标签?是否能分别打印页面 和文献的某一部分?是否能发送到电子邮箱?是否提供多 种检索方式?检索信息的效率如何?
第四章:网络搜索引擎
网络信息检索
Lly_world@163.com
导言:网络社会 在前面的课程中,我们从教育的未来视频中所了解到信 息技术和网络迅猛发展。在现在的网络信息环境下,网络信 息资源是我们学习、工作、生活中利用率最高的信息资源之 一。对网络信息资源和网络的利用是终身学习的需要,也是 个人信息素质中的重要内容。相对于图书馆纸本文献信息资 源和数字资源的检索利用,其对人的影响更为深远。 今后的社会,网络是一个基本要素,它将对社会经济、 科技教育、国防乃至政治产生决定性的影响。
目录
4.1 网络信息资源概况 4.2 网络信息检索工具-搜索引擎 4.3 网络信息检索工具-网络资源目录、信息门户 4.4 谷歌/百度搜索语法实例
4.2 网络信息检索工具-搜索引擎
4.2.1 搜索引擎的定义及特点
定义:搜索引擎(search engine)是指根据一定的策略、运用 特定的计算机程序搜集互联网上的信息,并将组织和处理后 的结果信息显示给用户,为用户提供检索服务的系统。
http://www.cuil.com/ (索引量1000多亿网页)
Google杀手:Cuil
Google杀手? WolframAlpha
http://www.wolframalpha.com/ ,将知识转化为可计算
26
Google新的竞争者:必应
http://cn.bing.com/
百度是目前世界上规模最大的中文信息库之一,总量已达到 20亿页以上,这些网页的数量每天正以千万级的速度在增长。
2) Google
全球驰名的Google是基于连接评价的搜索引擎的优秀代表, 它独创的一套“连接评价”是基于这样一种认识,一个网页的重 要性取决于它被其他网页连接的数量,以此来统计确定有关网站 的重要性排名。Google的一些独具特色的检索功能,为我们的日 常工作学习提供了很多的方便之处。