Internet技术与应用搜索引擎

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是世界上最大的、也是最好的网站分类目录,已 经被世界各国400多个网站选做默认搜索引擎。 它用一颗小星星推荐各个目录下最好的网站,使 初学者不会被太多的网站弄迷途。
search
search(www.search.com) search属于元搜索 引擎,它收集了800多种专业搜索引擎和数据库。
当你进入大主题“新闻媒体”搜索,它把搜索结 果分为头条新闻、商业新闻、体育新闻、等,如 果再进入小主题“科技新闻”搜索,那么它可以 同时搜索CNET、PC World、ZDNet、IDG.net、 TechWeb这5个著名的科技新闻网站,足够保证 你得到最全最新的科技新闻。
是指通过网络搜索软件或网站登陆等方式, 将互联网上大量网站的页面收集到本地, 经过加工处理而建库,从而能够对用户提 出的各种查询作出响应,提供用户所需的 信息
1.10 搜索引擎—简介
分类目录型 是按目录分类的网站链接列表。如 Yahoo雅虎、新浪等。
搜索(网页)型 利用关键字进行匹配方法进行网页定 位。
1.10 搜索引擎—搜索引擎的原理
说明
搜索引擎并不真正搜索互联网,它搜索的实际上 是预先整理好的网页索引数据库。
搜索引擎也不能真正理解网页上的内容,它只能 机械的匹配网页上的文字
1.10 搜索引擎—分类
按照原理
关键词搜索引擎 主题分类指南(directory search engine) 元搜索引擎(meta-search engine)
理解搜索引擎的原理和基本的使用技术 勤奋:大量实践,仔细体会每个搜索引擎
的特色和功能。搜索时的坚持不懈。 积累:平时多注意积累优秀的专业网站和
数据库 学问:要博学多闻 天资:主要是想象力、判断力
国外搜索引擎 搜索目标(英文) 一般资料 资料涉及非常冷僻的领域 特殊资料 产品或服务 国内搜索引擎 搜索目标(中文)
InfoSeek
InfoSeek(http://guide.infoseek.com) InfoSeek是一个高效的搜索引擎,它的特
点是:搜索精度高,查到的节点一般都与用户 的要求相符。其搜索结果按照相关程度依 次显示。每一个结果显示该HTML文件的标 题、摘要、大小。
Lycos
Lycos ( http://www.lycos.com) Lycos是最老资格的搜索引擎之一,只要能给出
Internet的定义,历史、现状、功能 Internet技术基础
计算网络基础 TCP/IP协议的基本知识,常用术语 接入Internet的方式
常见的网络应用及其工具软件简介
网络浏览,EMAIL,FTP,P2P等等 搜索引擎的使用 网页的制作,网络服务器的搭建
典型Internet网络系统组建与维护 Internet网络安全基础
1.10 搜索引擎—搜索引擎的原理
搜索引擎的原理
1. 从互联网上抓取网页 2. 建立索引数据库 3. 在索引数据库中搜索排序
从互联网抓取网页
建立索引数据库
检索排序
1.10 搜索引擎—搜索引擎系统流程
1.10搜索引擎—搜索引擎的原理
信息收集功能(搜索器)
定期搜索,派出spider程序对一定范围内的网站 进行检索,发现新的或更新后的网站会自动提取 网站信息加入数据库。
国外英文常用搜索引擎
Google — 以搜索精度高、速度快成为最受欢迎的搜 索引擎。 Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之 秀,风头直逼google。 AltaVista — 曾经的搜索引擎巨人,目前仍被认为 是最好的搜索引擎之一。 Overture — 最著名的搜索引擎广告商,竞价排名的 始作俑者,也是全文搜索引擎。 Lycos — 发源于西班牙的搜索引擎,网络遍布世界 各地。 HotBot — 隶属于Lycos Networks,搜索结果来自其 他搜索引擎及目录索引。
INTERNET技术与应用
课程简介
目的:
学会使用Internet进行信息交流和资料查询,为 今后工作和学习打下基础。
了解Internet技术的基本原理
学分: 选修课、2学分 学时: 理论30学时,10次课,
上机20小时,分5次,每次4小时。 学习方法:听课看书上机上网实践提
问再听课
主要内容
WebCrawler:支持全文检索
1.10 搜索引擎—搜索引擎发展史
1994年7月,Lycos:网页自动摘要 1995年,元搜索引擎Metacrawler 1995年12月,Altavista:自然语言搜索,
高级搜索语法(AND、NOT、OR) 1997年,天网:教育网优势、ftp搜索、主
Yahoo
Yahoo!(http://www.yahoo.com)
Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。 Yahoo!的使用很简单,可以直接输入查找关键字,也可以先 选分类主题进行分类查询 ,它将返回三种信息:
1. 满足查询条件的Yahoo目录(用户可以利用它们进行交叉 引用); 2. 满足条件的实际站点; 3. 更广泛的含有页面索引的Yahoo!目录,是一种更 广泛的 交叉引用。
准确的搜索结果,Lycos通常能给出最全面的结果。 Lycos的搜索范围分的较细,这样可以减少命中的 数量. Lycos搜索结果的容量非常之大,你如果试图在网 上迅速找到某个内容,Lycos不是最好的选择,如果 你需要对网上的内容广进博收,多多益善,Lycos可 能会为你找到一些其他站点找不到的内容。
一般资料 古汉语(诗词)资料 产品或服务
搜索引擎/目录索引 Google AllTheWeb InfoSeek/WebCRawler等 Yahoo/Overture
搜索引擎/目录索引 Google 百度(有独到之处) 搜狐、新浪(质量高)、 网易(较全)
1.10 搜索引擎—通用搜索引擎简介
Yahoo InfoSeek Lycos Webcrawler Ask Dmoz Google 百度
Google
Google(www.google.com) Google是在国外很受欢迎的搜索引擎,界 面简洁,以搜索结果的准确性著称,它的 网页快照和图片搜索也很有特色。
1.10 搜索引擎—分类
按类型分
WEB搜索引擎 FTP 搜索引擎 学术搜索引擎 blog搜索引擎 新闻搜索引擎
1.10 搜索引擎—元搜索引擎
一次搜索多个搜索引擎,并将结果返回给 用户。有的直接按来源引擎排列搜索结果, 有的则按自定的规则将结果重新排列组合。
优点:能同时搜索多个搜索引擎,能在一 定程度上提高查询的广度。
Biblioteka Baidu
Ask
Ask (www.ask.com )Ask是一个支持自 然提问的搜索引擎,当你遇到一些属于事 实型、原理型的问题时,使用Ask是最方便 的。例如:“美国历任总统中就任时年纪 最轻的是谁?”、“飞机是哪一年发明 的?”它都会给你答案的。
dmoz
dmoz(www.dmoz.org )有的人不喜欢自己输入英 文单词搜索,而是喜欢用鼠标点击分类目录随意 浏览,那么我向你推荐dmoz。
Webcrawler
Webcrawler(http://www.webcrawler.com) Webcrawler 是一个杰出的搜索引擎 ,它
提供事先分好类的19个主题,实现了基于主 题的搜索。 Webcrawler号称支持"自然语言搜索",所以 可以输入像"highest mountain in the world(世界上最高的山)"这样的查询条件。
缺点:有时候并不能对一个搜索引擎全部 查完,有时候也会漏掉一些重要信息。
1.10 搜索引擎—搜索引擎发展史
产生:1990年-Archie-蒙特利尔大学的 Alan Emtage开发的ftp搜索系统。
1993年10月 ALIWEB系统:网站自己提交索 引信息。(yahoo)
1993年底 基于spider的搜索引擎出现 1994年4月 yahoo:自附简介信息,效率高;
http://go.8848.com/ http://www.askyaya.com/ 博客与RSS搜索引擎: http://so.blogchinese.com/ 人脉搜索引擎: http://www.linkist.com/ 论坛搜索引擎:http://www.teein.com/
1.10 搜索引擎—使用现状
网上搜索信息的人很少考虑如何找到他们 所需要的信息,因此搜索信息很盲目;
只有18%的用户表示总能在网上搜索到需要 的信息。68%的用户说他们对搜索引擎很失 望;
平均每个搜索者在12分钟的徒劳搜索后就 感到恼火和受挫。
46%的人只会用同一个关键词搜啊搜啊,而 且是在同一个搜索引擎。
1.10 搜索引擎—如何有效地搜索
索引项:分为客观索引项和内容索引项两种
客观项:与文档的语意内容无关,如作者名、 URL、更新时间、编码、长度、链接流行度 (Link Popularity)等等;
内容索引项是用来反映文档内容的。如关键词 及其权重、短语、单字等等。内容索引项可以 分为单索引项(单词)和多索引项(或称短语 索引项)两种。
1.10 搜索引擎
搜索引擎的定义和分类 搜索引擎的原理 常用搜索引擎 GOOGLE使用指南 常见专业数据库简介
1.10 搜索引擎—网络信息检索工具
已经知道地址时直接访问。 不知道地址的时,需借助检索工具
➢ 搜索引擎 ➢ 网络资源指南(门户) ➢ 专门数据库
1.10 搜索引擎
搜索引擎(Search Engine)的定义
题搜索
1.10 搜索引擎—搜索引擎发展史
1997年,天网ftp搜索、主题搜索 1998年,google:pagerank、动态摘要、
网页快照等。 1999年,Fast/AllTheWeb:利用ODP自动分
类 2001年,Teoma:类似自动分类的refine
Baidu:最大的中文数据库
中文常用搜索引擎
百度中文搜索引擎: http://www.baidu.com/ Google中文搜索引擎: http://www.google.cn/ 搜狐搜狗搜索:http://www.sogou.com/ 雅虎:http://cn.yahoo.com/ 新浪:http://cha.iask.com/ 网易 :http://so.163.com/ TOM搜索: http://i.tom.com/ 北大天网搜索引擎: http://www.tianwang.com/
1.10 搜索引擎—垂直搜索引擎
即专业或专用搜索引擎,它专门用来检索 某一主题范围或某一类型信息,追求专业性 与服务深度是它的特点。
垂直搜索引擎不但可保证此领域信息的收 录齐全与更新及时,而且检索深度和分类细 化远远优于综合搜索引擎。
1.10 搜索引擎—垂直搜索引擎举例
找工作的搜索引擎:http://www.deepdo.com/ google学术搜索:http://scholar.google.com/ google图书搜索:http://book.google.com/ 比价购物搜索引擎:
网站所有者主动向搜索引擎提交网址,然后搜索 引擎在一定时间内派出spider程序搜集有关信息 加入数据库。(天网)
1.10 搜索引擎—搜索引擎的原理
检索与排序技术(索引器和检索器) 超链分析技术 索引信息检索 全文检索
用户接口
1.10 搜索引擎—搜索引擎的原理
索引器: 是理解搜索器所搜索的信息,从中抽取出索引 项,用于表示文档以及生成文档库的索引表。
1.10 搜索引擎—搜索引擎的原理
检索器
检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价,对将要输出的结果进行排 序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、 概率模型和混合模型四种。
用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用 户相关性反馈机制。主要的目的是方便用户使用搜索引擎, 高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充 分适应人类的思维习惯
相关文档
最新文档