医学生物信息学 第4讲 生物信息学信息资源检索的常用工具
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
采用人工干预, 将各站点按内容划分为不同 主题大类,再将大类细分为小类,最终建成一个
树状结构的多级分层目录,检索时只要点击它的
树状结构的顶层,即可逐层展开,直到查到所需 信息。Web目录在信息采集、编排、HTML编码等方 面由人工编制和维护,因而数据库收集的页面有 限,但查准率较高。
世界著名的Yahoo就是最早的一个Web指南站点, 也有人将此类查询称为“分类查询” 或“专题查询”。
四、工作原理
搜索引擎并不真正搜索互联网,它搜索的实际上 是预先整理好的网页索引数据库。
至少由三部分组成: 数据采集(爬行器) (机器人、蜘蛛) 数据组织(索引生成器) 数据检索(查询检索器) 它们的功能是通过各种软件实现的。
随着搜索引擎的发展,许多搜索引擎在此基础上增 加特色功能。如百度增加了监控程序。
目前网上流行的检索工具多是两者的结合, 同时具有搜索引擎和主题目录两种功能。
(二)按检索内容划分
分为三种:通用型、专业型和专门型搜索引擎。
1、通用型搜索引擎
是综合信息检索系统,不受主题和数据类型限制。近 年来通用型搜索引擎有超大型发展趋势。
2. 专业型搜索引擎
是根据学科专业特点,将网络资源进行整理编排的专 业生物信息检索工具,经过人工筛选,适用于专业人 员查找专业信息。 针对某一学科内容的专科型检索工 具,以满足专科医生或研究人员的需要。
中国 搜狐 百度 网易
新浪搜索 北极星 常青藤 天网 263搜索引擎
中华网 盖世引擎 悠游 茉莉之窗 Goyoyo Excite Lycos InfoSeek Index Magellan HotBot
OpenTex
一、搜索引擎的类型
(一)按检索功能分 常将网络检索工具概称为搜索引擎,搜索
引擎包括两种网络检索服务。
* 全文搜索引擎 “FullText Search Engine” ** 目录/指南 “Directory/Guides”
1、全文搜索引擎(Full Text Search Engine )
利用搜索软件定期对网络资源进行搜索,然后自 动排序和索引,从而组成一个庞大的信息数据库,并 不断更新。
用户通过访问这些站点,输入关键词或短语等
创建索引的方法(图书检索的启迪) 手工索引 自动索引
二、发展过程
1990年三名学生开发一可以用文件名查找文件系统,可 搜索的FTP文件名列表。搜索的祖先
1993年开发了一个Gopher搜索工具 1994年4月,斯坦福大学两名博士生,美籍华人杨致远和
David Filo共同创办了Yahoo, Yahoo!--几乎成为20 世纪90年代的因特网的代名词。 1995年,一种新的搜索引擎形式出现——元搜索引 擎 1995年底AltaVista登场亮相
1998年10月Google改变了搜索引擎的定义
三、基本概念
1. 搜索引擎(Web Search Engines)定义:
允许用户递交查询,检索出与查询相 关的网页结果列表,并且排序输出。
搜索引擎
本身也是一个网站点,其作用是指引用户 找到所需信息的链接点,像信息海洋中的导航 员一样,使人们能迅速准确到达目的网点,从 而快捷地获取网上信息。
网上的信息高度复杂,形形色色,多种多样, 真假难分。
如何迅速、准确到达目的网点获得所需信息?
“工欲善其事,必先利其器”,选
择恰当的检索工具,对于获取网上信息可取得 事半功倍的效果。
The web creates new challenges for information retrieval.
进行检索, 数据库将与这些关键词相关的网页地址 的超链接信息迅速返回用户。这种方式构成的数据库 不需要人工干涉,数据库庞大,查全率较高,但查准 率较低。
AltaVista就是其中比较著名的一个搜索引擎, 此类查询方式称为“语词查询”或“全文索引查询”。
2. Web目录/指南(Web directory/guides)
1、数据采集
从互联网上抓取网页,数据靠使用机器人 (robot)、蜘蛛(spiders)、爬虫(crawlers)等网 络搜索软件进行采集的。
它们在Web空间不停地自动寻找、挖掘 和收集各种信息资源,根据其访问链接的数 量进行初步处理,去除无法链接的死链接点, 从互联网上自动收集网页。
2. 数据组织:建立索引数据库
利用索引软件将采集的网页信息进行标引, 整序、组织,并建立索引数据库。
不同的索引软件处理数据有明显差异,有 的索引软件只标引网页的地址、篇名、特定关 键词等内容,有的索引软件则对网页全文进行 处理。
数据库的内容必须不断补充、更新,以满足 网络信息的不断变化。
3. 数据检索:在索引数据库中搜索排序
根据用户提出的查询要求,应用查询软件在索引数 据库中检索符合条件的网页记录,将检索结果按相关 度进行排序,运行后将查询结果返回给用户,获取所 需信息。
3.专门类型搜索引擎
针对某一专门类型或专题如软件下载、查找三维图 像、人名、机构、产品、E-mail地址等信息。
第五章
生物信息学信息资 源检索的常用工具
目的
掌握常用生物信息学的搜索工具, 熟悉理性网络中寻网站、求知识。
第一节 概 述
一、产生背景
Internet世界是一个浩瀚无边、深奥莫测的信 息海洋。
网上可索引的网页数量已超过30亿,在呈wk.baidu.com 炸性增长。若要逐个登录站点方式进行信息查 询,如“大海捞针”。
预处理 关键词提取;重复网页消除;链接分析;索引
服务 查询方式和匹配;结果排序;文档摘要
搜索引擎系统流程
第二节
搜索引擎分类及介绍
介绍几种常用、综合性和重要的 专业性搜索引擎。
概述
因特网上目前仅检索工具就有10 000余种,这些工具 有不同类型。
本栏目提供一些网上常用的搜索引擎。
Google,Yahoo, Yahoo!
当输入关键词,搜索系统程序从网页索引数 据库中找到符合关键词的所有相关网页。针对该 关键词的相关度早已算好,所以只需按照现成的 相关度数值排序,相关度越高,排名越靠前。
最后由页面生成系统将搜索结果的链接地址和 页面内容摘要等内容组织起来返回给用户。
搜索引擎三段式工作流程
搜集
整理
服务
搜集 批量搜集,增量式搜集;搜集目标,搜集策略
树状结构的多级分层目录,检索时只要点击它的
树状结构的顶层,即可逐层展开,直到查到所需 信息。Web目录在信息采集、编排、HTML编码等方 面由人工编制和维护,因而数据库收集的页面有 限,但查准率较高。
世界著名的Yahoo就是最早的一个Web指南站点, 也有人将此类查询称为“分类查询” 或“专题查询”。
四、工作原理
搜索引擎并不真正搜索互联网,它搜索的实际上 是预先整理好的网页索引数据库。
至少由三部分组成: 数据采集(爬行器) (机器人、蜘蛛) 数据组织(索引生成器) 数据检索(查询检索器) 它们的功能是通过各种软件实现的。
随着搜索引擎的发展,许多搜索引擎在此基础上增 加特色功能。如百度增加了监控程序。
目前网上流行的检索工具多是两者的结合, 同时具有搜索引擎和主题目录两种功能。
(二)按检索内容划分
分为三种:通用型、专业型和专门型搜索引擎。
1、通用型搜索引擎
是综合信息检索系统,不受主题和数据类型限制。近 年来通用型搜索引擎有超大型发展趋势。
2. 专业型搜索引擎
是根据学科专业特点,将网络资源进行整理编排的专 业生物信息检索工具,经过人工筛选,适用于专业人 员查找专业信息。 针对某一学科内容的专科型检索工 具,以满足专科医生或研究人员的需要。
中国 搜狐 百度 网易
新浪搜索 北极星 常青藤 天网 263搜索引擎
中华网 盖世引擎 悠游 茉莉之窗 Goyoyo Excite Lycos InfoSeek Index Magellan HotBot
OpenTex
一、搜索引擎的类型
(一)按检索功能分 常将网络检索工具概称为搜索引擎,搜索
引擎包括两种网络检索服务。
* 全文搜索引擎 “FullText Search Engine” ** 目录/指南 “Directory/Guides”
1、全文搜索引擎(Full Text Search Engine )
利用搜索软件定期对网络资源进行搜索,然后自 动排序和索引,从而组成一个庞大的信息数据库,并 不断更新。
用户通过访问这些站点,输入关键词或短语等
创建索引的方法(图书检索的启迪) 手工索引 自动索引
二、发展过程
1990年三名学生开发一可以用文件名查找文件系统,可 搜索的FTP文件名列表。搜索的祖先
1993年开发了一个Gopher搜索工具 1994年4月,斯坦福大学两名博士生,美籍华人杨致远和
David Filo共同创办了Yahoo, Yahoo!--几乎成为20 世纪90年代的因特网的代名词。 1995年,一种新的搜索引擎形式出现——元搜索引 擎 1995年底AltaVista登场亮相
1998年10月Google改变了搜索引擎的定义
三、基本概念
1. 搜索引擎(Web Search Engines)定义:
允许用户递交查询,检索出与查询相 关的网页结果列表,并且排序输出。
搜索引擎
本身也是一个网站点,其作用是指引用户 找到所需信息的链接点,像信息海洋中的导航 员一样,使人们能迅速准确到达目的网点,从 而快捷地获取网上信息。
网上的信息高度复杂,形形色色,多种多样, 真假难分。
如何迅速、准确到达目的网点获得所需信息?
“工欲善其事,必先利其器”,选
择恰当的检索工具,对于获取网上信息可取得 事半功倍的效果。
The web creates new challenges for information retrieval.
进行检索, 数据库将与这些关键词相关的网页地址 的超链接信息迅速返回用户。这种方式构成的数据库 不需要人工干涉,数据库庞大,查全率较高,但查准 率较低。
AltaVista就是其中比较著名的一个搜索引擎, 此类查询方式称为“语词查询”或“全文索引查询”。
2. Web目录/指南(Web directory/guides)
1、数据采集
从互联网上抓取网页,数据靠使用机器人 (robot)、蜘蛛(spiders)、爬虫(crawlers)等网 络搜索软件进行采集的。
它们在Web空间不停地自动寻找、挖掘 和收集各种信息资源,根据其访问链接的数 量进行初步处理,去除无法链接的死链接点, 从互联网上自动收集网页。
2. 数据组织:建立索引数据库
利用索引软件将采集的网页信息进行标引, 整序、组织,并建立索引数据库。
不同的索引软件处理数据有明显差异,有 的索引软件只标引网页的地址、篇名、特定关 键词等内容,有的索引软件则对网页全文进行 处理。
数据库的内容必须不断补充、更新,以满足 网络信息的不断变化。
3. 数据检索:在索引数据库中搜索排序
根据用户提出的查询要求,应用查询软件在索引数 据库中检索符合条件的网页记录,将检索结果按相关 度进行排序,运行后将查询结果返回给用户,获取所 需信息。
3.专门类型搜索引擎
针对某一专门类型或专题如软件下载、查找三维图 像、人名、机构、产品、E-mail地址等信息。
第五章
生物信息学信息资 源检索的常用工具
目的
掌握常用生物信息学的搜索工具, 熟悉理性网络中寻网站、求知识。
第一节 概 述
一、产生背景
Internet世界是一个浩瀚无边、深奥莫测的信 息海洋。
网上可索引的网页数量已超过30亿,在呈wk.baidu.com 炸性增长。若要逐个登录站点方式进行信息查 询,如“大海捞针”。
预处理 关键词提取;重复网页消除;链接分析;索引
服务 查询方式和匹配;结果排序;文档摘要
搜索引擎系统流程
第二节
搜索引擎分类及介绍
介绍几种常用、综合性和重要的 专业性搜索引擎。
概述
因特网上目前仅检索工具就有10 000余种,这些工具 有不同类型。
本栏目提供一些网上常用的搜索引擎。
Google,Yahoo, Yahoo!
当输入关键词,搜索系统程序从网页索引数 据库中找到符合关键词的所有相关网页。针对该 关键词的相关度早已算好,所以只需按照现成的 相关度数值排序,相关度越高,排名越靠前。
最后由页面生成系统将搜索结果的链接地址和 页面内容摘要等内容组织起来返回给用户。
搜索引擎三段式工作流程
搜集
整理
服务
搜集 批量搜集,增量式搜集;搜集目标,搜集策略