人文社科文献检索课 第五章.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 搜索引擎的类型
(1)按工作方式区分,分为主题引擎、目录引擎 和多元引擎。可分为主题引擎、目录引擎和多元 引擎。
a. 主题引擎一般由搜索软件(spider、robot、 crawler),索引软件(它的任务是建立索引)和 检索软件三部分组成。它的优点是信息量大、更 新及时、无需人工干预
缺点是返回信息中常有很多无关信息,身子有一定比例的死链 接,用户必须从结果中进行筛选。
(本章将要介绍的内容仅限于狭义的网络信 息资源,不包括使用权有限制的网上信息 资源。)
二、网络信息资源的特点
1. 数量庞大,增长迅速(网页增长) 2. 整体无序,局部有序(无序性特征) 3. 更新频繁,变化无常(网页寿命) 4. 多维显示,交互方便(载体类型/通讯方式) 5. 良莠混杂,参差不一
三、网络学术信息资源类型
b. 学术和非学术网站的区别主要依据网站 本身的主旨介绍。
5.2 网络信息检索工具和检索方法
一、相关概念 1. IP地址和域名
IP地址:因特网协议(Internet Protocol)地址, 类似于计算机在信息高速公路上的门牌号码。由四段数 字组成,中间用圆点隔开,例如202.201.160.175
三、几个重要的引擎的使用方法
1. 百度 ► 输入的检索词可以使研究的主题、网站、新
闻等任何内容,形式可以使中文英文,数字 或者中英数字的混合体;并且它不区分字母 大小写;它没有模糊检索和截词检索功能。
► 它可以使用两个以上检索词的检索逻辑。
► 字段检索。
► 标题检索。
► 在url中搜索。
► 特色功能:百度快照,相关检索,专门内容 检索。
2.谷歌(Google) • 它是优点是网址数量大,检索语种多,响应速度快,
它页提供“网页快照”功能,但是这只限国外站点, 点击Cached链接即可。 • 谷歌检索文本框中可以任意输入中英文检索词,故 宫不支持借此福,但有默认的截词功能。 • 检索与反方面,检索多个检索词时。
3.Dogpile ▪ 它是个多元引擎,而且是目前性能比较好的一个
4.稳定性评价法 它包括系统稳定性,网站稳定性和信息稳定性。
♪
♪
♪♫
♫♪
♫
♫
♪
♫
Thank you for your attention!
♪
♫
♪
♫
2.小时网页和网站信息的获取方法 有时由于网站整理、文件被重新命名引起的,有时是由于更 换服务器引起的“404-Not Found”的错误信息。此时,我 们可以用网址回溯法,还可以用字段检索法,或者服务器缓 存法。
3.检索策略的调整,即增减检索同义词、近义词等,或者使用 逻辑与或者字段限制等策略。
五、虚拟图书馆和网络资源导航
4. 网上常见文件格式和后缀名
bmp. Windows位图 jpg. Jpg静态图形
swf. 动画 asf. 流媒体 rm. Real Video
二、搜索引擎的基本概念
1. 搜索引擎的定义:Search Engines是网上信息搜 索工具的通称。可以是一个独立的每户网站,也 可以是附在其他类型网站或主页上的一个搜索工 具。
(2). 按照工作语种区分,可分为中文搜索引擎和 外文搜索引擎。
(3). 按照搜索内容区分,可分为门户索索引擎和 垂直搜索引擎。提供综合性信息服务的搜索引擎 称之为门户搜索引擎(如搜狐),而垂直引擎目 前最普遍的是博客引擎。
►它们的主要区别是:
a. 门户引擎内容信息范围要比处置引擎的来得广; b. 门户网站信息内容的实效性相对新一些; c. 垂直引擎在信息的深度上往往比门户引擎优越一些。
D. 按照是否经过审核: 1. 正式出版物(ISBN/ISSN,学术价值相
对较高) 2. 非正式出版物(学术价值变化较大)
E. 按照是否属于搜索引擎范围:(400:1) 1. 不可见资源 2.可见资源
网络学术信息资源
网上商用数据库
网上公开资源
一次资源
二次资源
一次资源
二次资源
全全 文文 期wk.baidu.com 刊书 数数 据据 库库
1. 虚拟图书馆的出现时为了减少信息选择的难 度。 较早提出该概念的人是美国人卡耶(Gapen D Kaye)。
2. 何时使用虚拟图书馆: a.当时间短促,不允许浏览有搜索引擎查得 的巨量的信息时; b.当希望看到比较可靠的网络信息; c.当希望对某个领域有个整体的、较全面的 了解时;
5.3 学术网站的评价方法
并行式元搜索引擎。它可同时调用25个网页引擎、 新闻组引擎和ftp引擎等。 ▪ 它的输入框下方可选查Web, Usenet, ftp等。 ▪ 特色: a. 采用独特的并行和串行相结合的查询方式。 b. 可使用布尔算符合模糊查询。
四、用搜索引擎学院注意的问题和搜索引擎 检索策略实例
1. 选择适合的检索词 a. 切分检索提问。 b. 检索提问具体化。 c. 使用搜索引擎要注意不能写错别字,还应该尽量使用比 较常用的词语。 d. 避免使用禁用词作为检索词。
域名:Domain Name,简称DN。一般由代表通讯协议、 主机名、机构性质域名四段字母组成,类似于服务器在 信息告诉公路上的门牌号码,例如www.shzu.edu.cn。
主机(host):又名服务器名称,通常是使用机构的 简称。
2. IP地址和域名的关系及常见域名
关系:域名只有作为服务器的计算机必须,域名和IP地 址间有对应互换的关系,域名更方便记忆。
狭义概念:网络信息资源通常只指公网上 的信息资源,即访问不受任何限制的信息 资源,它不包含使用权受IP、用户名及其密 码限制的资源。商业性数据库因可以通过 网络加以使用,将它们归入网络信息资源 是可以的,但由于这些数据库的使用或者 受IP限制,或者要求用户名和密码,是不能 归入公网信息资源范畴的。
2. 人文社会科学学术网站的类型 网络学术信息资源的主要来源:学术网站
学术网站的分类:
1. 按内容特征 综合性社会科学学术网站 专科性社会科学学术网站
2. 按主办机构 个人网站 杂志社网站 科研机构网站
3.按网站功能 学科门户网站 学科资源网站 学科性论坛博客网站
4.学术网站的判断方法
a. 网站和网页的区别,主要依据显示网页 的结构和内容。
Britain .uk — United Kingdom
3. 网址
定义:又称统一资源定位器(Uniform Resource Locator,简称URL),代表了网上一切资源,包括 上网计算机及其各种文件的地址。网址是由域名加 文件地址构成的。
作用:指明信息资源所在的目录和文件名,还指明 信息文件存在于网络的那个计算机上,以及可以访 问的方式等。
3. 专家分析法 它是指利用网站组织的专家或者资源人员对网站做出的 人工评价结果来评价网站。
二、主观评价方法
1.内容评价法 从内容角度对网站提供的信息进行的判断,主要考 虑的标准有可靠性、权威性、唯一性、完整性和全 面性。
2.网址评价法 主要有网址回溯法和网址成分分析法。
3.形势评价法 主要从网站的界面和结构方面,包括对网站可访问 性、帮助信息的质量和使用技术的恰当性三方面。
其 他 全 文 数 据 库
期 会其 刊 议他 文 文文 摘 摘摘 数 数数 据 据据 库 库库
学个 术人 机学 构术 网网 站站
虚其
其 他 学 术 网 站
i 搜 拟他 P 索 图网 A 引 书络 C 擎 馆二 数 数 网次 据 据 络资 库 库 导源
航
四. 人文社会科学学术网站
1. 网页、网站和主页的概念 网页:学名HTML文件,是一种可以在互联网上传输, 并被浏览器认识、翻译成页面显示出来的文件。 网站:有独立域名,由若干相关网页组成的一个站 点。(一般每个网站都有一个主页Homepage) 主页:用户通过超链接访问其他网页或服务器的起 始点,用于引导访问者浏览网站。
定义:与学术研究有关的网络资源。 A. 按内容区分:1. 网上传播的学术机构信息
2. 学术任务信息 3. 科研信息 4. 科研成果信息 B. 按出版类型区分:网上学术信息资源有着和纸 质型出版物类似的对应信息,但这种对应关系 并非一一对应的。
C. 按照是否具有原创性区分: 1. 一次资源(原创性) 2. 二次资源(转载或提取)
一、客观评价方法(根据人工干预程度,进行优选有3种方法)
1. 网站排名法 网站排名法是以客观方法评价一个常用方法。某些排名 网站通过定期自动统计网站的访问量,分析网站的状态 和地位。
Alexa是当前拥有排名网址数量较大、信息发布较详细的 一个排名网站。
2. 链接分析法 它是利用某些搜索引擎提供的Link命令,检查评价对象网 站的被他人连接的情况也是评价网站的一个常用的客观 方法。
第五章 网络信息利用原理
5.1 网络信息资源 5.2 网络信息检索工具 5.3 学术网站的评价方法
5.1 网络信息资源
一、什么是网络信息资源? 广义:网络信息资源是在网上以各种方式存
在并传播的信息集合。
具体表现:网上计算机中的无数信息、网上的各种 信息工具以及网络通信渠道。
网上信息:计算机中的数据库、电子出版物、网页、 软件以及各种文件所包含的信息。 信息工具:FTP,Telnet,e-mail,WWW浏览器, 搜索引擎等。 网络通讯渠道:网络提供的信息交流渠道。
b.目录引擎又称目录指南性搜索引擎。这种引擎的信 息收集和处理有人工干预过程,信息处理的层席位网 站,检索所得结果的网页中不一定含有检索词。 目录引擎的用户界面基本上都为分级结构。
► 它与主题引擎的主要区别是由于目录引擎旨在数据库
保存的编辑人员对站点的描述中进行搜索,因此站点 本身的动态变化不会反映到搜索结果中来。 c.多元引擎又称圆搜索引擎。它本身没有存放网页信 息的数据库,当用户查询一个关键词是,它把请求转 换成其他数个搜索引擎能够接受的命令格式,并行地 活着有选择性的访问这些搜索引擎并查询这个关键词, 处理这些搜索引擎返回的结果,然后再返回给用户。 多元引擎的服务方式为面向网页的检索。但是严格来 说,它只算是一个用户代理。
常见域名及其含义: .ac — academic .co — commercial .com — commercial .edu — educational .gov — governmental .net —
Internet service provide 国家、地区域名: .ca — Canada .cn — China .de — Germany .int — International .gb — Great
(1)按工作方式区分,分为主题引擎、目录引擎 和多元引擎。可分为主题引擎、目录引擎和多元 引擎。
a. 主题引擎一般由搜索软件(spider、robot、 crawler),索引软件(它的任务是建立索引)和 检索软件三部分组成。它的优点是信息量大、更 新及时、无需人工干预
缺点是返回信息中常有很多无关信息,身子有一定比例的死链 接,用户必须从结果中进行筛选。
(本章将要介绍的内容仅限于狭义的网络信 息资源,不包括使用权有限制的网上信息 资源。)
二、网络信息资源的特点
1. 数量庞大,增长迅速(网页增长) 2. 整体无序,局部有序(无序性特征) 3. 更新频繁,变化无常(网页寿命) 4. 多维显示,交互方便(载体类型/通讯方式) 5. 良莠混杂,参差不一
三、网络学术信息资源类型
b. 学术和非学术网站的区别主要依据网站 本身的主旨介绍。
5.2 网络信息检索工具和检索方法
一、相关概念 1. IP地址和域名
IP地址:因特网协议(Internet Protocol)地址, 类似于计算机在信息高速公路上的门牌号码。由四段数 字组成,中间用圆点隔开,例如202.201.160.175
三、几个重要的引擎的使用方法
1. 百度 ► 输入的检索词可以使研究的主题、网站、新
闻等任何内容,形式可以使中文英文,数字 或者中英数字的混合体;并且它不区分字母 大小写;它没有模糊检索和截词检索功能。
► 它可以使用两个以上检索词的检索逻辑。
► 字段检索。
► 标题检索。
► 在url中搜索。
► 特色功能:百度快照,相关检索,专门内容 检索。
2.谷歌(Google) • 它是优点是网址数量大,检索语种多,响应速度快,
它页提供“网页快照”功能,但是这只限国外站点, 点击Cached链接即可。 • 谷歌检索文本框中可以任意输入中英文检索词,故 宫不支持借此福,但有默认的截词功能。 • 检索与反方面,检索多个检索词时。
3.Dogpile ▪ 它是个多元引擎,而且是目前性能比较好的一个
4.稳定性评价法 它包括系统稳定性,网站稳定性和信息稳定性。
♪
♪
♪♫
♫♪
♫
♫
♪
♫
Thank you for your attention!
♪
♫
♪
♫
2.小时网页和网站信息的获取方法 有时由于网站整理、文件被重新命名引起的,有时是由于更 换服务器引起的“404-Not Found”的错误信息。此时,我 们可以用网址回溯法,还可以用字段检索法,或者服务器缓 存法。
3.检索策略的调整,即增减检索同义词、近义词等,或者使用 逻辑与或者字段限制等策略。
五、虚拟图书馆和网络资源导航
4. 网上常见文件格式和后缀名
bmp. Windows位图 jpg. Jpg静态图形
swf. 动画 asf. 流媒体 rm. Real Video
二、搜索引擎的基本概念
1. 搜索引擎的定义:Search Engines是网上信息搜 索工具的通称。可以是一个独立的每户网站,也 可以是附在其他类型网站或主页上的一个搜索工 具。
(2). 按照工作语种区分,可分为中文搜索引擎和 外文搜索引擎。
(3). 按照搜索内容区分,可分为门户索索引擎和 垂直搜索引擎。提供综合性信息服务的搜索引擎 称之为门户搜索引擎(如搜狐),而垂直引擎目 前最普遍的是博客引擎。
►它们的主要区别是:
a. 门户引擎内容信息范围要比处置引擎的来得广; b. 门户网站信息内容的实效性相对新一些; c. 垂直引擎在信息的深度上往往比门户引擎优越一些。
D. 按照是否经过审核: 1. 正式出版物(ISBN/ISSN,学术价值相
对较高) 2. 非正式出版物(学术价值变化较大)
E. 按照是否属于搜索引擎范围:(400:1) 1. 不可见资源 2.可见资源
网络学术信息资源
网上商用数据库
网上公开资源
一次资源
二次资源
一次资源
二次资源
全全 文文 期wk.baidu.com 刊书 数数 据据 库库
1. 虚拟图书馆的出现时为了减少信息选择的难 度。 较早提出该概念的人是美国人卡耶(Gapen D Kaye)。
2. 何时使用虚拟图书馆: a.当时间短促,不允许浏览有搜索引擎查得 的巨量的信息时; b.当希望看到比较可靠的网络信息; c.当希望对某个领域有个整体的、较全面的 了解时;
5.3 学术网站的评价方法
并行式元搜索引擎。它可同时调用25个网页引擎、 新闻组引擎和ftp引擎等。 ▪ 它的输入框下方可选查Web, Usenet, ftp等。 ▪ 特色: a. 采用独特的并行和串行相结合的查询方式。 b. 可使用布尔算符合模糊查询。
四、用搜索引擎学院注意的问题和搜索引擎 检索策略实例
1. 选择适合的检索词 a. 切分检索提问。 b. 检索提问具体化。 c. 使用搜索引擎要注意不能写错别字,还应该尽量使用比 较常用的词语。 d. 避免使用禁用词作为检索词。
域名:Domain Name,简称DN。一般由代表通讯协议、 主机名、机构性质域名四段字母组成,类似于服务器在 信息告诉公路上的门牌号码,例如www.shzu.edu.cn。
主机(host):又名服务器名称,通常是使用机构的 简称。
2. IP地址和域名的关系及常见域名
关系:域名只有作为服务器的计算机必须,域名和IP地 址间有对应互换的关系,域名更方便记忆。
狭义概念:网络信息资源通常只指公网上 的信息资源,即访问不受任何限制的信息 资源,它不包含使用权受IP、用户名及其密 码限制的资源。商业性数据库因可以通过 网络加以使用,将它们归入网络信息资源 是可以的,但由于这些数据库的使用或者 受IP限制,或者要求用户名和密码,是不能 归入公网信息资源范畴的。
2. 人文社会科学学术网站的类型 网络学术信息资源的主要来源:学术网站
学术网站的分类:
1. 按内容特征 综合性社会科学学术网站 专科性社会科学学术网站
2. 按主办机构 个人网站 杂志社网站 科研机构网站
3.按网站功能 学科门户网站 学科资源网站 学科性论坛博客网站
4.学术网站的判断方法
a. 网站和网页的区别,主要依据显示网页 的结构和内容。
Britain .uk — United Kingdom
3. 网址
定义:又称统一资源定位器(Uniform Resource Locator,简称URL),代表了网上一切资源,包括 上网计算机及其各种文件的地址。网址是由域名加 文件地址构成的。
作用:指明信息资源所在的目录和文件名,还指明 信息文件存在于网络的那个计算机上,以及可以访 问的方式等。
3. 专家分析法 它是指利用网站组织的专家或者资源人员对网站做出的 人工评价结果来评价网站。
二、主观评价方法
1.内容评价法 从内容角度对网站提供的信息进行的判断,主要考 虑的标准有可靠性、权威性、唯一性、完整性和全 面性。
2.网址评价法 主要有网址回溯法和网址成分分析法。
3.形势评价法 主要从网站的界面和结构方面,包括对网站可访问 性、帮助信息的质量和使用技术的恰当性三方面。
其 他 全 文 数 据 库
期 会其 刊 议他 文 文文 摘 摘摘 数 数数 据 据据 库 库库
学个 术人 机学 构术 网网 站站
虚其
其 他 学 术 网 站
i 搜 拟他 P 索 图网 A 引 书络 C 擎 馆二 数 数 网次 据 据 络资 库 库 导源
航
四. 人文社会科学学术网站
1. 网页、网站和主页的概念 网页:学名HTML文件,是一种可以在互联网上传输, 并被浏览器认识、翻译成页面显示出来的文件。 网站:有独立域名,由若干相关网页组成的一个站 点。(一般每个网站都有一个主页Homepage) 主页:用户通过超链接访问其他网页或服务器的起 始点,用于引导访问者浏览网站。
定义:与学术研究有关的网络资源。 A. 按内容区分:1. 网上传播的学术机构信息
2. 学术任务信息 3. 科研信息 4. 科研成果信息 B. 按出版类型区分:网上学术信息资源有着和纸 质型出版物类似的对应信息,但这种对应关系 并非一一对应的。
C. 按照是否具有原创性区分: 1. 一次资源(原创性) 2. 二次资源(转载或提取)
一、客观评价方法(根据人工干预程度,进行优选有3种方法)
1. 网站排名法 网站排名法是以客观方法评价一个常用方法。某些排名 网站通过定期自动统计网站的访问量,分析网站的状态 和地位。
Alexa是当前拥有排名网址数量较大、信息发布较详细的 一个排名网站。
2. 链接分析法 它是利用某些搜索引擎提供的Link命令,检查评价对象网 站的被他人连接的情况也是评价网站的一个常用的客观 方法。
第五章 网络信息利用原理
5.1 网络信息资源 5.2 网络信息检索工具 5.3 学术网站的评价方法
5.1 网络信息资源
一、什么是网络信息资源? 广义:网络信息资源是在网上以各种方式存
在并传播的信息集合。
具体表现:网上计算机中的无数信息、网上的各种 信息工具以及网络通信渠道。
网上信息:计算机中的数据库、电子出版物、网页、 软件以及各种文件所包含的信息。 信息工具:FTP,Telnet,e-mail,WWW浏览器, 搜索引擎等。 网络通讯渠道:网络提供的信息交流渠道。
b.目录引擎又称目录指南性搜索引擎。这种引擎的信 息收集和处理有人工干预过程,信息处理的层席位网 站,检索所得结果的网页中不一定含有检索词。 目录引擎的用户界面基本上都为分级结构。
► 它与主题引擎的主要区别是由于目录引擎旨在数据库
保存的编辑人员对站点的描述中进行搜索,因此站点 本身的动态变化不会反映到搜索结果中来。 c.多元引擎又称圆搜索引擎。它本身没有存放网页信 息的数据库,当用户查询一个关键词是,它把请求转 换成其他数个搜索引擎能够接受的命令格式,并行地 活着有选择性的访问这些搜索引擎并查询这个关键词, 处理这些搜索引擎返回的结果,然后再返回给用户。 多元引擎的服务方式为面向网页的检索。但是严格来 说,它只算是一个用户代理。
常见域名及其含义: .ac — academic .co — commercial .com — commercial .edu — educational .gov — governmental .net —
Internet service provide 国家、地区域名: .ca — Canada .cn — China .de — Germany .int — International .gb — Great