第5章 网络信息资源收集技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.1 网络信息收集与分析
• 2.网络信息资源定义 • 网络信息资源(Network Information Resources)是指以数字化的形式存储于网络节 点中、借助于网络进行传播和利用的信息产品和 信息系统的集合体。网络信息资源是信息资源的 一个下位概念,是与传统文献信息资源相并列的 。
5.1 网络信息收集与分析
5.2
搜索引擎技术
• 2.搜索引擎的分类 • (1)全文搜索引擎 • 全文搜索引擎是名副其实的搜索引擎,国外具代 表性的有Google、Fast/AllTheWeb、AltaVista、 Inktomi、Teoma、WiseNut等,国内著名的有百度 。它们都是从网站提取信息建立网页数据库的。 • 从搜索结果来源的角度,全文搜索引擎又可细分 为两种:一种是拥有自己的检索程序(Indexer) ,俗称“蜘蛛”(Spider)程序或“机器人”( Robot)程序,并自建网页数据库,搜索结果直接 从自身的数据库中调用,如Google、Baidu引擎; 另一种则是租用其他引擎的数据库,并按自定的 格式排列搜索结果,如Lycos引擎。
5.2
• • • • • • • •
搜索引擎技术
(2)百度搜索引擎技术 ① 基于字词结合的信息处理方式。 ② 支持主流的中文编码标准。 ③ 智能相关度算法。 ④ 检索结果能标示丰富的网页属性。 ⑤ 百度搜索支持二次检索。 ⑥ 相关检索词智能推荐技术。 ⑦ 运用多线程技术
5.2
搜索引擎技术
• ⑧ 可以提供一周、两周、四周等多种服务方式。 • ⑨ 检索结果输出支持内容类聚、网站类聚、内容 类聚+网站类聚等多种方式。支持用户选择时间范 围,提高用户检索效率。 •
5.1 网络信息收集与分析
3.定向浏览 定向浏览是网上浏览的深层次发展形式,它 不仅具有明确的目的性,而且具有捕捉信息 的敏感性,通常有以下6个目的。 ① 寻找商气旺的目标发布网站; ② 获取网上商品的上网情况和定价信息; ③ 寻找手中货品的现实商机; ④ 分析产品的网上流向; ⑤ 判断该网站的商业价值; ⑥ 为待进行的商务谈判做准备。
5.2
搜索引擎技术
• 5.2.1 搜索引擎分类 • 1.搜索引擎的定义 • 搜索引擎是为网络用户提供信息查询服务的计算 机系统,也可以说是一类提供信息“检索”服务 的网站,它根据一定的策略、运用特定的方法搜 集互联网上的信息,并对信息进行组织和处理, 将处理后的信息通过计算机网络显示给用户。它 包括信息搜集、信息整理和用户查询三部分。
5.1 网络信息收集与分析
• 5.1.1 什么是网络信息 • 1.网络信息 • 传统的商务信息起源很早,货币的出现取代了易货 贸易,交易活动变得更容易了。然而,贸易的基本 原理并没有变化,社会的某一成员创造有价值的物 品,这种物品是其他成员所需要的。所以,商务或 商务活动就是至少有两方参与的有价物品或服务协 商交换的过程,它包括买、卖各方为完成交易所进 行的各种活动。在信息社会,这一过程逐渐缩短。
5.1 网络信息收集与分析
• 4.订制信息 • 订制信息是一种主动获取所需信息的方法。许 多商业网站提高了这种订制信息的服务,只要 登录这些网站,在该网站的订制信息的登记栏 内留下电子邮件地址,就完成了订制信息的操 作。例如,利用邮件列表订制信息是网站的一 种个性化服务。
5.1 网络信息收集与分析
• 3.网络信息特点 • 网络信息资源是一种数字化资源,与非网络信息 资源相比有其独特的特点,了解网络信息资源的 特点有助于人们对其进行搜索、开发和利用。 • (1)数量庞大、增长迅速 • (2)内容丰富、覆盖面广 • (3)信息质量参差不齐,有序与无序并存 • (4)信息共享程度高、使用成本低 • (5)信息形式多样性
5.3
搜索引擎营销
• (2)PPC • PPC是英文Pay Per Click的缩写形式,其中文意思 就是点击付费广告。一般是大公司最常用的网络广 告形式。提供点击付费的网站非常多,主要有各大 门户网站(如搜狐、新浪)和搜索引擎(如Google 和百度),以及其他浏览量较大的网站。 • (3)竞价排名 • 竞价排名,是一种按效果付费的网络推广方式。用 少量的投入就可以给企业带来大量潜在客户,有效 提升企业销售额和品牌知名度。竞价排名按照给企 业带来的潜在客户访问数量计费,企业可以灵活控 制网络推广投入,获得最大回报。
5.2
• • • •
搜索引擎技术
5.2.3 几种常用搜索引擎介绍 1.百度搜索引擎 (1)百度公司背景简介 百度(Nasdaq:BIDU)是全球最大的中文搜索引 擎,2000年1月由李彦宏、徐勇两人创立于北京 中关村,致力于向人们提供“简单、可依赖”的 信息获取方式。“百度”二字源于中国宋朝词人 辛弃疾的《青玉案·元夕》词句“众里寻他千百 度”,象征着百度对中文信息检索技术的执着追 求。
5.2
搜索引擎技术
• (3)元搜索引擎 • 元搜索引擎又称集搜索引擎,是指在统一的用户 查询界面与信息反馈的形式下,共享多个搜索引 擎的资源库为用户提供信息服务的系统。著名的 元搜索引擎有InfoSpace、Dogpile、Vivisimo等 ,中文元搜索引擎中具代表性的有搜星搜索引擎 。
5.2
5.3
搜索引擎营销
5.3
搜索引擎营销
• (1)SEO • SEO(Search Engine Optimization),译为搜索 引擎优化。主要目的是增加特定关键字的曝光率以 增加网站的能见度,进而增加销售的机会。分为站 外SEO和站内SEO两种。通过了解各类搜索引擎如何 抓取互联网页面、如何进行索引,以及如何确定其 对某一特定关键词的搜索结果排名等技术,来对网 页进行相关的优化,使其提高搜索引擎排名,从而 提高网站访问量,最终提升网站的销售能力或宣传 能力。
5.2
搜索引擎技术
• (2)目录式搜索引擎 • 目录索引完全依赖于手工操作。用户提交网站后 ,目录编辑人员会亲自浏览你的网站,然后根据 一套自定的评判标准甚至编辑人员的主观印象, 决定是否接纳你的网站。 • 搜索引擎收录网站时,只要网站本身没有违反有 关的规则,一般都能登录成功。而目录索引对网 站的要求则高得多,有时即使登录多次也不一定 成功。尤其像Yahoo!这样的超级索引,登录更是 困难。(由于登录Yahoo!的难度最大,而它又是 商家网络营销必争之地,所以我们会在后面用专
5.2
搜索引擎技术
• (3)在索引数据库中搜索排序(排序) • 当用户输入关键词搜索后,由搜索系统程序从网页 索引数据库中找到符合该关键词的所有相关网页。 因为所有相关网页针对该关键词的相关度早已算好 ,所以只需按照现成的相关度数值排序,相关度越 高,排名越靠前。 • (4)组织返回搜索结果(结果返回) • 由页面生成系统将搜索结果的链接地址和页面内容 摘要等内容组织起来返回给用户。
5.2
搜索引擎技术
• 2.搜狗搜索 • (1)搜狗公司背景简介 • 搜狗是搜狐公司的旗下子公司,于2004年8月3 日成立,目的是为增强搜狐网的搜索功能,主 经搜狐公司的搜索业务。在搜索业务的同时, 搜狗还推出了搜狗输入法、搜狗高速浏览器。
5.2
搜索引擎技术
• (2)搜狗公司战略目标 • 搜狗在产品上追求技术创新,紧跟时代步伐, 强调战略布局。经过长期摸索和反复尝试,目 前形成了以搜索引擎、输入法和浏览器为主, 以通话管理、地图、智能硬件等产品为辅的产 品布局。搜狗搜索战略调整为以年轻群体为主 要目标人群。
5.1 网络信息收集与分析
• 8.利用各高校图书馆的网络资源 • 高校图书馆是网络信息资源的主要发布阵地,尤 其是针对学术信息资源。图书馆根据读者需求, 编制网络资源导航系统,建立学科导航库,建立 中外文网络数据库链接,筛选网上信息,剔除重 复和无用的网络资源,引导读者最大限度地利用 有效的信息资源,将读者从繁杂、无序的信息海 洋中解脱出来,有效地遏制信息泛滥给读者造成 的影响。
5.1 网络信息收集与分析
• 5.1.3 网络信息整理与分析 • 1.网络信息资源分类 • 资源的分类是按照一定的标准将与研究课题有关 的信息资源分成不同的组或类,将相同或相近的 资源合为一类,将相异的资源区别开来,然后再 按分类标准将总体资源加以划分,构成系列。人 们习惯将收集的信息资源按照信息资源的性质、 内容或特征进行分类。
5.1 网络信息收集与分析
• 6.利用权威机构的网站 • 如果用户熟悉网络资源的特点和分布状况,了解常用信 息资源的发布方式,可以通过国内外重要的科研机构、 信息发布机构、学会的网址,及时而准确地获得这些权 威机构发布的信息。 • 7.利用网络专业信息资源导航库 • 专业信息导航库比搜索引擎更具专指性。例如,中国高 等教育文献保障系统(CALIS)本着共知、共建、共享的 原则,以全国高等院校为依托,建立起CALIS工程中心重 点学科导航库和CALIS文理中心重点学科导航库,积累了 国内外政府部门、高等院校、科研机构、学术团体的各 专业网站地址,覆盖的学科全面,学术价值高,信息可 靠性强,通过有效链接可以直接进入各学科专业网,既 可节省查询时间,又可提高查询的准确性。
5.3
搜索引擎Hale Waihona Puke Baidu销
• 5.3.1 搜索引擎营销概述 • 1.搜索引擎营销思想 • 搜索引擎营销的基本思想是让用户发现信息,并 通过单击链接进入网站/网页进一步了解所需要 的信息。在介绍搜索引擎策略时,一般认为,搜 索引擎优化设计的主要目标有两个层次:被搜索 引擎收录和在搜索结果中排名靠前,多数网络营 销人员和专业服务商对搜索引擎的目标设定也基 本如此。 • 2.搜索引擎营销服务模式 • 搜索引擎营销服务模式如图5-5所示。
第五章网络信息资源收集技术
知识要点 网络信息资源的特点 互联网信息资源的主要类型 搜索引擎的主要种类 搜索引擎的工作原理 常用的搜索引擎 能力要点 具有灵活利用不同类型的搜索引擎搜集网络信息的能力 具有合理利用搜索引擎查找特定站点的能力 具有利用搜索引擎、期刊门户网站搜索学术文档的能力
5.1 网络信息收集与分析
• 2.网络信息资源汇编 • 汇编就是按照研究的目的和要求,对分类后的资 源进行汇总和编辑,使之成为能反映研究对象客 观情况的系统、完整、集中、简明的材料。 • 3.网络信息资源分析方法 • 用于信息分析的方法有逻辑学法、数学法和超逻 辑想象法三大类,其中,逻辑学法是最常用的方 法。逻辑学法具有定性分析、推论严密、直接性 强的特点。
搜索引擎技术
• 5.2.2 搜索引擎工作原理 • (1)从互联网上收集网页信息(抓取) • 搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人 ”的软件,根据一定规则扫描存在于互联网上的网站,并 沿着网页上的链接从一个网页到另一个网页,从一个网站 到另一个网站。为保证采集的资料最新,它还会回访已抓 取过的网页。 • (2)建立网页索引数据库(索引) • 由分析索引系统程序对收集回来的网页进行分析,提取相 关网页信息(包括网页所在URL、编码类型、页面内容包含 的所有关键词、关键词位置、生成时间、大小、与其他网 页的链接关系等),根据一定的相关度算法进行大量复杂 计算,得到每一个网页针对页面文字中及超链接中每一个 关键词的相关度(或重要性),然后用这些相关信息建立
5.1 网络信息收集与分析
• 5.1.2 网络信息获取方法 • 1.网上浏览 • 网上浏览是获取信息最简单的方法。通过网上浏 览可以熟悉网站的特点、内容和风格,对于了解 各网站的栏目设置情况、商品情况是有益的。但 是从网络经济学的角度来讲,这种漫无边际的浏 览造成时间和经济的浪费。 • 2.收藏和保存页面信息 • 对于在浏览过程中发现和获得的重要信息,可以 把它收集并保存起来。收集和保存页面信息的方 法很多。
• 5.利用网上搜索引擎 • 通过搜索引擎对网络信息资源进行查找是获取网 络信息资源的主要方式。搜索引擎是用来对网络 信息资源管理和检索的一系列软件,实际上也是 一些网页。查找信息资源时,在其中的搜索框中 输入查找的关键词、短语,或者是其他相关的信 息,再通过超链接,逐一访问相关网站,就可以 查找到所需要的信息资源