垂直搜索技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-4-25
索引介绍
索引是搜索引擎的核心功能之一,它的结构决定了
搜索引擎检索的速度,目前,无论是通用搜索还是 垂直搜索,大多数使用的是倒排索引。
倒排索引,也称作反向索引,它是一种数据结构,
存储字或词语在单个文档或多个文档集合中出现的 频率和位置的映射。
2014-4-25
倒排索引结构
2014-4-25
和顾客直接沟通、咨询,不再需要转到第三方平台再
进行交易。搜索交易平台有可能发展成ebay,taobao
2014-4-25
那样的购物平台。
2014-4-25
2014-4-25
页面分析处理流程
2014-4-25
页面与关键字关系
2014-4-25
搜索引擎对页面排序
页面排序:
搜索引擎结合页面的内外部因素计算出页面与某
个关键字的相关程度,从而得到与该关键字相关的页
面排序列表。
影响页面排序因素:页面相关性、链接权重、用
户行为等。
2014-4-25
影响页面排序因素
专业蜘蛛。
2014-4-25
主题网络爬虫定义
主题网络爬虫就是根据一定的网页分析
算法过滤与主题无关的链接,保留主题相关
的链接并将其放入待抓取的URL队列中,然后
根据一定的搜索策略从队列中选择下一步要
抓取的网页URL,并重复上述过程,直到达到
系统的某一条件时停止。
2014-4-25
主题爬虫系统结构
2014-4-25
2014-4-25
由于页面分析模块得 到的超链接可能存在 重复或是无效的情况, 因此,该模块就是对 这些链接进行过滤; 存放经分析后的 网页页面的地方。
通用爬虫缺点
通用爬虫并不适合面向领域的垂直搜索
系统,这是因为通用爬虫的目标在于尽可
能多地全网抓取网页,抓取的过程不太关
注网页的主题。而垂直搜索系统需要的并 非是所有的网页,因而垂直搜索系统的爬 虫一般采用的是主题爬虫。主题爬虫也叫
垂直搜索简介
2014-4-25
主讲内容
搜索引擎介绍
垂直搜索引擎特点
垂直搜索引擎核心技术
垂直搜所引擎发展方向
2014-4-25
中国网民对各类网络应用的使用率
截至2013年12月,中国网民规模达6.18亿。
中国网民对各类网络应用的使用是什么样的呢?
2014-4-25
搜索引擎简介
搜索引擎是互联网基础服务之一。 帮助我们在浩如烟海的信息海洋中搜寻到 自己所需要的信息。
2014-4-25
垂直搜索引擎的发展方向
目录精细化 向深度挖掘型搜索发展
向交易平台发展
2014-4-25
目录精细化
与早期的网址分类搜索引擎相似,但垂直搜索引 擎只选定了某一特定行业或某一主题进行目录的细化 分类,结合机器抓取行业相关站点的信息提供专业化 的搜索服务。这种专业化的分类目录(或称主题指南、 列表浏览),很容易让用户迅速知道自己要找的是什么 ,并且按目录点击就能找到。
构化的形式表达出来,例如采用 XML 语言来描述,这
就是 Web 信息抽取。
2014-4-25
搜索引擎对页面的分析
页面分析首先是对页面(下载到搜索引擎本地的页面-网 页快照)建立索引,以实现对页面的快速定位;然后,提 取页面的正文信息(过滤掉HTML标签),并对正文信息进 行切词以及为这些词(即关键字)建立索引,从而得到页 面与关键字的之间对应关系(一个页面对应多个关键字) ,最后,对所有关键字进行重组,并建立关键字与网页间 对应关系的反向索引列表(一个关键字对应多个网页URL ),从而实现根据关键字快速定位至相应的网页。(包括 :网页索引表、切词后形成的关键字索引表、页面与关键 字的一对多的关系列表、重组关键字与页面的一对多的关 系列表)。
而来,因此,在分析垂直搜索中的主题爬虫原理技
术之前,先介绍通用爬虫的原理及技术。
2014-4-25
通用爬虫系统结构 根据人工设定的
URL种子,启动 爬虫;
作为爬虫与因特网的通信接口, 主要作用就是分析抓取下来 通过各种 Web协议(通常是 HTTP) 的网页页面,提取页面中的 进行网页的抓取,而下载后的 超链接 URL,继续交给后续 网页交给后续模块; 模块处理;
2014-4-25
网页信息抽取定义
信息抽取是指把信息源里包含的数据进行结构
化处理,变成规范的组织形式。Web信息抽取则将
Web文档作为信息源,从半结构化的 Web 文档中抽
取数据。
2014-4-25
目前互联网中大部分数据信息是以 HTML(超文本标记 语言)展现的,这种方式的优点是方便显示和适合浏览 器浏览,但是 HTML 的不足之处在于数据和表现相混 杂,缺乏对数据进行描述。为使应用程序或者用户能 更为方便地直接利用 Web中的数据,通过将 HTML 网 页中包含的有用的半结构化数据提取出来,然后以结
2014-4-25
广度优先抓取流程
2014-4-25
深度优先抓取流程
2014-4-25
主题爬虫URL的处理流程
URL正在被抓取时放 进抓取队列,目的是 防止URL被同时多次 抓取。
一个url被爬虫 完全抓取之后就 将url放进完成 队列。
在抓取过程中 爬虫解析到的URL先保存 出错的url保存 到等待队列中,在等待 到错误队列。 队列中的URL按照特定的 排序法则进行排序,等 候爬虫的抓取。
呈现给用户。
2014-4-25
向搜索交易平台发展
垂直搜索引擎由于自身对行业的专注,使得它可 以提供行业信息深度和广度的整合以及更加细致周到 的服务。对消费领域可以推出针对某一行业的搜索交 易平台,比如美容搜索、餐饮搜索、购物搜索、机票 旅游搜索。这种交易平台针对需要通过开展电子商务 来获得更多顾客的商家。搜索交易平台让行业内商家
中进行查找,是否存在相同的词条。因而好的分词
工具将决定一个搜索系统的搜索准确度和精度。
2014-4-25
中文分词
中文分词:指的是将一个汉字序列切分成汉语词
组序列。英语单词之间是用空格作为分界符的,而
中文在词上无一个明显的分隔符,只在字、句和段
落间有分隔符来划分,当然英文中也存在短语划分 问题,不过在词的层面上,中文相对于英文来说, 划分更复杂和困难。
小,有利于缩短查
询响应时间,还可 采用复杂的查询语 法,提高用户的查 询精度。
2014-4-25
垂直搜索核心技术
主题爬虫
网页信息抽取
倒排索引 中文分词
2014-4-25
爬虫
爬虫:是一种自动获取网页内容的程序,是搜索引
擎的重要组成部分。
爬虫按照搜索引擎的不同,又分为通用爬虫和主
题爬虫。并且主题爬虫是在通用爬虫的基础上改造
2014-4-25
向深度挖掘型搜索发展
深度挖掘型垂直搜索引擎通过对元数据信息进行 深度NT,为用户提供网页搜索引擎无法做到的专业性 、功能性、关联性,有的加入了用户信息管理以及信
息发布互动功能,能很好地满足用户对专业性、准确
性、功能性、个性化的需求。专业的元数据属性构造 背后需要一个强大专业人士组成的团队。这些专业人 士对该领域的元数据模型进行专业的分析、关联整合 ,再通过搜索技术按这些元数据模型把这些信息组织
倒排索引
倒排索引的主要流程为:
建立正向索引,分析网页后,得到以网页编号为 主键的正向索引表;
创建反向索引,数据规模增大后可以采用分组索 引;
再归并索引的策略。
2014-4-25
分词的意义
中文分词作为搜索引擎的后台核心功能之一,
决定了搜索信息的索引和检索的精度。在搜索引擎 建立索引时,写入的索引是一个个的词条。检索也 同样如此,用户在输入检索短语或语句后,首先进 行分词处理,形成一个个的词条,然后再在索引库
主题爬虫搜索策略
第一代网络爬虫所用的搜索策略主要是基于传统的图
算法,如宽度优先或深度优先算法来索引整个Web。
一个核心的URL集被用来作为一个种子集合,这种算法 递归的跟踪超链接到其它页面,而通常不管页面的内 容,因为最终的目标是这种跟踪能覆盖整个Web。宽度 和深度优先搜索策略通常用在通用搜索引擎中,因为 通用搜索引擎获得的网页越多越好,无特定的要求。 主题爬虫的爬行策略只挑出某一个特定主题的页面。 它依据“最好优先原则”进行访问,能够快速、有效 地获得更多的与主题相关的页面。
2014-4-25
通用搜索引擎
优点:信息量大、更新及时、无需人工干预。
缺点:查询结果相关度较低,返回信息 过多,死链接较多,信息无序化。
2014-4-25
垂直搜索引擎
定义
垂直搜索引擎(vertical search engine)也 被称为专业搜索引擎,或主题搜索引擎,它 专门收录某一方面、某一行业或某一主题内 的信息,专为查询某一个学科或某一主题的 信息提供检索服务。
Baidu Nhomakorabea
2014-4-25
中文分词方法
基于字符串匹配的分词方法
基于统计模型的分词方法
基于理解的分词方法
2014-4-25
比较成功的中分分词系统
ICTCLAS-即中科院计算所汉语词法分析系统,是 最早的中文开源分词项目之一。 Paoding 分词器-是一个开源中文分词组件,使用 Java 语言编写,并且提供对 Lucene 和 solr 的 接口,它采用面向对象设计,具有高效率和扩展 性。 JE 分词器-基于 Java 语言的开源工具,其接口 简单,功能强大,能较好地完成中文分词,而且 具有歧义分析功能,添加和删除词典等功能。
页面相关性:是指页面内容与用户所查询的关键 字在意义上的接近程度。主要由关键字匹配度、 关键字密度、关键字分布、关键字权重标签等决 定。
链接权重:链接主要分为内部链接、外部链接两
种。某一页面得到的链接(包括内、外部链接)
越多,那么该页面的链接权重值就越高。
用户行为:搜索引擎会根据用户对搜索结果的点 击次数来对排序结果进行定期改进。
2014-4-25
垂直搜索引擎
优点
是搜索引擎领域的行业化分工;
专、精、深,具有行业色彩;
简单 、直观 、智能。
2014-4-25
房产类: 搜房网 视频类: 优酷网
常见的垂直 搜索引擎
旅游类: 去哪儿网
招聘类: 智联招聘
2014-4-25
IT信息类: 搜我们
垂直搜索引擎特点
只涉及某一个或 几个领域,词汇 和用语的一词多 义的可能性降低 ,可利用专业词 表进行规范和控 制,从而大大提 高查全率和准确 率。 索引数据库的规模 信息采集量小 ,网络传输量 小,有利于网 络带宽的有效 利用。