施磊磊 江苏大学硕士论文开题报告--基于Hadoop和HBase的Nutch分布式垂直搜索引擎的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Nutch垂直搜索引擎
国内外研究现状
按照信息搜集方法和服务提供方式的不同,搜 索引擎分类:
目录式搜索引擎 全文搜索引擎 元搜索引擎
按照体系结构的不同,搜索引擎的分类:
集中式搜索引擎 分布式搜索引擎
国内外研究现状
张伟的垂直搜索引擎设计与实现一文中对爬虫工具Heritrix 进 行了很深入的研究,就其提供的扩展接口给出了具体的实现 模式,同时对该模式下如何减少无效网页的冗余进行了研究, 实现网页内容抓取的可控性。 刘朋的基于Lucene的垂直搜索引擎关键技术的研究应用一文 中根掘PageRank算法的思想,结合基于文本内容的启发式策 略和基于Web超链分析的策略二者之间的优点,提出了一种 新的主题爬行策略。
垂直搜索引擎中信息重复度比通用搜索引擎更低。 垂直搜索引擎索结果的准确性比通用搜索引擎更高。 垂直搜索引擎相对于通用搜索引擎覆盖率更高。 垂直搜索引擎相对于通用搜索引擎信息的时效性更高。
垂直搜索引擎架构
Nutch垂直搜索引擎
Nutch是一个免费的开源搜索引擎,它使用了Java语言进行开发, 具有跨平台应用的优点。 Nutch作为网络爬虫和lucene的结合,功能上来说极其强悍。 基于Hadoop的MapReduce分布式编程模型和HDFS分布式文件系 统。
研究目标及内容
研究目标
面向中药领域的网络爬虫算法的定制与优化 Nutch网页排序算法的改进
1.
2.
3.
Hadoop分布式集群环境的搭建与配置
分布式数据库HBase和分布式文件系统HDFS的结合
4.
研究目标及内容
研究内容
a. b. c.
面向中药领域的网络爬虫算法的定制与优化 面临的问题:
国内外研究现状
赵立磊的基于网页去重的垂直搜索引擎的设计与实现一文中 将基于内容的主题爬虫算法和基于内容的网页去重算法相结 合,提出了一种适用于垂直搜索引擎的网页去重策略。
刘丽杰的垂直搜索引擎中聚焦爬虫的研究一文中提出基于主 题相关度和页面重要性相结合的立即价值来判别页面主题相 关性,并采用自适应免疫算法指导聚焦爬虫的爬行策略。
关键技术及解决案
算法流程:
爬虫模块从Internet取回网页; 调用url分析和中文分词模块对网页进行初步分析; 调用相关度分析模块,将url分析和中文分词得到的关键字 进行比较,按一定的算法计算主题相关度; 爬行模块根据分析的不同结果将相关度大于设定值的网页 中的url放入url数据库,将网页信息放入网页信息数据库; 爬行模块从url数据库再次取出等待处理的URL继续工作, 循环到第一步,直至没有新的URL;
研究目标及内容
研究内容
Hadoop分布式集群环境的搭建与配置 原因: Nutch爬虫的爬取效率、索引速度以及搜索的速度在传统的单 机模式下很难得到提高,现在互联网上的信息量与日俱增, 用户的需求也越来越大。 目标: 大大提高Nutch爬虫的爬取效率、索引速度以及用户的搜索速
度。
研究目标及内容
关键技术及解决方案
基本思想
利用关键词集来确立主题,其中每个关键词拥有指 定的不同权值。 由于主题爬虫是面向选定主题的,所以初始种子的 赋予应该来自本领域,否则爬虫无法展开爬行工作。 为了保证爬虫获取的网页能够尽量向主题靠拢,必 须对网页进行过滤,利用向量空间模型将主题相关 度较低的网页剔除。
不足
在网络爬虫的选择方面,有些论文采用了不能进行分布式运行的 Heritrix爬虫,这样的爬取效率不高。
在网页排序算法方面,有些论文没有改进,有些只是改进了部分 因子,并没有考虑时间和用户反馈等因子的影响,查询准确率低。 在分布式运行方面,很多的研究者都没有采用基于Hadoop集群平 台的分布式系统,整个垂直搜索引擎的爬取、索引、搜索的效率 会大大降低。 在数据库方面,绝大部分研究者都没有采用支持实时查询的 HBase分布式数据库和HDFS分布式文件系统的结合,存储、读取 效率低。
江苏大学2013年硕士研究生开题报告 基于Hadoop和HBase的Nutch分布式垂直 搜索引擎的研究 汇 报 人:施磊磊 指导教师:施化吉 教授
Outline
课题研究背景 国内外研究现状 研究目标及内容 关键技术及解决方案 创新点 进度安排 参考文献
课题研究背景
国内外研究现状
张倩的教育信息垂直搜索引擎的研究一文中对网络蜘蛛的运 行规则进行设计,详细研究了教育信息垂直搜索引擎系统的 框架中涉及的信息抓取、中文抽取和检索功能的实现。
王晓伟的垂直搜索引擎若干关键技术的研究一文中本文提出 了基于主题的自适应的分词技术,还提出了基于父网页的主 题相关度预测算法(CPAP )、基于链入网页的主题相关度预测 算法(CPAH)和TPR主题预测算法。
主题确立 优化初始种子 主题相关度分析
1. 2. 3. 4.
目标:
确立爬虫面向的主题; 网页主题相关度的计算; 生成面向特定主题的较好的种子站点; 生成一个较为全面的评价排序;
研究目标及内容
研究内容
Nutch网页排序算法的改进 面临的问题: Nutch没有实现Google经典的PageRank网页排序算法,严重 影响最终检索结果的排列次序,导致搜索返回的大量结果都 不是用户想要的。 目标: 将与用户真正需要的结果排在搜索结果的前面,从而提高用 户的满意率。
研究内容
分布式数据库HBase和分布式文件系统HDFS的结合使用 原因: 传统的单机或是单个HDFS的存储模型已经很难提供高效率的 存储服务,难以满足用户的需求。 目标: 实现实时的查询与存储,以及高效率的读写访问。
关键技术及解决方案
面向中药领域的网络爬虫算法的定制与优化
主题爬虫的设计是以普通爬虫为基础的,实际 上它是对一个普通爬虫进行功能上的扩充。在 对网页的整个处理过程中需要增加模块:主题确 立模块、优化初始种子模块、主题相关度分析 模块、排序模块。
目前互联网一天产生的信息量有多少? 中国工程院院士邬贺铨表示约有800EB 搜索引擎按照搜索“宽度”划分,可以分为通用搜索引擎和垂直 搜索引擎
通用搜索引擎:通用搜索引擎检索的页面
垂直搜索引擎:垂直搜索引擎检索的页面
课题研究背景
与通用搜索引擎相比,垂直搜索引擎蕴藏了更加准确, 更加“专业” (专注于某一领域)的信息。