搜索引擎之爬虫研究现状简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是聚焦爬虫
聚焦爬虫是一个自动下载网页的程序,它根据 既定的抓取目标,有选择的访问万维网上的网 页与相关的链接,获取所需要的信息。 与通用爬虫(general—purpose web crawler) (general—purpose crawler)不 同,聚焦爬虫并不追求大的覆盖,而将目标定 为抓取与某一特定主题内容相关的网页,为面 向主题的用户查询准备数据资源。
主要策略
基于内容评价的策略 基于链接结构策略 基于未来目报价值评价的策略 基于“综合价值” 评价的策略 基于“动态” 价值评价的策略(基于 “动态”价值评价的搜索策略问题的研 究受到重视。)
例子
“个性化”搜索引擎的研究 专业搜索引擎的研究(垂直搜索)
研究的现状
国内: 1.北京理工大学 汪涛等 2004 2. 南京大学 王超等 2004 国外研究较多
其他基于网格技术的爬虫 基于CORBA CORBA的并行多元搜索引擎 基于CORBA的并行多元搜索引擎 2005
陈宁江, 黄素珍 , 梁正友 , 陈宁江, 苏德富
基于OGSA结构的 冯战申, 基于OGSA结构的 2005 冯战申, 吴亚桢 OGSA IglooG A Distributed Web Crawler Based on Grid Service 上海交通大学叶允明等的国家自然科学基金重 大国际合作研究项目“Igloo分布式爬虫系统的性能 大国际合作研究项目“Igloo分布式爬虫系统的性能 优化” 优化”。 等等 还有好多其他关于分布式爬虫的研究,不再列举了。 还有好多其他关于分布式爬虫的研究,不再列举了。
总结
近几年,国内关于网络搜索引擎的研究从无到 有,直到渐成热点,研究现象的专题聚集特征 较为明显。综合性研究论文的数量远远超过该 研究领域的细分化专门研究领域的论文数。 国外搜索引擎方面研究较热,水平也较国内高。 伴随这lucene等一些开源项目又掀起了对搜索 引擎研究的一个热潮。 在搜索引擎中抓取是消耗较大,又非常重要的 部分。那么爬虫的效率,特性和抓取的质量就 显得有为重要。那么爬虫技术和人工智能及分 布式技术相结合就很自然成为了研究的热点。
Fra Baidu bibliotek
智能爬虫
随着动态网页技术的发展,网络爬虫越来越 困难了。很多动态网页是搜索不到的,例如 bbs系统,聊天室系统等。还有很多页面是需 要注册为用户并登录才可以看到。所以网络 爬虫技术也在逐步发展。 智能网络爬虫具有一定的人工智能,它能够 自动检测这个网页是否需要注册并登录,然 后可以自动登录,看到所有的页面。
分布式爬虫设计研究(热)
基于p2p技术的分布式爬虫 College of Computing, Georgia Institute of Technology, Atlanta Aameek Singh1,
Mudhakar Srivatsa1, Ling Liu1 and Todd Miller1 等
The end
Thank you!!!
智能爬虫
利用网络爬虫技术发展出来的新的网络技术。 这种检测爬虫可以自动登录到聊天室、论坛等 系统,并随时检查各种信息,从中过滤出敏感 信息来。并且可以将敏感信息的来源直接定位 到ip地址(这个结合路由器和嗅探器是可以做 到的),并且爬虫可以跟踪某个敏感话题的发 展,并判断其影响力。 爬虫不但可以跟踪网页形式的信息,还可以结 合qq的协议,泡泡的协议等,直接检测这些信 息。
University of Oregon, Eugene
Daniel Stutzbach1 Reza Rejaie1 2005
Shanghai Jiaotong University 2004
Liu Fei1 , Ma Fan-Yuan1 , Ye Yun-Ming1 , Li Ming-Lu1 and Yu Jia-Di1
上海大学
等等
2005 张博锋 刘 凤 周传飞 邹国兵
基于移动代理的爬虫 华中科技大学 2005 石 柯 周利兵 陶文兵 南京大学 潘春华 冯太明 武港山 University of Chile Blanco Encalada 2002 Ricardo Baeza-Yates A1 and José Miguel Piquer A1 An Extensible Mobile-Agent-Based Framework for Coordinating Distributed Information Retrieval Applications 2002
高性能爬虫
算法的研究 分布式爬虫设计研究
算法的研究
结合人工智能的一些算法或改进算法 基于非贪婪策略的网络蜘蛛搜索算法 2004 基于模拟退火的网络蜘蛛 2003 增量式Web信息采集结构模型 2005 Effective Web data extraction with standard XML technologies 2002 Efficient crawling through URL ordering based on a Hidden Markov Model (HMM) to learn user browsing patterns 还有对一些特殊格式网页的抓取的研究
搜索引擎
爬虫研究现状简介
目前主要的热点研究方向
聚焦爬虫技术 智能爬虫技术 高性能爬虫技术
聚焦爬虫(Focused Crawler)
对于大多用户提出的与主题或领域相关 的查询需求,传统的通用搜索引擎往往 不能提供令人满意的结果网页。为了克 服通用搜索引擎的不足,提出了面向主 题的聚焦爬虫的研究。现在,聚焦爬虫 已成为爬虫的研究热点之一。
智能爬虫
数据挖掘是近年的一个研究热点,其中 的web挖掘的研究很多结合了网络爬虫 的研究。 聚焦爬虫和智能爬虫的界限不是十分明 显。
研究现状
华东师范大学计算机应用研究所,上海 杨德仁等 2006 南京大学计算机科学与技术系软件新技术国家重点 实验室 朱炜等 武汉大学信息管理学院 严亚兰等 2003 兰州理工大学电气工程与信息工程学院 董瑞洪等 2005 University of California, Los Angeles Jeonghee Yi 等 University of Patras, Christos Makris等 2005