【CN109815388A】一种基于遗传算法的智能聚焦爬虫系统【专利】
专利一种什么方法
专利一种什么方法标题:一种基于混合聚类算法的专利方法摘要:本专利涉及一种基于混合聚类算法的方法,用于处理大规模数据集的聚类分析。
该方法结合了K-means聚类和层次聚类算法,能够在高效、准确地实现数据聚类的同时,克服传统聚类算法的局限性。
具体而言,本方法通过指定初始聚类中心和设置合理的参数,将数据集分为若干子集,然后基于各子集的特征进行子集内的聚类操作。
在此基础上,引入层次聚类算法对各个子集进行再次聚类,以提高聚类结果的准确度。
实验证明,本方法在处理大规模数据集时具有较高的效率和准确度,可广泛应用于数据挖掘、图像处理等领域。
1.技术领域本专利涉及数据挖掘领域的一种方法,特别涉及聚类分析。
2.背景技术随着互联网和大数据的快速发展,数据规模不断扩大,因此聚类分析成为处理大规模数据集的重要方法之一、传统的聚类算法,如K-means聚类和层次聚类,各有优缺点。
例如,K-means聚类在处理大规模数据集时存在计算复杂度高、收敛速度慢、结果易受初始聚类中心选择的影响等问题;而层次聚类算法虽然可以提供更详细的聚类结果,但计算复杂度同样较高。
3.发明内容本专利提供了一种基于混合聚类算法的方法,旨在提高大规模数据集的聚类分析效率和准确度。
具体步骤如下:(1)指定初始聚类中心:根据数据集的特征,选择合适的初始聚类中心。
(2)数据子集划分:将数据集划分为若干个子集,每个子集包含部分数据对象。
(3)子集内聚类:对每个子集进行K-means聚类,得到各子集内的聚类结果。
(4)层次聚类:使用层次聚类算法,将各子集的聚类结果再次进行聚类。
(5)聚类结果评估:通过评估指标,如内部集群评价指标(BCubed、Purity等)或外部集群评价指标(ARI、Rand Index等),对聚类结果进行准确度评估。
(6)聚类结果处理:根据评估结果对聚类结果进行进一步处理,以获得更可靠的聚类结果。
4.优点和效果本方法通过结合K-means聚类和层次聚类算法,能够在处理大规模数据集时保证较高的聚类分析效率和准确度。
基于遗传算法的主题爬虫
关 键词 : 遗传算 法 ; 虫 ; 爬 主题爬 虫 ; 主题相关 度 ; 网页重 要性
中图 分类号 :P0 . T 316 文献标 识码 : A 文章 编号 : 7 - 2X(02 0一 08 0 1 3 69 2 1 )8 O4 — 5 6
基 于遗传算 法 的主题 爬虫 方案 。引入 了结合 文本 内容 的 PgR n 算 法 ; ae ak 采用 向量空 间模 型算 法 计算 网页 主题相 关 度 ; 采 取 网页链 接结 构与 主题相 关度来 评判 网页 的重要 性 ; 依据 网页 重要 性选 择 爬行 中的 遗传 因子 ; 置 适应 度 函数筛 选 与 主 设 题 相关 的网 页。与普 通 的主题爬 虫 比较 , 策略能 够获 取大量 主题 相关度 高 的网 页信 息 , 够 提高 获取 的 网页 的重 要性 , 该 能
tpcca lr ae ngnt gr ms o l bantew bp gs i aes ogc r lt nwt uj t- di rv ei o- o i rwe sdo e eca o t udo t e ae c hv rn or a o i sbe s a oet b il i h c i h wh h t ei h c n mp h mp r
P gR n g r m o ie 、ilet ot t, o p ts ep g pcs l i t etrsaemo e agr m,adjde e ae aka oi cmbn vIt ne s c m ue aet i m a t wi vc c dl lo i h n gs u h t
计算机技术与发展
一种网络爬虫实现方法和网络爬虫系统[发明专利]
专利名称:一种网络爬虫实现方法和网络爬虫系统专利类型:发明专利
发明人:葛山
申请号:CN201510901579.3
申请日:20151208
公开号:CN105354337A
公开日:
20160224
专利内容由知识产权出版社提供
摘要:本发明公开了一种网络爬虫实现方法和网络爬虫系统。
其中所述方法包括:模拟用户对网页的访问操作发送网页访问请求;根据网页访问请求对应的反馈内容获得相应的网页内容;分析获得的网页内容,获得目标信息。
通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源,而是通过模拟正常用户的网页访问请求,在客户端如浏览器获取到网页内容,避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制,并且获取到的内容也是通过正当途径访问网页获取的,既可以满足用户爬取数据的需求,也不违反网站服务提供方的约束。
申请人:北京奇虎科技有限公司,奇智软件(北京)有限公司
地址:100088 北京市西城区新街口外大街28号D座112室(德胜园区)
国籍:CN
代理机构:北京市隆安律师事务所
更多信息请下载全文后查看。
基于卷积神经网络识别虫子种类和活性的方法及系统[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910182844.5(22)申请日 2019.03.12(71)申请人 天津瑟威兰斯科技有限公司地址 300000 天津市西青区滨海高新区华苑产业区(环外)海泰创新六路2号16号楼-2-301-4(72)发明人 孙杰 王光夫 (74)专利代理机构 天津展誉专利代理有限公司12221代理人 陈欣(51)Int.Cl.G06T 7/00(2017.01)G06T 7/11(2017.01)G06T 7/246(2017.01)(54)发明名称基于卷积神经网络识别虫子种类和活性的方法及系统(57)摘要本发明涉及一种基于卷积神经网络识别虫子种类和活性的方法及系统,包括以下步骤:截取一组含有虫子特定形态的图片样本,将图片样本中全部种类虫子进行标记;将已标记的图片样本进行区域分割和种类分析训练;提取待识别视频中一组连续的待识别图像;预测出所有待识别图像中虫子位置、种类以及活性状态;通过视频的运动跟踪校正预测结果;输出校正后的识别结果,本发明主要应用在农业病虫害种类分析、病虫害发展趋势分析以及杀虫剂灭活效果等生物农业技术领域,尽可能的接近人观察判断活死虫的方式判断各类虫子死活,最大限度的接近了人类对该情况的分析模拟,确保分析的结果具有可靠性、稳定性、一致性,使得最终的识别结果具有说服力。
权利要求书1页 说明书4页 附图3页CN 109949283 A 2019.06.28C N 109949283A1.一种基于卷积神经网络识别虫子种类和活性的方法,其特征在于,包括以下步骤:a.在视频中截取一组含有虫子特定形态的图片样本,将图片样本中全部种类虫子进行标记;b.使用mask -rcnn将已标记的图片样本进行区域分割和种类分析训练;c.导入待识别视频,提取待识别视频中一组随机连续的待识别图像;d.通过mask -rcnn语义分割预测出所有待识别图像中虫子位置、种类以及活性状态;e.通过视频的运动跟踪校正预测结果;f.输出校正后的识别结果。
一种针对指定专家的信息爬取系统及方法[发明专利]
专利名称:一种针对指定专家的信息爬取系统及方法专利类型:发明专利
发明人:智强,霍东云,李燕茜,张永锋,李振华
申请号:CN201911008059.4
申请日:20191022
公开号:CN110781368A
公开日:
20200211
专利内容由知识产权出版社提供
摘要:本发明涉及互联网技术技术领域,尤其为一种针对指定专家的信息爬取系统及方法,包括用户交互模块、候选列表爬取模块、专家信息爬取模块、数据清洗模块、数据结构化模块和专家画像模块,本发明通过设计解决现有的网络爬虫技术中,将网络上的专家数据集中爬取后存在数据库和云端中,但是这种方法需要占用较多的存储空间和服务器资源,也需要在数据的全面性和维护成本之间进行取舍,从而能准确的返回用户指定的专家信息,无需在搜索引擎中进行搜索和确认,节省了用户的时间成本,能整合多个数据源的专家数据,避免了在单一数据源中搜索不到对应专家的问题同时将大量专家数据存储在数据库和云端的方式,能够节省大量的数据库空间和维护成本。
申请人:北京赛时科技有限公司,清华大学,浙江赛时科技有限责任公司
地址:100085 北京市海淀区逸成东苑5号楼3单元5层504室
国籍:CN
代理机构:北京知汇林知识产权代理事务所(普通合伙)
代理人:董涛
更多信息请下载全文后查看。
一种自动对焦搜索算法[发明专利]
专利名称:一种自动对焦搜索算法专利类型:发明专利
发明人:江旻珊,张楠楠,张学典
申请号:CN201710606378.X 申请日:20170724
公开号:CN107509023A
公开日:
20171222
专利内容由知识产权出版社提供
摘要:本发明涉及一种自动对焦搜索算法,将爬山搜索法法和函数逼近法相结合,该算法中的爬山搜索法采用粗精结合的两段式算法:在粗略对焦时,大步距考虑到算法的快速性,选用灰度方差函数快速逼近对焦位置;当精细对焦时,小步距考虑算法的灵敏度采用Laplacian函数精确对焦位置。
通过比较3幅图片来缩小对焦区间并且在小区间内采用函数逼近法来拟合出最佳对焦位置。
此方法减少了图像采集和评估次数,缩短了系统自动对焦的时间,提高了算法的搜索效率;而且通过比较连续三幅图像的评价函数值,避免陷入局部峰值。
极值点由拟合解析给出,使其更加接近最佳对焦点的位置,大大的提高了算法的精度。
申请人:上海理工大学
地址:200093 上海市杨浦区军工路516号
国籍:CN
代理机构:上海申汇专利代理有限公司
更多信息请下载全文后查看。
一种基于算力的防爬虫方法[发明专利]
专利名称:一种基于算力的防爬虫方法专利类型:发明专利
发明人:罗智高
申请号:CN201710863740.1
申请日:20170922
公开号:CN107733633A
公开日:
20180223
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于算力的防爬虫方法,在服务器端生成客户端请求的页面;将网页使用随机生成的密钥及加密算法进行加密,并生成解密的JavaScript代码,包括一个与正确解密密钥邻近或相关联的密钥;客户端接收到请求后,执行JavaScript解密代码,通过暴力尝试将网页解密;通过浏览器渲染解密后的网页。
本发明采用将网页加密并返回加密后的页面和解密代码,让客户端暴力尝试解密密钥,通过调整加密强度,可不同程度消耗客户端CPU资源,避免同一客户端在短时间内大量抓取网站内容,有效缓解大规模的网络爬虫对服务器资源的消耗。
申请人:成都知道创宇信息技术有限公司
地址:610000 四川省成都市高新区天府三街219号2栋11楼
国籍:CN
代理机构:成都信博专利代理有限责任公司
代理人:刘凯
更多信息请下载全文后查看。
基于深度学习和网络爬虫的智能阅读系统[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011240560.6(22)申请日 2020.11.09(71)申请人 张印祺地址 511443 广东省广州市暨南大学番禺校区(72)发明人 张印祺 周德华 张学聪 韩宜均 李昌昊 林海妍 林泽恬 肖博匀 时过楷 金世伟 李俊桥 (74)专利代理机构 北京润平知识产权代理有限公司 11283代理人 严政(51)Int.Cl.G06F 16/951(2019.01)G06F 40/216(2020.01)G06F 40/242(2020.01)G06F 40/289(2020.01)G06F 40/30(2020.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)G06N 20/20(2019.01)(54)发明名称基于深度学习和网络爬虫的智能阅读系统(57)摘要本发明涉及数据分析技术领域,公开了一种基于深度学习和网络爬虫的智能阅读系统,包括定位系统及问答系统,所述定位系统用于对用户的问题进行优化处理,所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。
所述基于深度学习和网络爬虫的智能阅读系统能够通过自然语言处理技术辅助快速阅读,直接对用户的问题进行处理,并将答案反馈至用户。
权利要求书2页 说明书8页 附图5页CN 112231537 A 2021.01.15C N 112231537A1.一种基于深度学习和网络爬虫的智能阅读系统,其特征在于,包括定位系统及问答系统,所述定位系统用于对用户的问题进行优化处理,所述问答系统基于互联网资源响应问题并将检索结果反馈给用户。
2.根据权利要求1所述的基于深度学习和网络爬虫的智能阅读系统,其特征在于,所述定位系统包括数据分析及预处理模块,所述数据分析及预处理模块用于对用户的问题进行数据分析、处理,得到所述基于深度学习和网络爬虫的智能阅读系统对该问题的输出选择。
一种昆虫机器人运动行为监测与控制系统及方法[发明专利]
专利名称:一种昆虫机器人运动行为监测与控制系统及方法专利类型:发明专利
发明人:槐瑞托,王庆军,李玉霞,汪慧,杨俊卿,于志豪,杨硕,陈炤臻,石勇,颜瑞
申请号:CN202011013546.2
申请日:20200924
公开号:CN112171672A
公开日:
20210105
专利内容由知识产权出版社提供
摘要:本发明公开了一种昆虫机器人运动行为监测与控制系统及方法,属于电子信息技术,微制造技术和生物科学技术领域,本发明提出一种基于新一代信息技术(包括集成技术、传感器技术、无线通讯、软件技术等技术)的视野范围之外昆虫机器人的行为监测与控制方法及系统;在效果上,通过对动物机器人监测控制系统的设计使实验人员可以对视野范围之外的实验体进行实验;从长远来看,为动物机器人的发展应用提供一种新思路。
申请人:山东科技大学
地址:266590 山东省青岛市黄岛区前湾港路579号
国籍:CN
代理机构:青岛智地领创专利代理有限公司
代理人:种艳丽
更多信息请下载全文后查看。
【CN109885833A】一种基于多域数据集联合嵌入的性感极性检测方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910120426.3(22)申请日 2019.02.18(71)申请人 山东科技大学地址 266000 山东省青岛市黄岛区前湾港路579号(72)发明人 田刚 王琦博 刘鹏飞 孙承爱 (74)专利代理机构 北京华仲龙腾专利代理事务所(普通合伙) 11548代理人 李静(51)Int.Cl.G06F 17/27(2006.01)G06K 9/62(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于多域数据集联合嵌入的性感极性检测方法(57)摘要本发明公开了一种基于多域数据集联合嵌入的性感极性检测方法,属于服务计算技术领域,该方法利用了跨领域数据集的优势,在不同领域的数据集上进行情感极性的检测。
受到跨领域数据集进行情感分析的最新进展的启发,本发明提供了一种新的视角,并将数据集的领域适应问题作为嵌入式投影任务。
本发明的模型将两个单领域嵌入空间作为输入,并通过学习将它们投影到双领域空间,该空间被联合优化以预测情感极性。
通过利用亚马逊领域适应数据集和SemEval 2013和2016数据集对多个源领域与目标领域对进行实验以进行情感分类。
结果分析表明,本发明提出的模型在相似的领域上与最先进的方法相当,而在高度不同的领域上表现更佳。
权利要求书2页 说明书5页 附图1页CN 109885833 A 2019.06.14C N 109885833A1.一种基于多域数据集联合嵌入的性感极性检测方法,其特征在于,包括以下步骤:步骤1:收集数据集文档,数据集文档包括三部分:亚马逊领域适应数据集和SemEval 2013和SemEval 2016数据集;亚马逊领域适应数据集其中包含四个领域:“books ”,“DVD ”,“electronics ”和“kitchen ”;因此将三个数据集分为六个领域,另外两个包括:SemEval 2013和SemEval 2016,并将数据集的标签定义为两类:正面与负面;步骤2:将数据集中六个领域的数据分为多个源领域与目标领域对,并使用Word2Vec模型将多个源领域和目标领域对中的内容训练,作为原始向量空间,使用投影词典建立源领域和目标领域的映射,通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射,最终最小化两个投影向量的均方误差;步骤3:将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络,同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后对该整体的模型进行训练,不断修改参数直至分类效果达到最优。
基于遗传算法的聚焦爬虫搜索策略
基于遗传算法的聚焦爬虫搜索策略
曾广朴;范会联
【期刊名称】《计算机工程》
【年(卷),期】2010(036)011
【摘要】为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略.改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向.实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率.
【总页数】3页(P167-169)
【作者】曾广朴;范会联
【作者单位】长江师范学院数学与计算机学院,涪陵408100;长江师范学院数学与计算机学院,涪陵408100
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.基于自适应免疫进化算法的聚焦爬虫搜索策略 [J], 刘丽杰;许楠;李盼池
2.基于遗传算法的聚焦爬虫搜索策略设计与研究 [J], 陈悦;陈运;杨义先;胡迪
3.基于改进遗传算法的聚焦爬虫设计 [J], 范会联;李献礼;曾广朴
4.基于量子行为进化算法的聚焦爬虫搜索策略 [J], 刘丽杰;李盼池;张强
5.基于捕食搜索策略混合遗传算法的车辆路径问题研究 [J], 林涛;武孟贤;轩倩倩;徐庆国;江冲
因版权原因,仅展示原文概要,查看原文内容请购买。
基于遗传算法的主题爬行技术研究
基于遗传算法的主题爬行技术研究
关慧芬;师军;马继红
【期刊名称】《计算机与数字工程》
【年(卷),期】2008(36)10
【摘要】针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.
【总页数】4页(P50-53)
【作者】关慧芬;师军;马继红
【作者单位】陕西师范大学计算机科学学院,西安,710062;陕西师范大学计算机科学学院,西安,710062;陕西师范大学计算机科学学院,西安,710062
【正文语种】中文
【中图分类】TP393
【相关文献】
1.一种基于超链接引导的主题搜索的主题敏感爬行方法 [J], 蒋宗礼;徐学可;李帅
2.基于遗传算法的Web主题库成长技术研究 [J], 李艳生;汪自云
3.一种基于主题爬行模式的地理信息分布式检索方法 [J], 王小康;邓硕;吴博;李景文
4.基于动态隧道技术的主题爬行策略 [J], 姜琨; 朱磊; 王一川
5.一种基于Context Graph主题爬行算法的改进 [J], 高庆芳;蒲宝卿;包蕾
因版权原因,仅展示原文概要,查看原文内容请购买。
基于遗传算法的主题爬虫策略改进
基于遗传算法的主题爬虫策略改进
陈一峰;赵恒凯;余小清;万旺根
【期刊名称】《计算机仿真》
【年(卷),期】2010(027)010
【摘要】针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略.在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高.与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上.
【总页数】5页(P87-90,123)
【作者】陈一峰;赵恒凯;余小清;万旺根
【作者单位】上海大学通信与信息工程学院,上海,200072;上海大学通信与信息工程学院,上海,200072;上海大学通信与信息工程学院,上海,200072;上海大学通信与信息工程学院,上海,200072
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.自适应遗传算法在主题爬虫搜索策略中的应用研究 [J], 荆文鹏;王育坚;董伟伟
2.基于遗传算法的主题爬虫策略 [J], 刘国靖;康丽;罗长寿
3.基于遗传算法的主题爬虫策略 [J], 刘国靖;康丽;罗长寿
4.基于遗传算法的主题爬虫 [J], 张海亮;袁道华
5.基于模拟退火遗传算法的主题爬虫搜索策略研究 [J], 杜娟娟;郑丽英
因版权原因,仅展示原文概要,查看原文内容请购买。
【CN109885660A】一种知识图谱赋能的基于信息检索的问答系统和方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910134021.5(22)申请日 2019.02.22(71)申请人 上海乐言信息科技有限公司地址 200030 上海市徐汇区上海市番禺路1028号数娱大厦8楼(72)发明人 褚善博 王昊奋 (74)专利代理机构 上海专利商标事务所有限公司 31100代理人 施浩(51)Int.Cl.G06F 16/33(2019.01)G06F 16/332(2019.01)G06F 16/36(2019.01)(54)发明名称一种知识图谱赋能的基于信息检索的问答系统和方法(57)摘要本发明公开了知识图谱赋能的基于信息检索的问答系统和方法,整体提升系统的问答效果,扩大用户咨询范围并提升问题反馈的准确度。
其技术方案为:系统包括:知识图谱数据库存储领域知识图谱的信息;分词和词性标注模块将用户问题进行分词并对其词性标注;实体识别与链接模块将用户问题中的实体进行识别并将实体链接到知识图谱数据库中的节点上;意图理解模块基于实体链接结果及分布式表示向量得到用户问题的意图理解结果;检索模块基于检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;排序模块利用实体的分布式表示向量对粗选结果进行重排序;语义匹配模块利用实体的分布式表示向量对重排序结果进行打分并最终输出答案。
权利要求书3页 说明书10页 附图3页CN 109885660 A 2019.06.14C N 109885660A1.一种知识图谱赋能的基于信息检索的问答系统,其特征在于,包括分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块、知识图谱数据库,其中:知识图谱数据库,存储领域知识图谱的信息,其中知识图谱的信息包括知识图谱的节点、节点与实体的链接关系及其分布式表示向量;分词和词性标注模块,连接知识图谱数据库,将用户问题进行分词并对每一个词进行词性标注;实体识别与链接模块,连接分词和词性标注模块、知识图谱数据库,将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱数据库中的知识图谱的相关节点上;意图理解模块,连接实体识别与链接模块、知识图谱数据库,基于实体识别与链接模块的实体链接结果以及知识图谱数据库中的实体的分布式表示向量得到用户问题的意图理解结果;检索模块,连接意图理解模块,基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;排序模块,连接检索模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对检索模块输出的粗选结果进行重排序;语义匹配模块,连接语义匹配模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对排序模块的重排序结果进行打分并最终输出用户问题相应的答案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
权利要求书1页 说明书3页 附图2页
CN 109815388 A
CN 109815388 A
权 利 要 求 书
1/1 页
1 .一种基于遗传算法的智能聚焦爬虫系统,其特征在于,包括: 初始化模块,根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集,确 定交叉概率Pc、遗传概率Pm、爬虫深度d以及网页适应度值的阈值; 主题相似性判断模块,用于确定种子URL集中各被浏览网页的网页主题,计算网页主题 与 用户查找主题相关性 ,并计算网 页适应度值 ,根据将计算得到的网 页适应度值与初始化 模块设定的网页适应度值的阈值相比较,得到网页适应度值较高的网页; 任务模块 ,将主题 相似性 判断 模块获得的网 页适应度值较高的网 页的 链接存储到URL 结果集中,并根据URL结果集生成待爬取任务 爬虫模块 ,利 用初始化模块 确定的 爬虫深度d 初始化 后 ,不断从URL结果集获取任务模 块生成的 待爬取任务 ,然后发送http请求 ,下载指定的网 页链接到本地抓取 相应网 页数据 直到URL结果集为空时,终止整个循环。 2 .如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题 相似性判断模块和所述爬虫模块在不同进程或线程中进行。 3 .如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题 相似性判断模块包括: 浏览单元,用于浏览所述初始化模块中的种子URL集; 解析单元,用于对种子URL集进行解析,分别从内容重要性和链接权重方面对网页进行 解析,计算所述网页适应度值。 4 .如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述解析 单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的权重和网页内容的重要程 度。 5 .如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题 相似性判断模块同时启用多个线程进行网页解析。 6 .如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述任务 模块包括: 选择单元 ,用于根据所述初始化模块设置的网 页适应度值的阈值从 种子URL集中 选择 出具有较高网页适应度值的网页链接存储到URL结果集中; 交叉单元,用于选择未被存储到URL结果集中的网页链接,扩大搜索范围; 变异单元,用于重组关键关键字,选择由交叉单元获得的网页链接进行重新检索。 7 .如权利要求6所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述交叉 单元根据所述交叉概率Pc在已 浏览的 初始网 站链接中提取的网 站链接按主题 相似度降 序 排列选出前m×Pc个网站链接作为所述URL结果集。 8 .如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述任务 模块采用MongoDB数据库存储所述URL结果集,同时,采用Set或者Hash Set数据结构进行保 存网页链接。 9 .如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述爬虫 深度d与所述URL结果集中设置的存储数量有关。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910072237 .3
(22)申请日 2019 .01 .25
(71)申请人 东华大学 地址 20林
(74)专利代理机构 上海申汇专利代理有限公司 31001
爬虫 系统 ,其特征在于 ,包括 :初始化模块 ;主题 相似性 判断 模块 ,用于 确定 种子URL集中各被浏 览网页的网页主题,计算网页主题与用户查找主 题相关性 ;任务模块 ,将主题相似性 判断 模块获 得的网页适应度值较高的网页的链接存储到URL 结果集中 ,并根据URL结果集生成待爬取任务 ;爬 虫模块。本发明将智能算法应用到爬虫系统中 , 使爬虫系统自适应能力增强 ,提高爬取信息的准 确度。本发明提供的智能聚焦爬虫系统弥补了传 统爬虫的不足,它是一种面向特定主题的爬虫系 统。智能聚焦爬虫系统能够有目的的提取互联网 中用户所需要的资源。
代理人 翁若莹 柏子雵
(51)Int .Cl . G06F 16/953(2019 .01) G06F 16/955(2019 .01)
(10)申请公布号 CN 109815388 A (43)申请公布日 2019.05.28
( 54 )发明 名称 一种基于遗传算法的智能聚焦爬虫系统
( 57 )摘要 本发明涉及一种基于遗传算法的智能聚焦
2
CN 109815388 A
说 明 书
1/3 页
一种基于遗传算法的智能聚焦爬虫系统
技术领域 [0001] 本发明涉及一种智能聚焦爬虫系统,属于网页搜索技术领域。
背景技术 [0002] 当前信息技术正在以前所未有的速度不断发展,互联网上的信息呈指数级增长, 如何在海量数据中检索出 用户需要的 信息变得越来越困难。因此 ,搜索 引擎技术应运而生 并在人们日常生活中起着举足轻重的作用,成为从互联网上获取信息的重要途径。通用搜 索 引擎在搜索信息精准度方面有一定 局限 性 ,无法满足 用户对复 杂资源的需求 ,不能适应 用户个性化和多样化的需要。因此,垂直搜索引擎成为未来发展趋势。 [0003] 网络爬虫则是一个自动提取网页的程序,它为搜索引擎从互联网(Internet)上下 载网页,是搜索引擎的重要组成部分。传统爬虫是从一个种子URL开始爬取网页资源,存储 种子网页上的所有URL地址,不可避免的提取和存储大量与主题无关的网页,使得网页搜索 效率大大降低,且不能满足人们对信息精准度的要求。
发明内容 [0004] 本发明的目的是:将爬虫系统与人工智能算法相结合,利用人工智能算法全面分 析网页结构,在一定程度上提高了预测网页与主题相关度。 [0005] 为了达到上述目的,本发明的技术方案是提供了一种基于遗传算法的智能聚焦爬 虫系统,其特征在于,包括: [0006] 初始化模块,根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL 集,确定交叉概率Pc、遗传概率Pm、爬虫深度d以及网页适应度值的阈值; [0007] 主题相似性判断模块,用于确定种子URL集中各被浏览网页的网页主题,计算网页 主题与 用户查找主题相关性 ,并计算网 页适应度值 ,根据将计算得到的网 页适应度值与初 始化模块设定的网页适应度值的阈值相比较,得到网页适应度值较高的网页; [0008] 任务模块,将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到 URL结果集中,并根据URL结果集生成待爬取任务 [0009] 爬虫模块,利用初始化模块确定的爬虫深度d初始化后,不断从URL结果集获取任 务模块生成的 待爬取任务 ,然后发送http请求 ,下载指定的网 页链接到本地抓取 相应网 页 数据直到URL结果集为空时,终止整个循环。 [0010] 优选地,所述主题相似性判断模块和所述爬虫模块在不同进程或线程中进行。 [0011] 优选地,所述主题相似性判断模块包括: [0012] 浏览单元,用于浏览所述初始化模块中的种子URL集; [0013] 解析单元,用于对种子URL集进行解析,分别从内容重要性和链接权重方面对网页 进行解析,计算所述网页适应度值。 [0014] 优选地,所述解析单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的 权重和网页内容的重要程度。