【CN109948018A】一种Web结构化数据快速提取方法及系统【专利】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2Hale Waihona Puke Baidu
CN 109948018 A
说 明 书
1/5 页
一种Web结构化数据快速提取方法及系统
技术领域 [0001] 本发明与网页数据爬取相关,涉及网站网页结构和文件存取算法领域,是一种利 用自适应算法和标签数据匹配的网页结构化数据提取方法,能够对指定提取的网页数据项 进行精准快速地提取。
背景技术 [0002] 现有的网页数据获取方式主要分两种,一种是先获取全网页面再本地提取数据, 另一种是直接提取页面目标数据存储在本地。 [0003] 先获取全网页面再本地提取数据,即针对目标网站所有的目标页面进行访问,在 得到目标页面的反馈后对目标页面的所有信息进行存储。所有页面信息存储到本地存储空 间后,再对需要提取的目标数据项进行本地过滤提取。这种方式的优点在于兼容性强,性能 稳定 ,属于工业化思想 ,是目前各大公 司正在使 用的 主流方式 ,例如360、京东云等。兼容性 在于这种方式容易实现分布式页面访问和获取,可以运行上千台主机同时对目标网站的目 标网页进行访问 ,属于蛮力算法 ,不需要过多的网址路径优化 ,是以分布式主机的数量作为 补偿。并且每台主机可同时 请求访问 不同的目 标页面 ,这样既 节省了 加载目 标网 页的时间 又可以适用不同目标网站,而不需要改动,所以具有很好的兼容性。稳定性在于这种方式在 提取目标数据项之前 ,已 经把数据项所在的 所有网 页下载到了本地。需要提取的 数据项的 结构和字段等逻辑可以在本地处理。有需求的工作人员在本地标注好目标数据项之后,再 由 本地服务器进行统一计算处理 ,得到目标数据。这种方式的 缺陷 在于使 用该方式进行数 据提取的门槛较高 ,需要有大量的机器集群、高速的带宽、大量的本地存储空间 和强大的算 力。这种方式对资源的浪费也比较严重,主要体现在大量的和目标数据无关的网页数据都 要占 用带宽和流量下载到本地,并且本地也要提供大量的存储空间来存储大量和提取数据 无关的网页页面信息。 [0004] 直接提取页面目标数据存储在本地,即在访问页面的过程中直接进行数据过滤, 一次性提取目 标数据后存储在本地 ,例如scra py框架等。这 种方式 只需要服务器进入爬取 网站后打开目标网页,在加载目标网页是页面信息中提取目标信息。直接提取页面目标数 据存储在本地 ,较高地利用了网络带宽和本地存储空间 ,但是在提取数据的兼容性和稳定 性上却不如第一种方式 ,由于目标数据项的提取是在加载页面的过程中完成的 ,所以 不同 结构的网页对数据项的提取逻辑也不一样。在相同 页面结构的 情况下可以 支持访问 ,在不 同页面结构的情况下,比如说不同网站,就需要重新构建网页数据提取逻辑。由于目标数据 项的提取依赖于网页的加载,一旦网页加载失败,数据项的提取也会失败,所以提取性能不 稳定。另外,直接提取页面目标数据存储在本地,网页加载延迟和页面数据过滤时间都叠加 在了单条数据的提取时间上,使得单条数据的提取速度较慢。 [0005] 综上所述,以上两种方法存在带宽流量浪费、本地存储空间浪费和兼容性低、稳定 性低等问题,并且这些问题都没有得到相互融合和改善。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910021939 .9
(22)申请日 2019 .01 .10
(71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号北 京大学 申请人 国网信息通信产业集团有限公司 国家电网有限公司 国网浙江省电力有限公司
(72)发明人 刘芳作 陈薇 王腾蛟 李强 邱镇 崔迎宝
(74)专利代理机构 北京君尚知识产权代理事务 所(普通合伙) 11200
代理人 余长江
(51)Int .Cl . G06F 16/951(2019 .01)
( 54 )发明 名称 一种Web结构化数据快速提取方法及系统
( 57 )摘要 本发明是一种Web结构化数据快速提取方
(10)申请公布号 CN 109948018 A (43)申请公布日 2019.06.28
权利要求书1页 说明书5页 附图2页
CN 109948018 A
CN 109948018 A
权 利 要 求 书
1/1 页
1 .一种Web结构化数据快速提取方法,步骤包括: 层次遍历目标网站页面当中的网址链接,并以列表形式记录所有网站的网址和对应的 网址跳转顺序; 从上述 列表中 识别目 标网 页的网 址 ,并 记录对应的网 址跳转顺 序 ,按目 标网 站到目 标 网页访问的先后顺序进行网址拼接,生成访问目标网页的网址跳转顺序; 根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序; 根据上述最优网 址跳转顺序访问目 标网 页 ,层次 遍历目 标 页面的 所有数 据项标签 ,找 到所有目标数据项标签; 从上述所有目标数据项标签中找出最短标签路径; 根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。 2 .如权利要求1所述的方法,其特征在于,在进行遍历之前,对要提取的Web结构化数据 进行属性确认,包括确认目标网站的网址、目标网页的网址以及目标网页的页面标签。 3 .如权利要求1所述的方法,其特征在于,如果在已识别的目标网页的网址中未记录有 目标网页的网址跳转顺序,则继续遍历目标网站页面的网址链接。 4 .如权利要求1所述的方法,其特征在于,使用最少跳转数作为验证访问目标网页的网 址跳转顺序是否已达到优化标准,如否,则继续生成优化的网址跳转顺序,直至得到访问目 标网页的最优网址跳转顺序。 5 .如权利要求1所述的方法,其特征在于,访问目标网页时,把目标网页上所有可访问 的 数据项进行记录 ,并记录每个数据项所对应的 数据项标签 ,把数据项标签按照展开的 层 次结构进行归类,并记录已经归类的数据项和数据项标签信息。 6 .如权利要求1所述的方法,其特征在于,统计找到的目标数据项标签的个数,如果尚 未找到所有目标数据项标签,则继续遍历目标页面的数据项标签。 7 .如权利要求1所述的方法,其特征在于,找出最短路径的方法为,对找到的所有目标 数据项标签按照展开的层次结构进行相似性归类,使用自适应原则合并相同路径,并将目 标数据项标签转化成树型结构的格式,以生成最短路径。 8 .如权利要求1所述的方法,其特征在于,设定一评估标准,比较所有目标数据项标签 的路径长度,将最短长度达到该标准的目标数据项标签路径作为最短路径。 9 .一种Web结构化数据快速提取系统,包括: 网址逻辑生成模块 ,用于归纳目 标网 页在目 标网 站中的 关 系 ,找出访问目 标网 页的 最 优网址跳转顺序; 标签路径生成模块 ,用于对目 标网 页的 页面标签进行匹配 ,找出目 标数 据项标签的 最 短路径; 进程访问网页模块,用于根据最优网址跳转顺序访问目标网页; 线程提取数据模块,用于根据最短路径对目标网页上的目标数据进行提取。 10 .如权利要求9所述的系统,其特征在于,还包括确定目标模块,用于对要提取的目标 数据进行属性确认,包括确认目标网站的网址、目标网页的网址、目标网页的页面标签。
法 ,步骤包括 :层次 遍历目 标网 站页面当中的网 址链接,并以列表形式记录所有网站的网址和对 应的网址跳转顺序;从上述列表中识别目标网页 的网址 ,并 记录对应的网址跳转顺序 ,按目 标网 站到目标网页访问的先后顺序进行网址拼接,生 成访问目标网页的网址跳转顺序;根据贪心随机 自适应搜索算法找出访问目标网页的最优网址 跳转顺序;根据上述最优网址跳转顺序访问目标 网 页 ,层次 遍历目 标页面的 所有数据项标签 ,找 到所有目标数据项标签;从上述所有目标数据项 标签中找出最短标签路径;根据上述最优网址跳 转顺序和最短路径爬取目标网页的目标数据。本 发明还提供一种Web结构化数据快速提取系统。