【CN109948018A】一种Web结构化数据快速提取方法及系统【专利】

合集下载

【CN109948089A】一种提取网页正文的方法及装置【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910129532.8(22)申请日 2019.02.21(71)申请人中国海洋大学地址 266100 山东省青岛市崂山区松岭路238号(72)发明人杨永全　翟世平　魏志强　尹垄钧　(74)专利代理机构北京工信联合知识产权代理有限公司 11266代理人姜丽楼(51)Int.Cl.G06F 16/957(2019.01)G06F 16/955(2019.01)G06F 16/33(2019.01)(54)发明名称一种提取网页正文的方法及装置(57)摘要本发明公开了一种提取网页正文的方法，包括：提取网页源代码中HTML DOM树中包含网页正文的元素；将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq 2Seq 框架中；根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；将所述网页正文的元素名称通过Jsoup技术，输出网页正文。

解决了网页正文的判断准确率低，后续无相应的算法来确保正文信息节点的正确性和可靠性，以及提取过程的效率低的问题。

权利要求书2页说明书5页附图5页CN 109948089 A 2019.06.28C N 109948089A权　利　要　求　书1/2页CN 109948089 A1.一种提取网页正文的方法，其特征在于，包括：提取网页源代码中HTML DOM树中包含网页正文的元素；将所述包含网页正文的元素构成一个列表，并将网页正文的元素名称映射入一个多维的词向量空间，将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中；根据Attention机制，将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量；根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码，输出预测的网页正文的元素名称；将所述网页正文的元素名称通过Jsoup技术，根据预先设定的阈值对网页正文属性的相关度进行判断，输出网页正文。

网页结构化数据的抓取方法及系统[发明专利]

专利名称：网页结构化数据的抓取方法及系统
专利类型：发明专利
发明人：林晨,陈文极,林震宇,徐立宇,林智泓,陈艺辉,陶峥申请号：CN201910515145.8
申请日：20190614
公开号：CN110309394A
公开日：
20191008
专利内容由知识产权出版社提供
摘要：本发明提供一种网页结构化数据的抓取方法及系统。

该网页结构化数据的抓取方法包括：依次对每列网页数据执行如下处理：获取第一条数据的标签链作为第一标签链；当第一标签链中存在表格元素时：获取存在表格元素的全部子标签以构成标签合集；提取标签合集中包括表格文字标签的文本以组织列结构化数据；当第一标签链中不存在表格元素时：获取第二条数据的标签链作为第二标签链；根据第一标签链和第二标签链获取总开头标签；将存在总开头标签的其余数据的标签链放入子节点合集中；提取子节点合集中的全部文本标签以组织列结构化数据；根据每列网页数据对应的列结构化数据组成网页结构化数据，以保留抓取数据的原有结构，方便后续的数据处理。

申请人：中国建设银行股份有限公司,建信金融科技有限责任公司
地址：100033 北京市西城区金融大街25号
国籍：CN
代理机构：北京三友知识产权代理有限公司
更多信息请下载全文后查看。

一种Web结构化数据快速提取方法及系统[发明专利]

专利名称：一种Web结构化数据快速提取方法及系统专利类型：发明专利
发明人：刘芳作,陈薇,王腾蛟,李强,邱镇,崔迎宝
申请号：CN201910021939.9
申请日：20190110
公开号：CN109948018A
公开日：
20190628
专利内容由知识产权出版社提供
摘要：本发明是一种Web结构化数据快速提取方法，步骤包括：层次遍历目标网站页面当中的网址链接，并以列表形式记录所有网站的网址和对应的网址跳转顺序；从上述列表中识别目标网页的网址，并记录对应的网址跳转顺序，按目标网站到目标网页访问的先后顺序进行网址拼接，生成访问目标网页的网址跳转顺序；根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序；根据上述最优网址跳转顺序访问目标网页，层次遍历目标页面的所有数据项标签，找到所有目标数据项标签；从上述所有目标数据项标签中找出最短标签路径；根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。

本发明还提供一种Web结构化数据快速提取系统。

申请人：北京大学,国网信息通信产业集团有限公司,国家电网有限公司,国网浙江省电力有限公司地址：100871 北京市海淀区颐和园路5号北京大学
国籍：CN
代理机构：北京君尚知识产权代理事务所(普通合伙)
代理人：余长江
更多信息请下载全文后查看。

一种从非结构化文本数据中提取结构化数据的方法及系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010991878.1(22)申请日 2020.09.21(71)申请人国网辽宁省电力有限公司电力科学研究院地址 110055 辽宁省沈阳市和平区四平街39-7号申请人福建亿榕信息技术有限公司　南京南瑞信息通信科技有限公司　国家电网有限公司(72)发明人胡博　李钊　李伟　王丽霞　王大维　雷振江　田小蕾　杨超　顾海林　胡楠　刘晓强　齐俊　高强　庄莉　梁懿　陈新梅　刘鹏宇　曹国强　(51)Int.Cl.G06F 40/216(2020.01)G06F 40/284(2020.01)G06F 40/289(2020.01) (54)发明名称一种从非结构化文本数据中提取结构化数据的方法及系统(57)摘要一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域，尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。

本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。

本发明包括以下步骤：1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置。

2.分词、标注词性。

通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注。

权利要求书1页说明书3页附图2页CN 112101007 A 2020.12.18C N 112101007A1.一种从非结构化文本数据中提取结构化数据的方法及系统，其特征在于包括以下步骤：1）在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置；2）分词、标注词性通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注，这样可以防止分词时将标注内容割裂，影响后续模型训练效果；3）生成正则对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式，并可对生成的正则表达式进行必要调整，提高其匹配效果；4）生成 CRF 训练特征数据CRF （条件随机场）是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型，假设 X，Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量，那么条件随机场 (X ,Y) 就是一个以观察序列 X 为条件的无向图模型，条件随机场的目标是在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优；本方案中的观察序列就是文本数据经过步骤 2 后的分词序列；对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据，对文本数据中任意一个词其特征包括：当前词及其前后两个词的内容、词性；5）训练并评估 CRF 模型对步骤 4 生成的 CRF 训练特征数据，首先按 8:2 的比例切分训练集和测试集，然后进行 CRF 模型训练；使用测试集数据对训练好的模型进行测试，根据评估指标（括准确率和召回率）评估模型效果；若模型效果不理想可重新从步骤 1 开始调整标注内容；6）结合正则和 CRF 模型进行结构化信息提取结合步骤 3 生成并调整后的正则和步骤 5 训练出的 CRF 模型对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取，得到二者对应的提取结果后进行合并处理，得到最终的结构化信息提取结果。

一种自动化采集网页数据的系统及方法[发明专利]

专利名称：一种自动化采集网页数据的系统及方法专利类型：发明专利
发明人：李沁,李娜
申请号：CN201910757991.0
申请日：20190816
公开号：CN110489698A
公开日：
20191122
专利内容由知识产权出版社提供
摘要：本发明提供一种自动化采集网页数据的系统及方法，该系统包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块，结合脚本引擎模块和流程控制模块共同实现对指定网页的访问和指定数据采集。

脚本引擎模块使得本发明的自动化采集网页数据的系统具有在当前页面的内存地址中执行自定义的JS函数的能力，在网页加载完成后能够获取当前页面的内存地址，并利用JS脚本模拟用户的各种点击操作，流程控制模块可以定制具体页面上的采集内容，适用于对具体网页的数据进行精确处理或者是针对具体网页进行特殊处理，特别是对于税务网站的数据能够进行精确采集；可以实现采集流程自定义、采集内容自定义。

申请人：南京云帐房网络科技有限公司
地址：210000 江苏省南京市雨花台区绿地之窗D-1幢10层
国籍：CN
代理机构：南京科知维创知识产权代理有限责任公司
代理人：杜依民
更多信息请下载全文后查看。

一种数据抽取方法和系统以及云平台[发明专利]

专利名称：一种数据抽取方法和系统以及云平台专利类型：发明专利
发明人：徐正礼,魏金雷,臧勇真,赵明超
申请号：CN201510086831.X
申请日：20150225
公开号：CN104639558A
公开日：
20150520
专利内容由知识产权出版社提供
摘要：本发明提供一种数据抽取方法和系统及云平台。

该方法包括：接收用户发来的申请使用kettle工具的请求；在hbase表中记录用户对应的kettle连接权限；为用户创建kerberos认证的配置文件；将所述kerberos认证的配置文件打包在kettle工具中发送给用户；接收用户通过kettle工具并基于所述kerberos认证的配置文件，发起的kerberos认证请求；认证通过后，根据所述hbase 表中记录的kettle连接权限，接收用户通过kettle工具从本地系统抽取到云平台的数据。

本方案能够提高数据抽取的安全性。

申请人：浪潮集团有限公司
地址：250100 山东省济南市高新区浪潮路1036号
国籍：CN
代理机构：济南信达专利事务所有限公司
代理人：李世喆
更多信息请下载全文后查看。

一种自适应网页结构化信息提取方法

Computer Tech no l ogy and Its Applicati o ns一种自适应网页结构化信息提取方法淮晓永，韩晓东，高若辰，高焕新(华北计算机系统工程研究所，北京100083)摘要：面向互联网信息采集挖掘应用，针对传统的网站信息整页采集方式存在采集信息混杂、无法直接使用，而人工结构化采集方式成本高、工作效率低的问题，研究提出了一种自适应网页结构化信息提取方法，实现了网页分类算法、基于子树的标题项、内容项的结构化信息提取算法。

基于典型网站网页分类标注数据集进行分类模型的学习建模，可以自适应不同网站的差异，对网页进行分类，按照网页分类分别提取出网页中的列表项结构化信息、内容项结构化信息。

该技术对提高网站信息结构化采集处理的自动化水平及处理效率具有重要作用。

关键词：信息提取；结构化信息；分类模型；自适应中图分类号：TN919.5；TP391.1文献标识码：A DOI:10.16157/j.issn.0258-7998.200160中文引用格式：淮晓永，韩晓东，高若辰，等.一种自适应网页结构化信息提取方法[J].电子技术应用，2020,46(12)：97-102.英文弓丨用格式：Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al.An adaptive method for extracting structured information from web pages[J].Application of Electronic Technique,2020,46(12):97—102.An adaptive method for extracting structured information from web pagesHuai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin(National Computer System Engineering Research Institute of China,Beijing100083,China)Abstract:In order to meet the needs of Internet infonnation collection and mining,aiming at the problems of traditional web site infbnnation collection methods,such as mixed collection infonnation,unable to be used directly,and the high cost and low efficiency of manual structured collection method,this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm,subtree based title item and content item structured information extraction algorithm.Based on the classification annotated dataset of typical website pages,the classification model can adapt to the differences of various web sites,classify the web pages,and extract the list structured information and content structured information in the web pages according to the web page classification.This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.Key words:information extraction；structured information；classification model；adaptive0引言在互联网大数据时代，互联网信息呈现爆炸式增长，其中蕴藏着很多有价值的重要信息需要处理与利用。

一种提取方法的专利有

一种提取方法的专利有最近，在专利领域中，一种提取方法的专利引起了广泛关注。

该方法通过其独特的技术和创新的思路，解决了在特定领域内提取的难题。

本文将详细介绍该专利的技术特点、应用领域以及其对相关行业的影响。

该提取方法的专利利用了一种新型的算法和数据处理技术，通过对特定领域的数据进行深入分析和处理，能够从中提取出有价值的信息。

这种方法的创新之处在于其能够在大数据环境下高效地提取信息，并能够快速适应不同的数据源和数据形式。

该方法的核心技术包括数据预处理、特征提取、模式识别和结果解释等关键步骤。

首先，对原始数据进行预处理，包括数据清洗、去噪和归一化等操作，以提高后续特征提取和模式识别的准确性和稳定性。

然后，利用特征提取算法，从经过预处理的数据中提取出具有代表性的特征，以代表数据的本质特性。

接下来，通过模式识别算法，对具有代表性的特征进行分析和分类，以寻找出关键模式和规律。

最后，将提取的结果进行解释和展示，以便用户更好地理解和应用这些信息。

该方法的应用领域非常广泛，包括金融、医疗、物联网、智能制造等诸多领域。

在金融领域，该方法可用于分析股票、期货、外汇市场等不同金融市场的数据，从中发现市场趋势、交易信号和投资机会。

在医疗领域，该方法可用于医学图像分析、疾病预测和诊断等方面，提高医疗效果和诊断准确性。

在物联网领域，该方法可用于对大量传感器数据进行分析和挖掘，以发现数据之间的关联性和规律性。

在智能制造领域，该方法可用于工艺优化、质量控制和故障预测等方面，提高生产效率和产品质量。

该提取方法的专利对相关行业具有重要的影响。

首先，它能够有效解决目前大数据环境下面临的数据处理和信息提取难题，提高数据的价值和利用率。

其次，该方法的创新性和高效性，为相关行业带来了新的发展机遇和竞争优势。

再次，它对行业的发展方向和创新路径提供了有力的引导和支持，推动了行业的创新和进步。

总之，该提取方法的专利通过独特的技术和创新的思路解决了在特定领域内提取的难题，其核心技术包括数据预处理、特征提取、模式识别和结果解释等关键步骤。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

法，步骤包括：层次遍历目标网站页面当中的网址链接，并以列表形式记录所有网站的网址和对应的网址跳转顺序；从上述列表中识别目标网页的网址，并记录对应的网址跳转顺序，按目标网站到目标网页访问的先后顺序进行网址拼接，生成访问目标网页的网址跳转顺序；根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序；根据上述最优网址跳转顺序访问目标网页，层次遍历目标页面的所有数据项标签，找到所有目标数据项标签；从上述所有目标数据项标签中找出最短标签路径；根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。本发明还提供一种Web结构化数据快速提取系统。
(72)发明人刘芳作陈薇王腾蛟李强邱镇崔迎宝
(74)专利代理机构北京君尚知识产权代理事务所(普通合伙) 11200
代理人余长江
(51)Int .Cl . G06F 16/951(2019 .01)
( 54 )发明名称一种Web结构化数据快速提取方法及系统
( 57 )摘要本发明是一种Web结构化数据快速提取方
( 19 )中华人民共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910021939 .9
(22)申请日 2019 .01 .10
(71)申请人北京大学地址 100871 北京市海淀区颐和园路5号北京大学申请人国网信息通信产业集团有限公司国家电网有限公司国网浙江省电力有限公司
(10)申请公布号 CN 109948018 A (43)申请公布日 2019.06.28
权利要求书1页说明书5页附图2页
CN 109948018 A
CN 109948018 A
权利要求书

1/1 页
1 .一种Web结构化数据快速提取方法，步骤包括：层次遍历目标网站页面当中的网址链接，并以列表形式记录所有网站的网址和对应的网址跳转顺序；从上述列表中识别目标网页的网址，并记录对应的网址跳转顺序，按目标网站到目标网页访问的先后顺序进行网址拼接，生成访问目标网页的网址跳转顺序；根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序；根据上述最优网址跳转顺序访问目标网页，层次遍历目标页面的所有数据项标签，找到所有目标数据项标签；从上述所有目标数据项标签中找出最短标签路径；根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。 2 .如权利要求1所述的方法，其特征在于，在进行遍历之前，对要提取的Web结构化数据进行属性确认，包括确认目标网站的网址、目标网页的网址以及目标网页的页面标签。 3 .如权利要求1所述的方法，其特征在于，如果在已识别的目标网页的网址中未记录有目标网页的网址跳转顺序，则继续遍历目标网站页面的网址链接。 4 .如权利要求1所述的方法，其特征在于，使用最少跳转数作为验证访问目标网页的网址跳转顺序是否已达到优化标准，如否，则继续生成优化的网址跳转顺序，直至得到访问目标网页的最优网址跳转顺序。 5 .如权利要求1所述的方法，其特征在于，访问目标网页时，把目标网页上所有可访问的数据项进行记录，并记录每个数据项所对应的数据项标签，把数据项标签按照展开的层次结构进行归类，并记录已经归类的数据项和数据项标签信息。 6 .如权利要求1所述的方法，其特征在于，统计找到的目标数据项标签的个数，如果尚未找到所有目标数据项标签，则继续遍历目标页面的数据项标签。 7 .如权利要求1所述的方法，其特征在于，找出最短路径的方法为，对找到的所有目标数据项标签按照展开的层次结构进行相似性归类，使用自适应原则合并相同路径，并将目标数据项标签转化成树型结构的格式，以生成最短路径。 8 .如权利要求1所述的方法，其特征在于，设定一评估标准，比较所有目标数据项标签的路径长度，将最短长度达到该标准的目标数据项标签路径作为最短路径。 9 .一种Web结构化数据快速提取系统，包括：网址逻辑生成模块，用于归纳目标网页在目标网站中的关系，找出访问目标网页的最优网址跳转顺序；标签路径生成模块，用于对目标网页的页面标签进行匹配，找出目标数据项标签的最短路径；进程访问网页模块，用于根据最优网址跳转顺序访问目标网页；线程提取数据模块，用于根据最短路径对目标网页上的目标数据进行提取。 10 .如权利要求9所述的系统，其特征在于，还包括确定目标模块，用于对要提取的目标数据进行属性确认，包括确认目标网站的网址、目标网页的网址、目标网页的页面标签。
2
CN 109948018 A
说明书
1/5 页
一种Web结构化数据快速提取方法及系统
技术领域 [0001] 本发明与网页数据爬取相关，涉及网站网页结构和文件存取算法领域，是一种利用自适应算法和标签数据匹配的网页结构化数据提取方法，能够对指定提取的网页数据项进行精准快速地提取。
背景技术 [0002] 现有的网页数据获取方式主要分两种，一种是先获取全网页面再本地提取数据，另一种是直接提取页面目标数据存储在本地。 [0003] 先获取全网页面再本地提取数据，即针对目标网站所有的目标页面进行访问，在得到目标页面的反馈后对目标页面的所有信息进行存储。所有页面信息存储到本地存储空间后，再对需要提取的目标数据项进行本地过滤提取。这种方式的优点在于兼容性强，性能稳定，属于工业化思想，是目前各大公司正在使用的主流方式，例如360、京东云等。兼容性在于这种方式容易实现分布式页面访问和获取，可以运行上千台主机同时对目标网站的目标网页进行访问，属于蛮力算法，不需要过多的网址路径优化，是以分布式主机的数量作为补偿。并且每台主机可同时请求访问不同的目标页面，这样既节省了加载目标网页的时间又可以适用不同目标网站，而不需要改动，所以具有很好的兼容性。稳定性在于这种方式在提取目标数据项之前，已经把数据项所在的所有网页下载到了本地。需要提取的数据项的结构和字段等逻辑可以在本地处理。有需求的工作人员在本地标注好目标数据项之后，再由本地服务器进行统一计算处理，得到目标数据。这种方式的缺陷在于使用该方式进行数据提取的门槛较高，需要有大量的机器集群、高速的带宽、大量的本地存储空间和强大的算力。这种方式对资源的浪费也比较严重，主要体现在大量的和目标数据无关的网页数据都要占用带宽和流量下载到本地，并且本地也要提供大量的存储空间来存储大量和提取数据无关的网页页面信息。 [0004] 直接提取页面目标数据存储在本地，即在访问页面的过程中直接进行数据过滤，一次性提取目标数据后存储在本地，例如scra py框架等。这种方式只需要服务器进入爬取网站后打开目标网页，在加载目标网页是页面信息中提取目标信息。直接提取页面目标数据存储在本地，较高地利用了网络带宽和本地存储空间，但是在提取数据的兼容性和稳定性上却不如第一种方式，由于目标数据项的提取是在加载页面的过程中完成的，所以不同结构的网页对数据项的提取逻辑也不一样。在相同页面结构的情况下可以支持访问，在不同页面结构的情况下，比如说不同网站，就需要重新构建网页数据提取逻辑。由于目标数据项的提取依赖于网页的加载，一旦网页加载失败，数据项的提取也会失败，所以提取性能不稳定。另外，直接提取页面目标数据存储在本地，网页加载延迟和页面数据过滤时间都叠加在了单条数据的提取时间上，使得单条数据的提取速度较慢。 [0005] 综上所述，以上两种方法存在带宽流量浪费、本地存储空间浪费和兼容性低、稳定性低等问题，并且这些问题都没有得到相互融合和改善。