专利文本分类的基础问题研究_屈鹏
一种文本分类方法以及装置[发明专利]
专利名称:一种文本分类方法以及装置专利类型:发明专利
发明人:王李鹏
申请号:CN201910234804.0
申请日:20190326
公开号:CN109992667A
公开日:
20190709
专利内容由知识产权出版社提供
摘要:本申请提供了一种文本分类方法以及装置,其中,该方法包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在待分类文本中的次数;根据多个文本分类子模型分别使用的样本词汇,将样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定待分类文本的分类结果。
本申请实施例在对文本进行分类时,具有更高的分类精度,满足较高精度的分类需求,进而基于该分类结果进行后续处理时,效率更高。
申请人:新华三大数据技术有限公司
地址:450000 河南省郑州市高新技术产业开发区杜英街166号总部大观B18号楼
国籍:CN
代理机构:北京超成律师事务所
代理人:刘静
更多信息请下载全文后查看。
专利基础知识和申请文件的撰写简介
图的,对照附图
2024/9/7
18
专利申请文件的撰写
说明书撰写的要求Βιβλιοθήκη ➢ A26.3:说明书应当对发明或者实用新型作出 清楚、完整的说明,以所述技术人员能够实现 为准
2024/9/7
42
专利申请文件的撰写
权利要求技术方案缺少必要技术特征
独立权利要求不是完整的技术方案
如,发明所要解决的问题是“使得装置A、B之间能 够活动连接”,说明书中明确指出是通过“铰链连 接”,而在权利要求中没有记载特征“铰链连接”。
独立权利要求的技术方案不能解决其技术问题
如,权利要求1,一种废气净化方法,其特征是使 气体通过一种由A和B组成的洗涤液。说明书中明确 指出洗涤液在使用前必须进行氧化处理,否则不能 达到废气净化的目的。
➢ 保护范围最大
从属权利要求
➢ 对所引用权利要求的技术特征做进一步限定,也可以 是增加的技术特征
➢ 保护范围小于权利要求
2024/9/7
32
专利申请文件的撰写
权利要求撰写中的问题 ➢ 权利要求没有得到说明书的支持 ➢ 权利要求不清楚 ➢ 权利要求技术方案缺少必要技术特征
2024/9/7
33
专利申请文件的撰写
2024/9/7
25
案例
申请人的陈述:该有机稳定剂并不是本 发明的发明点,而在该反应中添加的稳 定剂的类型是本领域技术人员公知的 结果:审查员以公开不充分的理由将该 申请驳回
2024/9/7
26
案例
申请号:95197649.4
申请介绍:涉及一种两亲化合物及其各 种类型的用途
基于专利文本的技术领域分析与研究
基于专利文本的技术领域分析与研究随着科技的不断发展和进步,各行各业都在不断地进行技术创新和研发。
在技术创新中,专利是重要的标志和财富。
而专利文本则是专利的基础和精华,通过对专利文本的分析和研究,可以揭示出技术的演变和发展趋势,为技术创新提供有力的支持和指引。
一、基于专利文本的技术领域分析技术领域分析是指对特定技术领域内的专利文本进行系统和综合的分析,从而获得该领域内的技术发展趋势、技术演变路径、技术关键点等信息。
具体来说,技术领域分析包括以下步骤:1.建立技术领域内的专利数据集专利数据集是技术领域分析的基础,它是根据专利检索式所得到的专利集合。
专利检索式可以根据需求的不同进行调整,以便获取到更加精准的专利数据。
2.利用NLP技术进行专利文本预处理专利文本预处理是指对专利文本进行清洗、分词、词频统计等处理,以便后续的数据分析。
在预处理中,可以利用自然语言处理(NLP)技术进行自动化处理,如分词、词性标注、实体识别等,以提高处理的效率和准确性。
3.应用文本挖掘技术进行技术关键词提取文本挖掘技术是指从大量的文本数据中自动提取有用的信息和知识,并进行可视化和整合。
在技术领域分析中,可以应用文本挖掘技术进行技术关键词提取,以发现领域内的技术热点和趋势。
4.基于专利文本进行技术演化分析在技术领域分析中,可以基于专利文本进行技术演化分析,以揭示出该领域内的技术演变路径和趋势。
技术演化分析可以通过网络图、演化树等方式进行可视化展示,以便更好地理解和分析演化过程。
5.应用模型和算法进行技术预测和分析在技术领域分析中,可以应用机器学习、数据挖掘等模型和算法进行技术预测和分析,以发现领域内的技术未来发展趋势和潜在机会。
这些模型和算法可以通过对专利数据集的训练和建模来实现。
二、基于专利文本的技术领域研究除了技术领域分析外,专利文本还可以用于技术领域研究。
技术领域研究是指在对技术领域分析的基础上,深入分析和研究特定的技术问题或领域现象,以得到深层次的认识和洞察。
文本分类技术在专利数据分析中的应用与发展
文本分类技术在专利数据分析中的应用与发展随着科技的发展和创新的推动,专利数据分析在法律、商业和科技领域中扮演着越来越重要的角色。
专利数据中蕴含着宝贵的信息,通过对专利数据进行分析和理解,可以帮助我们了解技术、市场和竞争状况。
而在这个过程中,文本分类技术的应用和发展对于专利数据的分析起着关键的作用。
文本分类技术是一种自然语言处理(NLP)技术,它旨在将文本按照其内容的主题或类别进行分类。
随着文本数量的不断增加,传统的人工分类已经无法满足效率和准确性的要求。
而文本分类技术的应用,则可以提高分类的速度和准确性,从而实现对大规模专利数据的快速分析。
在专利数据分析中,文本分类技术主要应用于以下几个方面:1. 技术领域的标签化:专利数据一般包含大量的文本描述和附图,研究人员需要将其进行分类。
通过文本分类技术,可以将专利文本按照其所属的技术领域进行自动标签化。
这样一来,研究人员可根据不同的技术领域对专利文本进行组织和分析,更好地理解和研究相关的技术。
2. 专利检索:在进行专利检索时,文本分类技术可以对专利文本进行自动分类,将其归入不同的类别,使得研究人员可以更加准确地获取与自己研究领域相关的专利文本。
这有助于提高专利检索的效率和准确性。
3. 技术趋势分析:通过对专利数据进行文本分类,可以帮助研究人员分析不同技术领域的发展趋势。
通过分析特定技术领域的专利数量和类别分布,可以了解该领域的热点和趋势,从而为技术研发投入和商业决策提供依据。
4. 竞争对手分析:专利数据中还包括了竞争对手的专利信息,通过对这些专利文本进行分类,可以辨别不同竞争对手的技术优势和创新方向。
这对于企业竞争战略的制定和市场定位具有重要意义。
除了在应用方面,文本分类技术在专利数据分析中还面临着一些发展的挑战和机遇。
下面我们来简要讨论一下:1. 多语言处理:专利文本来自于不同国家和地区,语言种类繁多。
对于文本分类技术来说,多语言处理是一个重要的挑战。
【CN110209812A】文本分类方法和装置【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910376447.1(22)申请日 2019.05.07(71)申请人 北京地平线机器人技术研发有限公司地址 100080 北京市海淀区中关村大街1号3层318(72)发明人 冷婷 (74)专利代理机构 北京思源智汇知识产权代理有限公司 11657代理人 毛丽琴(51)Int.Cl.G06F 16/35(2019.01)G06F 17/27(2006.01)(54)发明名称文本分类方法和装置(57)摘要本公开实施例公开了一种文本分类方法和装置,其中,文本分类方法包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;对第二文本进行分词,得到词汇集合;基于词汇集合确定第一文本的类别信息。
本公开实施例中,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。
权利要求书2页 说明书11页 附图4页CN 110209812 A 2019.09.06C N 110209812A权 利 要 求 书1/2页CN 110209812 A1.一种文本分类方法,包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,所述命名实体标记是对所述第一文本进行命名实体标注后得到的;基于所述具有命名实体标记的词汇,对所述第一文本进行转换,得到第二文本;对所述第二文本进行分词,得到词汇集合;基于所述词汇集合确定所述第一文本的类别信息。
2.根据权利要求1所述的方法,其中,所述确定待分类的第一文本中的具有命名实体标记的词汇,包括:将所述第一文本输入预先训练的命名实体标注模型,得到命名实体标记,其中,所述命名实体标记对应于所述第一文本包括的词汇,其中,所述命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。
基于图神经网络的专利文本分类研究
基于图神经网络的专利文本分类研究
魏雯婕;张更平
【期刊名称】《竞争情报》
【年(卷),期】2024(20)2
【摘要】传统专利分类由专家逐件审阅,随着大数据、人工智能和自然语言处理技术的快速发展,专利文本自动分类正在成为学界、业界的重要研究方向之一。
文本分类技术可以用于判断专利申请是否获得授权,帮助审查员自动化处理和分析专利申请文件,从而提高工作效率。
针对海量专利的英文文本,提出一种基于图神经网络模型的专利文本自动分类方法,用于测度专利申请是否可获得授权。
使用深度学习算法TextGCN对专利摘要语料进行学习和训练,利用图结构数据的邻居信息和节点特征,通过神经网络产生专利文本的表示向量,进而实现专利授权与否的预测。
实验结果表明,本文采用的深度学习算法能够得到较好的分类效果,并且与Doc2vec和TFIDF表示方法相比,该模型在精确度、召回率、准确率及F1方面均有所提高,可为专利授权与否的自动预测提供可靠的研究依据。
【总页数】11页(P24-34)
【作者】魏雯婕;张更平
【作者单位】同济大学图书馆
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于卷积神经网络与随机森林算法的专利文本分类模型
2.一种基于多维度图神经网络的短文本分类方法
3.基于注意力门控图神经网络的文本分类
4.基于双图神经网络信息融合的文本分类方法
5.基于预训练模型和图神经网络的藏文文本分类研究
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
38
现代图书情报技术
总第 231 期 2013 年
第3 期
类效果, 而非特征本身具有很好的性质 ( 如专指性) 。 因此, 有必要对术语作为特征的分类效果进行研究 。 ( 2 ) 主权项分类的相关问题 。 主权项是专利特有 的字段, 通常认为其用于文本挖掘的价值高于摘要 。 但是, 主权项本身较为特殊, 如它仅由一个长句子构 在分类时可能存在特征数量不足的问题 。 因此, 需 成, 要研究主权项分类的效果和改善等相关问题 。 ( 3 ) 相近主题对专利文本分类结果的影响 。 专利 文本分类由实际需求驱动, 其类目设置与专利的使用 具有相近的主题 。 这些相近的主题对分类 密切相关, 结果是否有影响以及如何解决这一问题, 是本文所要 讨论的内容之一 。 同时, 它又与使用《国际专利分类 ( International Patent Classification,IPC ) 作 为 分 类 表》 体系有紧密关系 。 尽管本文从信息分析工作出发研究专利文本挖掘 的问题, 但是这些问题对专利而言是基础性的, 从任何 本文并 角度研究专利文本内容时均不可回避 。 因此, “面向信息分析 ” 未冠以 的定语; 研究结论也基本适用 于面向其他应用的专利文本挖掘 。
[10 ]
使
kNN 和 SNoW 等分类器在 WIPO 用 SVM 、 朴素贝叶斯 、 - alpha 集 合 上 进 行 试 验 。 该 集 合 包 括 114 个 大 类 、 451 个小类的 75 250 篇专利 。 研究结果显示: 在同样 SVM 的效果最好; IPC 小类分类的结果 的试验设置下, 不如 IPC 大类分类的结果 。 除上述基于内容的专利文本分类研究之外, 还有 基于引用关系的分类 。 Lai 等
①特征术语是名词词组, 而一般特征词未必是名词词组。 ②为达到一定程度的专指性, 特征术语需要 达 到 三个 词 以上的长度; 对应地, 一般特征词可以是任意长度。
[4 ]
的层次分类法在 IPC 大类水平上使用余弦
相似度, 小类水平上使用 kNN。 他们的数据来自于中 国专利数据库, 共 1 500 篇; 其类目体系分别选取三个 大类下的各两个小类, 分类结果在大类和部分小类上 但 是 在 另 外 一 些 小 类 上 分 准 率 不 高。 李 生 珍 理想, 等
收稿日期: 2013 - 03 - 08 收修改稿日期: 2013 - 03 - 15 * 本文系第 51 批中国博士后科学基金面上资助一等资助项目 “科技文本信息资源中术语抽取与基于术语的分类与聚类 ” ( 项目编号: 2012M510040 ) 和中国科学技术信息研究所学科建设项目 “自然语言处理” ( 项目编号: XK2012 - 6 ) 的研究成果之一。
本领域研究概况
目前, 大部分专利文本分类研究仍注重改造已有
3
3. 1
研究内容与研究方法
研究过程与试验设定 本研究由一系列分类试验构成, 评价指标主要采
的算法并将其应用于专利; 分类体系主要参考 IPC ; 数 从专利局申请数据或从 据来源有三种: NTCIR 的数据 、 数据库下载数据 。以下相关研究按其采用的类目水平 由部到组的顺序做一概述 。 李程雄等
[11 ]
依据专利之间的同引
关系, 使用主成份分析的方法对专利文本进行分类 。 Li 等[12]则结合使用核函数和引用网络对纳米技术的 专利进行分类 。 以上研究虽然提供了重要的参考数据与结论, 但 对专利在文本分类中体现出的 仍是围绕模型或算法, 特点研究较少, 本文则尝试在这一方面进行研究 。
2
使用 SVM 和 kNN 结合的方法, 在7 个
[2 ]
部的 8 个大类下进行试验, 是 IPC 部水平的分类研究 。 华南理工大学的研究团队分别使用核向量空间 叶斯模型
[3 ]
和贝
, 对从广东省知识产权局获取的 14 400 篇
A23 、 A43 和 专利 进 行 分 类 。 类 目 体 系 分 别 在 A01 、 A61 下各选取一个小类, 是 IPC 大类水平的分类研究 。 蒋健安等
SVM
89. 33 400 800 / 集合
3. 3
分类器 ( 1 ) 特征选取方法 特征选取分为三步: 文本预处理, 去掉无意义字符
IDF 筛选 按卡方筛选 按 TF按卡方筛选 IDF 加权 按 TFIDF 加权 和加权 按 TFk = 3 线性核函数
和停用词, 还原词干; 以词频和字符串之间的包含关系 提取候选特征词 ( 或特征术语) ; 计算候选特 为依据, 征词( 或特征术语) 的权重, 以确定用于分类的特征词 ( 或特征术语) 。 14] 根据文献[ 定义, 结合专利文本分类的试验设 定, 对特征术语规定如下:
Fundamental Research Questions in Patent Text Categorization
Qu Peng Wang Huilin ( Institute of Scientific & Technical Information of China,Beijing 100038 ,China) 【Abstract】The paper focuses on some fundamental problems in patent text categorization,including the feasibility of using terms for automatic categorization,the research on claim categorization,and the effect of classes with close - related topics on the categorization result. The research is executed on two Naive Bayesian classifiers,kNN,Racchio and SVM classifier ,and cross validation is used for testing. The results of the paper are that terms are better than common features under the same settings,that training a classifier with abstracts can improve the claim categorization results, and that classes with close - related topics result in low precision and hierarchical design of classifier is necessary,correspondingly. The paper provides fundamental data for patent text categorization and can be referred by information analysis and other applications using patents. 【Keywords】Patent Text categorization Text mining
[13 ] 原工具采用 Porter Stemmer 。
嵌入到整个专利文本分类系统之中 。与通常采用径向 试验结果显示 基函数作为文本分类核函数有所不同, 线性核函数更适应本文的专利文本分类任务, 在此特 别说明 。 ( 3 ) 现有分类器的效果 为检验这些分类器的分类效果和适应性, 选择合 在大量交叉验证试验的基础上得到在 适的参数设置, 如表 1 目前试验条件下最优平均分准率及参数设置, 所示:
[1 ]
用平均分准率 。 首先实现试验所需的分类器, 然后通过调节参数, 使分类器达到在目前试验条件下的最优状态, 在确认 其能够基本满足后续研究要求的基础上, 使用这些分 类器进行研究 。 除主权项的分类外, 其余研究均使用交叉验证的 方法。即在本试验中将每个类目下的专利平均分成 5 份, 每次试验抽取其中的 4 份作为训练集, 剩余 1 份作 为测试集 。多次试验后计算平均分准率 。 本试验获得的数据集存在类目间分布不均匀的问 题, 采用随机抽样的方法解决该问题 。 即每次抽取 N 篇( N 小于各类目下可用于训练的文档数的最小值) , 使每次训练时各类下的文档数量均衡 。N 是后续研究 所使用的一个重要参数 。 在主权项分类的研究中, 训练集( 摘要) 和测试集 ( 主权项) 自然分离, 没有必要使用交叉验证的方法, 直接在摘要中抽取样本, 同时使用全部专利的主权项 XIANDAI TUSHU QINGBAO JISHU
知识组织与知识管理
专利文本分类的基础问题研究
屈 鹏 王惠临 北京 100038 ) ( 中国 科学 技术 信息 研究 所
*
【摘要】对专利文本分类中的基础问题进行研究, 包括术语作为专利文本分类特征的适用性, 主权项字段分类研 kNN、 Racchio 和支持向量机等 5 个分类器上 究和相近主题对分类结果的影响等 。研究在两种朴素贝叶斯分类器 、 进行, 测试主要采用交叉验证的方法 。研究结果显示, 在同样的设定下, 采用术语作为特征的分类结果优于使用 对主权项进行分类有助于改善主权项的分类效果; 相近主题会降低分准率, 有必要设 一般特征词; 使用摘要训练, 计层次的分类器进行分类试验 。研究结果可以为专利文本分类研究和实践提供参考数据, 并可作为信息分析等 工作使用专利文本分类技术的参考 。 【关键词】专利 文本分类 文本挖掘 【分类号】G353. 1
1
引
言
近年来, 专利得到信息分析工作的重视, 其重要性不亚于科技论文和科技报告 。 信息分析工作对专利文本挖 “工程” — — 将已有的模型、 掘的需求也更深入广泛 。这种面向具体应用的文本挖掘研究通常带有 性质— 方法应用于 研究对象, 验证所提出算法的有效性。但是, 专利具有一定的特殊性, 专利文本挖掘也因此需要解决特有的问题。 本文研究三个与专利文本分类相关的问题: ( 1 ) 使用术语作为特征与使用一般特征词的分类效果比较 。通常认为术语比一般特征词具有更高的专指性, 其 用于分类的效果也更好 。 但这仅是理论推断, 缺乏必要的数据支持 。 文本自动分类的特征选取原则是优化分