基于BP神经网络的专利自动分类方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要:提出 了一种 基于 后向 传播 神经 网络 的专 利自 动分 类 方法 。通 过中 文分 词从 专利 文件 集中 提取特征项 ,并根据 特征 项在 专利文件中出现 的频率赋予其 权重,从而 将每篇专利文 件表示为一个特 征项向量。为取 得较好的 BP 神经网络 (BPN) 训 练效 果,使用 X2 统计 方法进行特征向 量降维,并使用 BPN 专利 分类器进行专利 文件分类。用国 际分类号为 H02 下的专 利文 件作 为测试数据,取 得了较好的分类 效果。 关键 词:专利文件; 自动分类; 神经 网络; 特征项; 国际专利分类 中图 法分类号:TP183 文献标 识码:A 文章编号:1000-7024 (2010) 23-5075-04
0引言
所谓分类就是通过主题匹配、相似度计算等方法,将文件分 配到一个或多个预先定义的文件类别的过程。从数学角度看, 分类是一个映射的过程,即将未知类别的待分类文件映射到已 有的类别中。传统的文本分类由相应领域的专家手工操作。这 种方式,在很大程度上受到领域专家个人能力的限制。且随着 文本量的快速增长,手工分类成为一件耗时、耗力的工作。在这 种背景下,文本自动分类技术应运而生,并成为一大研究热点。
5076 2010,31 (23)
计算机工程与设计 Computer Engineering and Design
向量 di=(w1i,w2i, …,wki,…wmi),其中 wki 为特征项 k 在特征向量中 的权重,wki 越大,表示特征项 k 代表文档 di 的能力越强,反之 越 差 。 专 利 文 件 的 向 量 空 间 表 示 需 要 经 过 文 件 预 处 理 、权 重 计算两个过程。
Automated categorization of patent based on back-propagation network
LI Sheng-zhen1, WANG Jian-xin1, QI Jian-dong1, ZHU Li-jun2 (1. School of Informatics, Beijing Forestry University, Beijing 100083, China; 2. Institute of Scientific and Technical Information of China, Beijing 100083, China)
专利作为一种特殊的文本,包含着技术、市场与其它类型 资 料 的 关 系 等 多 方 面 的 大 量 信 息 ,已 经 引 起 了 人 们 的 高 度 重 视 。 根 据 世 界 知 识 产 权 组 织 的 统 计 ,专 利 文 献 含 有 世 界 每 年 发明创造成果的 90~95% 。 [1] 世界上每年的专利申请量以 100 多万件的速度递增,目前累计总量已近 4000 万件,我国专利 数量已在 200 万件以上。充分利用这些专利文献进行技术创 新能节约 60%时间,节省 40%的科研资金投入 。 [2]
1 专利分类系统架构
1.1 专 利 文 件 表 示 由 于 计 算 机 不 具 备 人 类 的 智 能 ,因 此 在 对 专 利 文 件 的 所
有 分 析 处 理 前 ,首 先 必 须 将 其 转 化 为 计 算 机 能 够 识 别 的 形 式 。 本 文 使 用 向 量 空 间 模 型 (VSM)[4]表 示 专 利 文 件 。向 量 空 间 模 型 的基本思想是将每一篇文档都表示成一组特征项组成的特征
李生珍,王建新,齐建东,等计:算基于机工BP程神与经网设络计的C专om利p自ut动er 分En类gin方ee法ring and Design 智能技术
2010,31 (23) 5075
基于 BP 神经网络的专利自动分类方法
李生珍 1, 王建新 1, 齐建东 1, 朱礼军 2 (1. 北京林业大学 信息学院,北京 100083;2. 中国科学技术信息研究所,北京 100083)
为 了 快 速 从 这 些 海 量 数 据 中 找 到 所 需 要 的 专 利 信 息 ,每 件核准的专利都会依其技术内容被分配至某一个国际专利分 类码 IPC(international patent classification) 中。IPC 是目前国际 上通用的专利分类系统,它按照部、大类、小类、主组、分组 5 级分类。通过 IPC 技术分类,可以反映技术的发展周期,监测 竞 争 对 手 的 技 术 动 态 ,发 现 潜 在 对 手 ,分 析 并 制 定 竞 争 策 略 。 判断专利主题的 IPC 分类需要专业知识,对于非专业人员来 说 很 困 难 [3],因 而 需 要 专 利 的 自 动 分 类 技 术 。本 文 采 用 后 向 传 播的神经网络算法实现专利自动分类。
Abstract:A patent categorization method based on back-propagation network is proposed. First, extracting feature phrases from patent document set by Chinese word segmentation and determining the weight of feature phrases according to their frequency in patent text. Then, each patent is presented by a feature phrases vector. In order to get a better performance of back-propagation network (BPN) training, X2 statistical methods is applied to eigenvector dimension reduction. Then, patents are automatically classified using pretrained BPN models. Patents whose IPC is H02 are used as test files. The result shows the system has a good classification accuracy and efficiency. Key words:patent; automated classification; neural networks; feature phrases; IPC
经过以上处理后得到的向量空间存在维数过高的缺点,
如 将 该 向 量 集 直 接 作 为 神 经 网 络 分 类 器 的 输 入 ,必 将 严 重 影
响 分 类 器 的 学 习 速需 对 原
特 征 项 集 进 行 特 征 选 择 操 作 ,筛 除 那 些 表 现 力 不 强 的 特 征 项 ,
别 哪 些 项 在 文 件 中 有 较 强 的 代 表 性 ,可 能 保 留 下 来 做 后 续 分
析处理。本文采用基于相对词频计算的加权词频 TF-IDF 算
法 。 其 基 本 思 想 是 :特 征 项 出 现 次 数 于 其 对 文 本 的 重 要 性 成
正比。TF-IDF 有多种计算公式,为使神经网络的输入用归一
形 成 新 的 有 效 特 征 项 集 。新 特 征 项 集 应 该 能 够 表 示 专 利 文 件
集 的 内 容 ,且 可 以 以 它 为 依 据 实 现 专 利 文 件 分 类 。
特 征 选 择 操 作 一 般 是 构 造 一 个 评 价 函 数 ,对 原 特 征 集
中的 每 个 特 征 项 进 行独 立 评 估 ,计 算得 到 的 评 估 分 作 为特
征项 的 权 重 ,选 取权 重 在 某 一 阈 值 范围 内 的 特 征 项 组 成新
的特征项集。
本文使用的特征评价方法为 X2(CHI)统计[6]。它度量特征
不但 此外 否则 还是 接着 例如 乃至 尚且 通过 以至于 综上所述
经 过 专 利 分 词 和 去 除 停 用 词 处 理 后 ,每 一 篇 专 利 文 档 都
被表示为一个由一系列特征项组成的向量。
(2) 权 重 计 算
计 算 特 征 项 的 权 重 对 特 征 项 的 选 择 非 常 重 要 ,它 可 以 区
(1) 专 利 文 件 预 处 理 专 利 文 件 预 处 理 即 特 征 项 选 择 的 过 程 ,其 目 标 是 剔 除 文 件 中 与 分 类 任 务 无 关 的 内 容 ,并 将 文 件 转 化 为 特 征 项 向 量 。该 过 程 主 要 包 括 专 利 分 词 、去 除 停 用 词 。 读入一组专利文献,每一篇都包含标题、摘要、申请人、主 权 项 等 。 由 于 专 利 文 献 没 有 关 键 词 这 一 特 殊 性 ,而 标 题 和 摘 要 最 能 代 表 专 利 文 献 的 内 容 ,因 此 本 文 仅 对 专 利 标 题 和 摘 要 进 行 分 词 处 理 。 因 为 分 词 不 是 本 文 的 重 点 工 作 ,所 以 采 用 公 开发布供中文文本分类研究使用的汉语词法分析系统 ICTCLAS(/Download.html ),该系统由中国科学 院计算机研究所开发。 停用词包括很多虚词、介词、副词,它们不表示实际意义, 在 文 章 中 仅 起 到 结 构 作 用 ,此 外 还 有 一 些 出 现 频 率 较 高 ,但 在 每 篇 文 档 中 出 现 概 率 基 本 相 等 对 分 类 作 用 不 大 的 词 。本 文 使 用 /down/740407/zxlxstly 提供的停用词 列表,表 1 是停用词列表的一部分。依据停用词列表,去除分 词后特征项列表中的停用词。
表 1 停用词列表 (部分)
按照 不管 的话 根据 或者 结果 两者 宁可 虽然 为什么 由此可见
停用词列表
本着 除此之外
等 关于 即使 尽管 另外 其中 甚至 相对而言 与此同时
比方 从而 对于 何况 既然 开始 每当 如果 随着 无论 之所以
并且 但是 多少 还有 假如 可是 某个 如上所述 他们 要不然 总而言之
收稿日期:2010-01-05;修订日期:2010-05-27。 基金项目:国家“十一五”科技支撑计划基金项目 (2006BAH03B03);中央高校基本科研业务费专项基金项目 (YX2010-30);中国科学技术信息 研究所重点工作基金项目 (200KP01-3-1)。 作者简介:李生珍 (1985-),女,青海人,硕士,研究方向为数据挖掘技术、计算机软件与理论; 王建新 (1973-),男,山东人,博士,副教 授,研究方向为数据挖掘技术; 齐建东 (1976-),男,内蒙古人,博士,副教授; 朱礼军 (1974-),男,副研究员,研究方向为 Semantic Web 技术在电子政务、电子商务领域的应用。E-mail:conquer_zhen@
化的向量表示,文中采用归一化的 TF-IDF 公式[5]
( , )=
1+log2 , × log2 / 1+log2 , × log2 / 2
式中:W(k,d)——特征项 k 在文件 d 中的权重,kf(k,d)——特征
项 k 在文件 d 中出现的频率,N——训练文本的总数,nk——训 练文本集中出现 k 的文本数,分母为归一化因子。
经过分词和权重计算后,专利文献集被表示成为了 m× n
的特征项-专利文件矩阵
m× n = [ ]
式中:m ——专利文件集中包含的不同特征项的个数,aij —— TF-IDF 公式计算得到的 wij,表示第 i 个特征项在第 j 个专利文 件中出现的权重。特征项对应矩阵 A 的行,每一篇专利文件
对应矩阵 A 的一列。 1.2 特 征 向 量 降 维
0引言
所谓分类就是通过主题匹配、相似度计算等方法,将文件分 配到一个或多个预先定义的文件类别的过程。从数学角度看, 分类是一个映射的过程,即将未知类别的待分类文件映射到已 有的类别中。传统的文本分类由相应领域的专家手工操作。这 种方式,在很大程度上受到领域专家个人能力的限制。且随着 文本量的快速增长,手工分类成为一件耗时、耗力的工作。在这 种背景下,文本自动分类技术应运而生,并成为一大研究热点。
5076 2010,31 (23)
计算机工程与设计 Computer Engineering and Design
向量 di=(w1i,w2i, …,wki,…wmi),其中 wki 为特征项 k 在特征向量中 的权重,wki 越大,表示特征项 k 代表文档 di 的能力越强,反之 越 差 。 专 利 文 件 的 向 量 空 间 表 示 需 要 经 过 文 件 预 处 理 、权 重 计算两个过程。
Automated categorization of patent based on back-propagation network
LI Sheng-zhen1, WANG Jian-xin1, QI Jian-dong1, ZHU Li-jun2 (1. School of Informatics, Beijing Forestry University, Beijing 100083, China; 2. Institute of Scientific and Technical Information of China, Beijing 100083, China)
专利作为一种特殊的文本,包含着技术、市场与其它类型 资 料 的 关 系 等 多 方 面 的 大 量 信 息 ,已 经 引 起 了 人 们 的 高 度 重 视 。 根 据 世 界 知 识 产 权 组 织 的 统 计 ,专 利 文 献 含 有 世 界 每 年 发明创造成果的 90~95% 。 [1] 世界上每年的专利申请量以 100 多万件的速度递增,目前累计总量已近 4000 万件,我国专利 数量已在 200 万件以上。充分利用这些专利文献进行技术创 新能节约 60%时间,节省 40%的科研资金投入 。 [2]
1 专利分类系统架构
1.1 专 利 文 件 表 示 由 于 计 算 机 不 具 备 人 类 的 智 能 ,因 此 在 对 专 利 文 件 的 所
有 分 析 处 理 前 ,首 先 必 须 将 其 转 化 为 计 算 机 能 够 识 别 的 形 式 。 本 文 使 用 向 量 空 间 模 型 (VSM)[4]表 示 专 利 文 件 。向 量 空 间 模 型 的基本思想是将每一篇文档都表示成一组特征项组成的特征
李生珍,王建新,齐建东,等计:算基于机工BP程神与经网设络计的C专om利p自ut动er 分En类gin方ee法ring and Design 智能技术
2010,31 (23) 5075
基于 BP 神经网络的专利自动分类方法
李生珍 1, 王建新 1, 齐建东 1, 朱礼军 2 (1. 北京林业大学 信息学院,北京 100083;2. 中国科学技术信息研究所,北京 100083)
为 了 快 速 从 这 些 海 量 数 据 中 找 到 所 需 要 的 专 利 信 息 ,每 件核准的专利都会依其技术内容被分配至某一个国际专利分 类码 IPC(international patent classification) 中。IPC 是目前国际 上通用的专利分类系统,它按照部、大类、小类、主组、分组 5 级分类。通过 IPC 技术分类,可以反映技术的发展周期,监测 竞 争 对 手 的 技 术 动 态 ,发 现 潜 在 对 手 ,分 析 并 制 定 竞 争 策 略 。 判断专利主题的 IPC 分类需要专业知识,对于非专业人员来 说 很 困 难 [3],因 而 需 要 专 利 的 自 动 分 类 技 术 。本 文 采 用 后 向 传 播的神经网络算法实现专利自动分类。
Abstract:A patent categorization method based on back-propagation network is proposed. First, extracting feature phrases from patent document set by Chinese word segmentation and determining the weight of feature phrases according to their frequency in patent text. Then, each patent is presented by a feature phrases vector. In order to get a better performance of back-propagation network (BPN) training, X2 statistical methods is applied to eigenvector dimension reduction. Then, patents are automatically classified using pretrained BPN models. Patents whose IPC is H02 are used as test files. The result shows the system has a good classification accuracy and efficiency. Key words:patent; automated classification; neural networks; feature phrases; IPC
经过以上处理后得到的向量空间存在维数过高的缺点,
如 将 该 向 量 集 直 接 作 为 神 经 网 络 分 类 器 的 输 入 ,必 将 严 重 影
响 分 类 器 的 学 习 速需 对 原
特 征 项 集 进 行 特 征 选 择 操 作 ,筛 除 那 些 表 现 力 不 强 的 特 征 项 ,
别 哪 些 项 在 文 件 中 有 较 强 的 代 表 性 ,可 能 保 留 下 来 做 后 续 分
析处理。本文采用基于相对词频计算的加权词频 TF-IDF 算
法 。 其 基 本 思 想 是 :特 征 项 出 现 次 数 于 其 对 文 本 的 重 要 性 成
正比。TF-IDF 有多种计算公式,为使神经网络的输入用归一
形 成 新 的 有 效 特 征 项 集 。新 特 征 项 集 应 该 能 够 表 示 专 利 文 件
集 的 内 容 ,且 可 以 以 它 为 依 据 实 现 专 利 文 件 分 类 。
特 征 选 择 操 作 一 般 是 构 造 一 个 评 价 函 数 ,对 原 特 征 集
中的 每 个 特 征 项 进 行独 立 评 估 ,计 算得 到 的 评 估 分 作 为特
征项 的 权 重 ,选 取权 重 在 某 一 阈 值 范围 内 的 特 征 项 组 成新
的特征项集。
本文使用的特征评价方法为 X2(CHI)统计[6]。它度量特征
不但 此外 否则 还是 接着 例如 乃至 尚且 通过 以至于 综上所述
经 过 专 利 分 词 和 去 除 停 用 词 处 理 后 ,每 一 篇 专 利 文 档 都
被表示为一个由一系列特征项组成的向量。
(2) 权 重 计 算
计 算 特 征 项 的 权 重 对 特 征 项 的 选 择 非 常 重 要 ,它 可 以 区
(1) 专 利 文 件 预 处 理 专 利 文 件 预 处 理 即 特 征 项 选 择 的 过 程 ,其 目 标 是 剔 除 文 件 中 与 分 类 任 务 无 关 的 内 容 ,并 将 文 件 转 化 为 特 征 项 向 量 。该 过 程 主 要 包 括 专 利 分 词 、去 除 停 用 词 。 读入一组专利文献,每一篇都包含标题、摘要、申请人、主 权 项 等 。 由 于 专 利 文 献 没 有 关 键 词 这 一 特 殊 性 ,而 标 题 和 摘 要 最 能 代 表 专 利 文 献 的 内 容 ,因 此 本 文 仅 对 专 利 标 题 和 摘 要 进 行 分 词 处 理 。 因 为 分 词 不 是 本 文 的 重 点 工 作 ,所 以 采 用 公 开发布供中文文本分类研究使用的汉语词法分析系统 ICTCLAS(/Download.html ),该系统由中国科学 院计算机研究所开发。 停用词包括很多虚词、介词、副词,它们不表示实际意义, 在 文 章 中 仅 起 到 结 构 作 用 ,此 外 还 有 一 些 出 现 频 率 较 高 ,但 在 每 篇 文 档 中 出 现 概 率 基 本 相 等 对 分 类 作 用 不 大 的 词 。本 文 使 用 /down/740407/zxlxstly 提供的停用词 列表,表 1 是停用词列表的一部分。依据停用词列表,去除分 词后特征项列表中的停用词。
表 1 停用词列表 (部分)
按照 不管 的话 根据 或者 结果 两者 宁可 虽然 为什么 由此可见
停用词列表
本着 除此之外
等 关于 即使 尽管 另外 其中 甚至 相对而言 与此同时
比方 从而 对于 何况 既然 开始 每当 如果 随着 无论 之所以
并且 但是 多少 还有 假如 可是 某个 如上所述 他们 要不然 总而言之
收稿日期:2010-01-05;修订日期:2010-05-27。 基金项目:国家“十一五”科技支撑计划基金项目 (2006BAH03B03);中央高校基本科研业务费专项基金项目 (YX2010-30);中国科学技术信息 研究所重点工作基金项目 (200KP01-3-1)。 作者简介:李生珍 (1985-),女,青海人,硕士,研究方向为数据挖掘技术、计算机软件与理论; 王建新 (1973-),男,山东人,博士,副教 授,研究方向为数据挖掘技术; 齐建东 (1976-),男,内蒙古人,博士,副教授; 朱礼军 (1974-),男,副研究员,研究方向为 Semantic Web 技术在电子政务、电子商务领域的应用。E-mail:conquer_zhen@
化的向量表示,文中采用归一化的 TF-IDF 公式[5]
( , )=
1+log2 , × log2 / 1+log2 , × log2 / 2
式中:W(k,d)——特征项 k 在文件 d 中的权重,kf(k,d)——特征
项 k 在文件 d 中出现的频率,N——训练文本的总数,nk——训 练文本集中出现 k 的文本数,分母为归一化因子。
经过分词和权重计算后,专利文献集被表示成为了 m× n
的特征项-专利文件矩阵
m× n = [ ]
式中:m ——专利文件集中包含的不同特征项的个数,aij —— TF-IDF 公式计算得到的 wij,表示第 i 个特征项在第 j 个专利文 件中出现的权重。特征项对应矩阵 A 的行,每一篇专利文件
对应矩阵 A 的一列。 1.2 特 征 向 量 降 维