一种用于专利主题词抽取的模板自动生成方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专利标 题 主要 有 简 单 语 句 和标 题 词 两 种 形
式, 对于简 单语 句 较 难 直 接应 用 。 而对 于 标题 词
从专 利 数据 库 中获 得包 含标 题 的摘 要 3 0 0 0 0 篇 。在进行 断 句分 词 等 预 处理 后 , 成 标题 和包 形
形式 的专利 标题 不需 要进行 任何 处理 便可 以用来 在语 句 中定 位模板 槽 。 因此 使用 标题 词与语 句对 作为 训练语 料生 成 信 息 抽取 模 板 , 板 生成 具 体 模
术方案信息抽取 的第一步 , 是填 充信 息抽取结果模 板 的有 效依据 和填充子 之一。将信 息抽取技 术应用于 中文专利摘要文本 , 在充分 分析 了专利摘要文本和专利标题特点 的基础上 , 采用无指 导
的方法构建信息抽取模板 , 进而完成专利 主题词的抽取 。实验表明 , 该方法 获得 了较好 的抽取效
“ ” 代替。特征词是在包含 主题词 的语句 中经
常 出现和最 能代 表 语 句 特 点信 息 的词 汇 , 从 大 是 量 的语 句 中统计并 筛 选获得 的。考察 以下 例子 :
“
一
作者简介 : 王裴岩 (9 3一 , 辽 宁沈 阳人 , 18 ) 男, 在读硕士 , 主要 研究 方向 : 人工 智 能与 自然语 言处 理 , E—ma: 3 2 Y 9 13 ilW8 P 7 0 @ 6 .
种 改进 的新 型衬衫 ” 的 T・ I
系统 自 动 生 成 如 下 模 板 : 一 种 “
第 3期
王裴岩等 : 一种用 于专利 主题词抽取 的模板 自动生成方法
4 7
TL E”
1 3 基 于反 向模 糊 匹配 的模 板槽 定位 方 法 .
2 实验及结果分析
2 1 实验 语料 及评 测方法 .
步 。一方面 , 解决使用 词袋 ( a o — rs模 B g— f Wod)
型表示专利文本信 息时 , 主要描述对象存 在歧 义 的 问题 L 以及专 利标 题 对 主要 描述 对象 描 述不 准 l 确 和不全面的问题 。另一 方面 , 解决 目前 关系 抽取 任务仅 关 注 出 现 在 同 一 语 句 中 的关 键 词 间 的 关 系 J较难将 核心描述对 象与其 他关键 词关联 在 ,
同时 进 行 描 述 的现 象 。 因此 提 出单 一 主 题 词假 设 。
技术关键词 。工 作 是专利 技 术方 案信 息抽 取 的第
一
单一主题词假设 : 专利说明书及 专利摘要 的主要描述对象有 且仅有一个 , 即在包含主题词的语句中有且仅有一个主题词 。 12 模板自动构建方法的依据及模 板形式描述 .
果。
关键词 : 中文专利摘要文本 ; 专利 主题 词 ; 无指导 ; 模板
中图 分 类 号 :P 9 . T 311 文 献标 识 码 : A
பைடு நூலகம்
将 信息抽取技术应用 于 中文专利摘要 文本 , 抽
取 专利主题词 , 即用 以表述发 明或实 用新 型名称 的
的标题称为标题词。专 利文献所介 绍的发 明创 造往往是 一种产 品、 装置 、 设备或是一种 方法、 工艺 , 很少 会出现对 多个发 明创造
一
发 明创 造 的名称 会在 文本 开头首 先 阐述 。因
此将 分句后 的首 句 提 取 出 , 中抽 取 主题 词 。要 从 抽取 的主题 词应 与专 利 标 题所 包 含 的信 息一 致 。
如 图 1所示 :
起 的问题 。再者 , 在识 别 出 核心 描述 对 象之 后 ,
便可 以利用其他 关键词与该词 的潜在关 系 , 仅使 用 语义角色便可判 断其他词与该词 的关 系 , 减少关 键
词关系判断 中参 与判 断 的关 键 词对 的数量 。 因此
本文 的工作是 填充 信 息抽取 结果 模板 的有效 依 据
和填充子之一 。
1 模 板 自动 生成 方法
1 1 概 念定 义 .
图 1 标 题 与 文 本 对 实 例
利用 这一 现象 使用专 利标 题 与包 含 主题词 信 息 的语句 作为 模板 构 建 语 料 , 专 利标 题 在 包 含 用
主 题词信 息 的语 句 中定 位 模 板 的槽 , 通 过 选 取 并 特征 词 和适 当的泛化 , 构建 主题 词抽 取模板 。 该模 板是对 句 子 中被抽 取 部 分 、 征 词 以及 特
为表 述方 便 , 涉及 的概 念在此 作如 下定 义 : 将
专利 主题 词 : 利 主题 词是 专 利摘 要 的主 要 专
00 3 1 第27 年 6 2 卷 第月 期
Ju a o hn沈 阳航 空ueo 院oa ta E gne n o rl f e yn nt 工 业f e学 报 l nier g n S a g stt 学 rnui I i A c i
Jn2 l u .0 0
V0 . 7 No 3 12 .
描 述对象 , 是用 以表 述 发 明或 实 用 新 型名 称 的技
术关 键词 。
标题 词 : 利标题 主要 可分 为两 种形式 : 单 专 简 语句 和单一 技术关 键 词 。将 单一 技术 关键 词类 型
收稿 日期 :0 0—0 2 2 1 4~ 6
它们 之 间 次 序 的抽 象 。句 子 中 的被 抽 取 部 分 由 “ IL ” TT E 节点 代 替 , 为 模 板 的 槽 ; 征 词 保 留 ; 作 特 被 抽 取 部 分 与 特 征 词 之 间 的 字 符 串 用 通 配 符
文章编号 :0 7—18 (0 0 0 04 0 10 3 5 2 1 ) 3— 0 6— 4
一
种 用 于专 利 主题 词抽 取 的模 板 自动 生成 方 法
王裴 岩 张桂 平 蔡 东风 白 宇 叶 娜
( 阳航空航天大学 知识工程研究中心 , 宁 沈阳 沈 辽 10 3 ) 116
摘
要: 专利主题词是用以表述发明或实用新 型名称 的技术关键词 , 利主题词 的抽 取是专利 技 专