中文专利文献术语抽取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Te c h n o l o g y Un i v e r s i t y , B e i j i n g 1 0 0 1 0 1 , C h i n a ; 2 .B e i j i n g T R S I n f o r ma t i o n Te c h n o l o g y C o . , L t d ,B e i j i n g 1 0 0 1 0 1 , C h i n a )
Ab s t r a c t :To d e a l wi t h t h e p r o b l e m o f p a t e n t t e r mi n o l o g y e x t r a c t i o n ,a me t h o d b a s e d o n t h e b o n d i n g s t r e n g t h a n d c h a r a c t e r f i l t e — r i n g i s p r o p o s e d .B a s e d o n c h a r a c t e r i s t i c s o f p a t e n t t e r ms ,t h e c o mb i n a t i o n d e g r e e o f b o u n d a r y - t o - b o u n d a r y a n d s t r i n g - t o - b o u n d a — r y o f s t r i n g s a r e p r o p o s e d t o me a s u r e t h e b o n d i n g s t r e n g t h . Ba s e d o n t h e s e ,a me t h o d f o r f i l t e r i n g t wo c h a r a c t e r t e r ms i s p r o — p o s e d a c c o r d i n g t o t h e i n t e r n a l s t r u c t u r e o f p a r t - o f - s p e e c h i n t h e t e r m ,a n d i s c o mb i n e d wi t h t h e c a l c u l a t i n g me t h o d wh i c h i s b a s e d o n b o n d i n g s t r e n g t h .Ex p e r i me n t s s o w h t h a t t h e p r o p o s e d me t h o d i s p r a c t i c a b l e o n e x t r a c t i n g Ch i n e s e p a t e n t t e r ms .Th e
关 键 词 :术 语 ;边 界 结 合 度 ; 串边 结 合 度 ;双 字词 性 过 滤 法 中 图 法 分 类 号 :T P 3 9 1 . 1 文献标识号 : A 文 章 编 号 :1 0 0 0 — 7 0 2 4( 2 0 1 3 )0 6 — 2 1 7 5 — 0 5
Ch i n e s e p a t e n t t e r mi n o l o g y e x t r a c t i o n
( 1 . 北 京信 息科技 大学 网络 文化 与数 字传播 北 京 市重点 实验 室 ,北京 1 0 0 1 0 1 ; 2 . 北京拓 尔思信 息技 术股份 有 限公 司,北京 1 0 0 1 0 1 )
摘 要 :为 了有效解决 专利 文献 中术语抽取 问题 ,提 出采用字符 串之 间的结合 强度融合 词性 过滤法抽取 术语的方 法。根据
2 0 1 3年 6月
计算机 工程 与设计
COM P U TER ENGI NEERI NG AND DES I GN
J u n . 2 0 1 3
Vo 1 . 3 4 No . 6
第 3 4卷
Βιβλιοθήκη Baidu
第 6期
中文专 利文献术 语抽 取
徐 川 ,施 水 才 ,房 祥 。 , 吕 学强 ,
XU Ch u a n ,S HI S h u i — c a i ,FANG Xi a n g ,LU Xu e — q i a n g ’
( L B e i j i n g K e y L a b o r a t o r y o f I n t e r n e t C u l t u r e a n d Di g i t a l D i s s e mi n a t i o n R e s e a r c h ,B e i j i n g I n f o r ma t i o n S c i e n c e a n d
专利文献 中术语 出现的特点 ,提 出了字符 串之 间的边界 结合 度方法和字符 串之 间的 串边 结合 度方法 ,度量 了字符 串间的结 合强度。在此基础之上 ,根据术语 内部结构 中词性 的组 成特 点 ,提 出了术语双 字词性过 滤的方法 ,并与 结合 强度的计 算方 法进行融合 。实验结果表 明,该方法对 中文专利术语抽取有很好 的效果 ,平均正确率为 8 O . 2 4 ,平均 召回率为 8 O . 6 1 。