基于堆积策略的电子病历实体识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ab s t r a c t : Wi t h g o v e r n m e n t s i n c r e a s i n g i n v e s t m e n t s i n h e a l t h i n f o r ma t i o n s y s t e ms , i n f o r ma t i o n e x t r a c t i o n i n E MR ( e l e c t r o n —
邓 本洋 ,吕新波 , 关 毅
( 哈尔滨工业大学 计算机科学与技术学院 。 哈尔滨 1 5 0 0 0 1 )
摘 要 : 随着各国政府对健康 医疗信息系统的投入 , 电子病历信 息挖掘得 到越来越多学者的关注。与传统的文本相比, 电子病 历
有其 自身的特点. 。在 2 0 1 0年 i 2 b 2举办的评测 中 , 概念抽取任务最好系统的 F值为0 . 8 5 2 3 , 与传统 的命 名实体识别效果有一定差 距 。使用 了 C R F 、 最大熵两种模型建立 了 b a s e l i n e 系统并且使用堆积策略综合两者 的结果 , 使得系统的 F 值达到 了9 1 . 1 %。
c h a r a c t e r i s t i c s .I n 2 01 0 i 2 b 2 / VA c h a l l e n g e .F v lu a e o f t h e b e s t s y s t e m i n c o n c e p t e x t r a c t i o n t a s k r e a c h e s 0 . 8 5 2 3 .T h e r e g a w e d g e b e t we e n c o n c e p t e x t r a c t i o n i n E MR a n d t r a d i t i o n a l n a me e n t i t y r e c o g n i t i o n s .I n o r d e r t o e x t r a c t r e l e v a n t c o n c e p t s i n EMR mo r e p r e c i s e l y ,t h i s a r t i c l e u s e s C RF,ma x i mu m e n t r o p y t o e s t a b l i s h b a s e l i n e s y s t e ms .T h e i n t e g r a t e d c l a s s i ie f r p r e — d i c t i o n s w i t h t h e s t a c k i n g s t r a t e g y a r e v e r y r e ma r k a b l e,ma k i n g t h e s y s t e m F v a l u e r e a c h e d 9 1 . 1 %. Ke y wo r d s : EMR;C o n c e p t E x t r a c t i o n;S t a c k i n g Me t h o d
关键 词 : 电子病历 ; 实体识别 ; 堆积策略
中图分类号 : T P 3 9 1
文献标识码 : A
文章编号 : 2 0 9 5—2 1 6 3 ( 2 0 1 4) 0 1— 0 0 6 9—0 4
Co nc e pt Ex t r a c t i o n i பைடு நூலகம் EM R ba s e d o n S t a c ki ng Me t ho d
0 引 言
电子病 历 ( e l e c t r o n i c m e d i c a l r e c o r d s , E MR) 是 电子化 的 医疗记录 , 能够为健康管理提供信息处理相关 工具… 。随着
的结果上看 , 最优系统 的 F值 ( 系统性能指标 ) 为0 . 8 5 2 3 , 与通用领域命名实 体识别 存在 较大 的差距 。电子病 历 中实
第 4卷 第 1期
2 0 1 4年 2月
智 能 计 算 机 与 应 用
I NTELLI GENT C0MPUT ER AND APPL I CATI ONS
Vo 1 . 4 No . 1 F e b . 2 01 4
基 于 堆 积 策 略 的 电 子 病 历 实体 识 别
DENG Be n y a n g.LV Xi n b o.GUAN Yi
( S c h o o l o f C o mp u t e r S c i e n c e a n d T e c h n o l o g y ,Ha r b i n I n s i f mt e o f T e c h n o l o g y ,Ha r b i n 1 5 0 0 0 1 , Ch i n a )
体识别 的难度 主要 有 以下 几个方 面 的原 因 : 实 体数量 多 , 现
i c me d i c a l r e c o r d) h a s d r a w n mo r e a n d mo r e s c h o l a r s ’a t t e n t i o n .C o mp a r e d wi t h t h e t r a d i t i o n l a t e x t ,EMR h a s i t s o w n