电子病历的命名实体识别方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可移植性强; 性能优异;
依赖标注数据的质量和 规模; 特征工程复杂;
基于深度神经 表示学习:词嵌入模型+字符嵌入模型 ; 无复杂特征工程; 受限于大规模医疗语料 性能逼近传统方法; 仍然依赖外部词典; 网络的方法 神经网络模型:CNN+RNN; 标注工具
cTAKEs、MetaMap、ConText
借助海量词典; 仅适用于英文 适合集成到其他模型
基于传统机器学习的方法
□
常见模型
■ ■ ■ ■ ■
隐马尔可夫模型(HMM) 决策树(Decision Trees) 最大熵马尔可夫模型( MEMM) 结构化支持向量机(SSVM) 条件随机场(CRF)
输出独立性假设 局部最优解和标记偏见
HMM
MEMM
□
特征工程
特征(features)
□
定义:为模型而设计的针对词的各类属性值
□
MUC-6首次提出
■
IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC、ACE等
□
预定义类别
实体类:人名、地名、组织机构名。。。 ■ 时间类:时间、日期。。。 趋于成熟 ■ 数字类:货币、百分比。。。
■
F1:91%
□
常见工具:
■
Stanford NER,Fundan NER
面向电子病历的命名实体识别方法
技术创新,变革未来
报告大纲
□ □ □ □ □ □
背景及意义 问题定义 常用方法介绍 相关评测及公开数据集
最新研究工作
思考与展望
背景及意义——开放领域
互联网 用户 语义搜索
精准化搜索
提问、log 答案
文本
采集信息
结构化数据 非结构化数据
NLP
理解用户 智能交互
问答系统
背景及意义——电子病历命名实体识别
临床智能支持
海量电子 病历文本
信息抽取 语义化
循证医学研究 疾病监控 ……
医生专业知识
患者健康信息
医疗实体识别是实现电子病历语义化的基础
电子病历命名实体识别的挑战
□
电子病历文本的非规范性和专业性
■
■ ■
非规范的语法、拼写错误、不完整的句子结构 包含大量专业术语、受控词汇、缩略语、符号等 特殊的文法和句法
Pb Pi Pb Pi Pi Pi
毕 I I 式 吻 合 术 , A解剖部位
Pi Pi Pi O
S症状 T检查检验 D疾病 P手术
电子病历命名实体识别方法归纳及对比
方法 基于字典和 规则的方法 说明 优点 缺点 手工构造规则模板; 模式和字符串匹配; 依赖字典的建立; 传统模型:HMM、SSVM,CRF; 基于传统机器 特征工程; 学习的方法 标注数据训练; 规则匹配语言特征时 依赖专家; 性能优异; 规则定义复杂; 无需标注数据; 难以移植;
■ ■ ■
布尔值(boolean values) 数字(numeric values) 名义值(nominal values)
首字母是否大写 字符串长度 单词的大写形式
□
常见分类:
■
■ ■
词级别特征(word-level features) 字典特征(lexicon features) 文档语料特征(corpus features)
词序列
疾病、症状、治疗、药物等
□
输出:
■
■
标签序列:������ = ������1, ������, ⋯ ������|������|
复合标签:������������ ∈ ������ = ������������ ∀������ ∈ ������, ∀������ ∈ ������ −
������
嵌套、结构化 跳跃、非连续 电子病历数据难以公开:患者隐私和保密性要求 标注成本高:医疗专家的指导和参与
□
医疗实体的独特性
■ ■
□
标注语料的稀缺性
■ ■
非连续实体
拼写错误 (错别字)
嵌套实体
句子语法成 分不完整
电子病历实体类别
□
隐私信息(PHI)
■
■
去隐私化需求 患者、医生以及医疗机构的名称、编号、住址等…… 疾病、症状、检查、治疗、药物等
∪ {������}, ������ = {������, ������, ������}
B: Begin I: Inside O: Other
序列标注示例 患 者 因 上 腹 部 隐 痛 不 适 3 月 于 2014 年 4 月
O O O O O O O O O Ab Ai Ai Sb O O O O O O O O O O O O O O Si O O Sb Si O O Ti O Pi Pi Ti O O O O O O Di Di
药品属性:剂量、施治方式、施治频次、施治持续时间等 疾病与症状修饰成分:当前的、否认、既往史、非患者本人、待证实等. 治疗和病情发展的时序性 与医疗事件和实体相关的时间表达式
□
医疗实体
■
□
属性及修饰成分
■ ■
□பைடு நூலகம்
时间信息
■ ■
形式化问题定义
NER
□
序列标注
输入:
■ ■
电子病历文本:������ = ������1, ������2, ⋯ ������|������| 预定义类别: ������ = ������1, … ������ ������
就 诊 我 院 门 诊 , 行 胃 镜 病 理 示 低 分 化 腺 癌,
Tb Ti O Pi O Pi Db Di Di
后 入 住 我 院 胃 肠 外 科 于 2014 年 5 月 6 日
O O O O O Pi Pi Pi Pi O
在 全 麻 下 予 行 根 治 性 远 端 胃 大 部 切 除 、
位置 关系
清华大学 清华 清华学堂 清华学校
附属 关系
机构成 立时间
1911年
知 识
中国首都 北京市
教育部
开放领域命名实体识别(NER)
□
任务定义
识别字符串边界 ■ 归类到预定义类别
■
清华大学/O,简称清华/O,旧称清华学堂/O、清 华学校/O,位于中国首都/L-北京市/L,始建于1911 年/T,是教育部/O直属的一所全国重点综合性大学。
智能化搜索
结构化数据
信息抽取
细粒度挖掘
理解文档 抽取信息
背景及意义——开放领域
将非结构化文本转换成结构化知识
信息抽取(IE)
命名实体识别
共指消解、关系抽取
文 本
清华大学,简称清华,旧称 清华学堂、清华学校,位于 中国首都-北京市,始建于 1911年,是教育部直属的 一所全国重点综合性大学。
清华大学,简称清华,旧称 清华学堂、清华学校,位于 中国首都-北京市,始建于 1911年,是教育部直属的 一所全国重点综合性大学。