医学自然语言处理概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
<头颅CT /TES> 平扫见右侧脑室体旁 <腔隙性脑梗死 /DIS >
医学自然语言处理的基本技术
■ 实体标准化
• 医学实体在不同的数据源中存在严重的多元指代问题
■ 关键技术
• 基于医学标准术语库匹配的方法 • 医学知识图谱
如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高
• 基于机器学习的方法
• 基于词典的标注方法
✓先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注
• 基于规则的标注方法
① 简单处理,得到初标注结果 ② 建立转换规则,修正错误 ③ 得到标注结果
例:
1.初标注:“他/r做/v了/u一/m个/q报告/v” 2.转换规则:
激活环境:该词左边第一个紧邻词的词性是量词(q), 左边第二个词的词性是数词(m)
数据分析
统计分析 机器学习
疾病诊断模式 药物治疗模式 预后评价模式 ……
医学自然语言处理的基本任务
分词 01
例 : “无意识
01
障碍”
− 无 | 意识 | 障碍 无 | 意识障碍
词性标注 02
例: “细菌性痢疾” − 细菌 /n 性 /ng 痢疾 / n
名词
名词性语素
实体识别 03
■ 关键技术
• 基于词典的分词方法(机械分词法)
按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 ✓逆向最大匹配法 ✓正向最大匹配法 ✓双向匹配法
• 基于机器学习的分词方法
医学自然语言处理的基本技术
■ 基于词典的分词方法
开始
设词典中词语长度的最大值为M
测试集
例: 头颅CT检查显示腔隙性脑梗死
1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病; 2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 [ 0 0 0 0 0 1 0 0 0 0 0 0…]—“TES”, [ 0 0 0 0 0 0 0 0 0 0 0 0 1 0…]—“DIS” 3.模 型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:
例:清扫第1组,2组,3组淋巴结 正则表达式:“% [/d] + 组淋巴结”
1组淋巴结、2组淋巴结、3组淋巴结
• 基于机器学习的方法
✓ 词向量表示 将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法
• 病历文本数据挖掘 • 医疗知识库构建 • 病历检索 • ……
电子病历 医学文献 临床指南 健康档案 ……
临床应用
辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索
结构化、标准化
NLP技术
应用实践
可分析的医疗数据
标准化的电子病历 医学知识库 整合后的健康档案 ……
例: “乙肝”表示为 [ 0 0 0 1 0 0 0 0 0 0 0 0…] ,“肝硬化”表示为 [ 0 0 0 0 0 0 0 0 1 0 0 0…]
医学自然语言处理的基本技术
■ 基于机器学习的实体识别方法
原始文本
人工特征标注
已标注数据 训练集
训练 特征提取
构建机器学习模型 输出
机器标注结果
输入 测试的未标注文本
医学自然语言处理的基本技术
分词、词性标注、实体识别、实体关系抽取、语义分析
医学自然语言处理的基本技术
■ 分词
例:
− “无意识障碍” )
• 分词是将一句话切分成一个个单词的过程
无意识 | 障碍(
) 无 | 意识障碍(✓
■ 分词工具
• 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件
用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。 对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。 如“首都”和“北京”的语义距离要比“上海”更近
医学自然语言处理的基本技术
诱因
■ 实体关系抽取
• 发现文本中实体对间的各种语义关系
例: − 可见多发结节影,大小约
1.16X0.98厘米
02 03
06 05
04
语义分析 06
例: − 在“肌力4+级”中“+”表示“强” “头MRI+MRA示”中“+”表示“和”
实体关系抽取 05
例: − 可见多发结节影,大小约
1.16X0.98厘米
04 实体标准化
例: − 胃胀反酸、泛酸、返酸
02
从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典
否
匹配成功
是
记录分词结果,对剩余的字符串继 续重复以上步骤
是
将字符串 长度减少1
剩余字串的长度为零
输出
例:“南京市长江大桥”
1. 设最长词为5 2. 在词典中匹配“市长江大桥” 3. 匹配失败,去掉最前面一个字“市” 4. 匹配“长江大桥”,匹配成功 5. 在词典中剩余字符“南京市”,匹
配成功 6. 输出结果:
南京市 / 长江大桥
医学自然语言处理的基本技术
例:
名词
名词性语素
■ 词性标注
− 细菌性痢疾
细菌 /n 性 /ng 痢疾 /n
− 胆囊壁明显增厚 胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a
• 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动
词等
ቤተ መጻሕፍቲ ባይዱ■ 关键技术
医学自然语言处理概述
Medical Natural Language Processing
目录
1 医学自然语言处理的基本任务 2 医学自然语言处理的基本技术 3 医学自然语言处理的典型问题 4 我院的实践与总结
01
医学自然语言处理的基本任务
主要用途、基本任务
医学自然语言处理的基本任务
■ 主要用途
例如: − 患者3天前受凉后出现咳嗽、咳痰
− 高血压病史40 年,口服厄贝沙坦控制可
• 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关
系、基因与疾病的关系等
改写规则:将该词的词性从动词(v)改为名词(n) 3.得到标注结果:
“他/r做/v了/u一/m个/q报告/n”
医学自然语言处理的基本技术
■ 实体识别
• 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等
■ 关键技术
• 基于规则的方法
✓ 正则法
医学自然语言处理的基本技术
■ 实体标准化
• 医学实体在不同的数据源中存在严重的多元指代问题
■ 关键技术
• 基于医学标准术语库匹配的方法 • 医学知识图谱
如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高
• 基于机器学习的方法
• 基于词典的标注方法
✓先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注
• 基于规则的标注方法
① 简单处理,得到初标注结果 ② 建立转换规则,修正错误 ③ 得到标注结果
例:
1.初标注:“他/r做/v了/u一/m个/q报告/v” 2.转换规则:
激活环境:该词左边第一个紧邻词的词性是量词(q), 左边第二个词的词性是数词(m)
数据分析
统计分析 机器学习
疾病诊断模式 药物治疗模式 预后评价模式 ……
医学自然语言处理的基本任务
分词 01
例 : “无意识
01
障碍”
− 无 | 意识 | 障碍 无 | 意识障碍
词性标注 02
例: “细菌性痢疾” − 细菌 /n 性 /ng 痢疾 / n
名词
名词性语素
实体识别 03
■ 关键技术
• 基于词典的分词方法(机械分词法)
按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 ✓逆向最大匹配法 ✓正向最大匹配法 ✓双向匹配法
• 基于机器学习的分词方法
医学自然语言处理的基本技术
■ 基于词典的分词方法
开始
设词典中词语长度的最大值为M
测试集
例: 头颅CT检查显示腔隙性脑梗死
1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病; 2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 [ 0 0 0 0 0 1 0 0 0 0 0 0…]—“TES”, [ 0 0 0 0 0 0 0 0 0 0 0 0 1 0…]—“DIS” 3.模 型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:
例:清扫第1组,2组,3组淋巴结 正则表达式:“% [/d] + 组淋巴结”
1组淋巴结、2组淋巴结、3组淋巴结
• 基于机器学习的方法
✓ 词向量表示 将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法
• 病历文本数据挖掘 • 医疗知识库构建 • 病历检索 • ……
电子病历 医学文献 临床指南 健康档案 ……
临床应用
辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索
结构化、标准化
NLP技术
应用实践
可分析的医疗数据
标准化的电子病历 医学知识库 整合后的健康档案 ……
例: “乙肝”表示为 [ 0 0 0 1 0 0 0 0 0 0 0 0…] ,“肝硬化”表示为 [ 0 0 0 0 0 0 0 0 1 0 0 0…]
医学自然语言处理的基本技术
■ 基于机器学习的实体识别方法
原始文本
人工特征标注
已标注数据 训练集
训练 特征提取
构建机器学习模型 输出
机器标注结果
输入 测试的未标注文本
医学自然语言处理的基本技术
分词、词性标注、实体识别、实体关系抽取、语义分析
医学自然语言处理的基本技术
■ 分词
例:
− “无意识障碍” )
• 分词是将一句话切分成一个个单词的过程
无意识 | 障碍(
) 无 | 意识障碍(✓
■ 分词工具
• 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件
用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。 对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。 如“首都”和“北京”的语义距离要比“上海”更近
医学自然语言处理的基本技术
诱因
■ 实体关系抽取
• 发现文本中实体对间的各种语义关系
例: − 可见多发结节影,大小约
1.16X0.98厘米
02 03
06 05
04
语义分析 06
例: − 在“肌力4+级”中“+”表示“强” “头MRI+MRA示”中“+”表示“和”
实体关系抽取 05
例: − 可见多发结节影,大小约
1.16X0.98厘米
04 实体标准化
例: − 胃胀反酸、泛酸、返酸
02
从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典
否
匹配成功
是
记录分词结果,对剩余的字符串继 续重复以上步骤
是
将字符串 长度减少1
剩余字串的长度为零
输出
例:“南京市长江大桥”
1. 设最长词为5 2. 在词典中匹配“市长江大桥” 3. 匹配失败,去掉最前面一个字“市” 4. 匹配“长江大桥”,匹配成功 5. 在词典中剩余字符“南京市”,匹
配成功 6. 输出结果:
南京市 / 长江大桥
医学自然语言处理的基本技术
例:
名词
名词性语素
■ 词性标注
− 细菌性痢疾
细菌 /n 性 /ng 痢疾 /n
− 胆囊壁明显增厚 胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a
• 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动
词等
ቤተ መጻሕፍቲ ባይዱ■ 关键技术
医学自然语言处理概述
Medical Natural Language Processing
目录
1 医学自然语言处理的基本任务 2 医学自然语言处理的基本技术 3 医学自然语言处理的典型问题 4 我院的实践与总结
01
医学自然语言处理的基本任务
主要用途、基本任务
医学自然语言处理的基本任务
■ 主要用途
例如: − 患者3天前受凉后出现咳嗽、咳痰
− 高血压病史40 年,口服厄贝沙坦控制可
• 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关
系、基因与疾病的关系等
改写规则:将该词的词性从动词(v)改为名词(n) 3.得到标注结果:
“他/r做/v了/u一/m个/q报告/n”
医学自然语言处理的基本技术
■ 实体识别
• 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等
■ 关键技术
• 基于规则的方法
✓ 正则法