医学自然语言处理概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例: − 可见多发结节影,大小约
1.16X0.98厘米
02 03
06 05
04
语义分析 06
例: − 在“肌力4+级”中“+”表示“强” “头MRI+MRA示”中“+”表示“和”
实体关系抽取 05
例: − 可见多发结节影,大小约
1.16X0.98厘米
04 实体标准化
例: − 胃胀反酸、泛酸、返酸
02
<头颅CT /TES> 平扫见右侧脑室体旁 <腔隙性脑梗死 /DIS >
医学自然语言处理的基本技术
■ 实体标准化
• 医学实体在不同的数据源中存在严重的多元指代问题
■ 关键技术
• 基于医学标准术语库匹配的方法 • 医学知识图谱
如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高
• 基于机器学习的方法
从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典
否
匹配成功
是
记录分词结果,对剩余的字符串继 续重复以上步骤
是
将字符串 长度减少1
剩余字串的长度为零
输出
例:“南京市长江大桥”
1. 设最长词为5 2. 在词典中匹配“市长江大桥” 3. 匹配失败,去掉最前面一个字“市” 4. 匹配“长江大桥”,匹配成功 5. 在词典中剩余字符“南京市”,匹
• 基于词典的标注方法
✓先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注
• 基于规则的标注方法
① 简单处理,得到初标注结果 ② 建立转换规则,修正错误 ③ 得到标注结果
例:
1.初标注:“他/r做/v了/u一/m个/q报告/v” 2.转换规则:
激活环境:该词左边第一个紧邻词的词性是量词(q), 左边第二个词的词性是数词(m)
数据分析
统计分析 机器学习
疾病诊断模式 药物治疗模式 预后评价模式 ……
医学自然语言处理的基本任务
分词 01
例 : “无意识
01
障碍”
− 无 | 意识 | 障碍 无 | 意识障碍
词性标注 02
例: “细菌性痢疾” − 细菌 /n 性 /ng 痢疾 / n
名词
名词性语素
实体识别 03
词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义
✓聚类算法
医学自然语言处理方法总结
■ 基于词典和规则的处理方法
• 词典匹配 • 正则表达式
■ 基于统计的处理方法
• 支持向量机(Support Vector Machine,SVM) • 隐马尔可夫(Hidden Markov Model,HMM) • 条件随机场(Conditional Random Fields,CRF) • 长短时记忆网络(Long Short Term Memory,LSTM) • 卷积神经网络(Convolutional Neural Network ,CNN)
• 采用机器学习方法,基于向量空间模型将实体表示为词向量再学习向量之 间的相似性关系
例: − 2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病 − 冠状动脉支架置入术、冠状动脉支架植入术 − 胃胀反酸、泛酸、返酸
2型糖尿病 冠状动脉支架置入术
胃胀反酸
医学自然语言处理的典型问题
■ 问题二
• 病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯 地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果
(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值 (5)输出层:通过向量映射,得到待预测的类别结果
医学自然语言处理的基本技术
■ 语义分析
例: − 病毒(计算机病毒、生物病毒) − 打球、打电话、打毛衣
• 在词的层次上,语义分析的基本任务是进行词义消歧
• 在句子层面上是语义角色标注
医学自然语言处理的典型问题
◼问题四
• 电子病历中出现大量长句,需要做语义识别
例:
食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌, 肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经, 检出之上下切缘及送检(食管切缘)均未见癌
◼解决方案
key
value
组织学类型 腺癌、粘液腺癌
用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。 对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。 如“首都”和“北京”的语义距离要比“上海”更近
医学自然语言处理的基本技术
诱因
■ 实体关系抽取
• 发现文本中实体对间的各种语义关系
• 机器学习方法
将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上 构造分类器,再用训练得到的分类器抽取测试文本中的实体关系
• 深度学习
医学自然语言处理的基本技术
■ 基于深度学习的实体关系抽取
输入层
编码层
卷积层
池化层 输出层
(1)输入层:需要判别关系类别的实体文本 (2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本 对于一句话中每个单词均为 k 维的词向量,因此对于长度为 n的一句话则可用维度为 n*k的矩阵 (3)卷积层:设计一个过滤器窗口W,其维度为h∗k,h表示窗口所含的单词个数,不断地滑动该窗 口,每次滑动一个位置时,完成非线性激活函数的计算
例:
既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口 服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg 左右
例:
送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第 7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)
◼解决方案
• 病历文本数据挖掘 • 医疗知识库构建 • 病历检索 • ……
电子病历 医学文献 临床指南 健康档案 ……
临床应用
辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索
结构化、标准化
NLP技术
应用实践
可分析的医疗数据
标准化的电子病历 医学知识库 整合后的健康档案 ……
• 在篇章层面上是指代消歧,也称共指消解
■ 基于机器学习的消歧方法
• 有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方
法来区分多义词的词义
✓贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型
• 无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该
例:冠心病、冠状动脉粥样硬化性心脏病、CAD
上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化
医学自然语言处理的典型问题
■ 解决方法
• 采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后 进行匹配
例: 冠心病、冠状动脉粥样硬化性心脏病、CAD
冠状动脉粥样硬化性心脏病
■ 两者融合的方法
03
医学自然语言处理的典型问题
医学自然语言处理的典型问题
■ 问题一
• 有瑕疵的或不规范的输入
例: − 2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病 − 冠状动脉支架置入术、冠状动脉支架植入术 − 胃胀反酸、泛酸、返酸
• 不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临 床医生、病人等)在表达相同或相似概念时其描述方式多种多样
改写规则:将该词的词性从动词(v)改为名词(n) 3.得到标注结果:
“他/r做/v了/u一/m个/q报告/n”
医学自然语言处理的基本技术
■ 实体识别
• 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等
■ 关键技术
• 基于规则的方法
✓ 正则法
配成功 6. 输出结果:
南京市 / 长江大桥
医学自然语言处理的基本技术
例:
名词
名词性语素
■ 词性标注
− 细菌性痢疾
细菌 /n 性 /ng 痢疾 /n
− 胆囊壁明显增厚 胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a
• 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动
词等
■ 关键技术
医学自然语言处理概述
Medical Natural Language Processing
目录
1 医学自然语言处理的基本任务 2 医学自然语言处理的基本技术 3 医学自然语言处理的典型问题 4 我院的实践与总结
01
医学自然语言处理的基本任务
主要用途、基本任务
医学自然语言处理的基本任务
■ 主要用途
✓例:
糖尿病提取药物史 —— 降压药、降糖药
从文本中直接抽取实体即可
侵袭性真菌病提取抗菌药物史 —— 病前30天内使用抗菌药物、长期(超过2周)使
用抗菌药物
不是在文本中直接体现,需要添加复杂的语义分析
• 病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻
■ 关键技术
• 基于词典的分词方法(机械分词法)
按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 ✓逆向最大匹配法 ✓正向最大匹配法 ✓双向匹配法
• 基于机器学习的分词方法
医学自然语言处理的基本技术
■ 基于词典的分词方法
开始
设词典中词语长度的最大值为M
例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”
■ 解决方法
• 正则表达式
抽取目标实体前后出现的否定词
• 实体关系抽取问题
实体识别
共现法 寻找距离相近的实体
判断概念是否具有“否定”的上 下文环境
确定实体关系
医学自然语言处理的典型问题
◼问题三
属于实体关系抽取的一类典型问题
• 医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用 关系、药物疾病对应关系等
分化程度
低分化
肿瘤大小
5x3.5x1.5cm
肿瘤部位
胃食管结合部胃小弯
• 对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络, 将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成 分与上下文的关联度
医学自然语言处理的典型问题
■ 难点问题
• 相同的医学问题、不同的研究目的,提取规则不一样
医学自然语言处理的基本技术
分词、词性标注、实体识别、实体关系抽取、语义分析
医学自然语言处理的基本技术
■ 分词
例:
− “无意识障碍” )
• 分词是将一句话切分成一个个单词的过程
无意识 | 障碍(
) 无 | 意识障碍(✓
■ 分词工具
• 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件
例如: − 患者3天前受凉后出现咳嗽、咳痰
− 高血压病史40 年,口服厄贝沙坦控制可
• 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关
系、基因与疾病的关系等
■ 关键技术
• 实体共现法
认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么 这两个实体相关的可能性很大
例: “乙肝”表示为 [ 0 0 0 1 0 0 0 0 0 0 0 0…] ,“肝硬化”表示为 [ 0 0 0 0 0 0 0 0 1 0 0 0…]
医学自然语言处理的基本技术
■ 基于机器学习的实体识别方法
原始文本
人工特征标注
已标注数据 训练集
训练 特征提取
构建机器学习模型 输出
机器标注结果
输入 测试的未标注文本
病史 高血压 糖尿病
病程 10年 7年
药物治疗 硝苯地平 二甲双胍
淋巴结 第2组 第4组 第7组 第11组 右肺中叶结节
阳性数 0 0 0 0 1
清扫数 1 2 1 1 1
• 建立完备的医学知识库、知识图谱 • LSTM、CNN等算法,建立学习模型,识别疾病——药物之间的关系 • 相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式
测试集
例: 头颅CT检查显示腔隙性脑梗死
1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病; 2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 [ 0 0 0 0 0 1 0 0 0 0 0 0…]—“TES”, [ 0 0 0 0 0 0 0 0 0 0 0 0 1 0…]—“DIS” 3.模 型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:
例:清扫第1组,2组,3组淋巴结 正则表达式:“% [/d] + 组淋巴结”
1组淋巴结、2组淋巴结、3组淋巴结
• 基于机器学习的方法
✓ 词向量表示 将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法
1.16X0.98厘米
02 03
06 05
04
语义分析 06
例: − 在“肌力4+级”中“+”表示“强” “头MRI+MRA示”中“+”表示“和”
实体关系抽取 05
例: − 可见多发结节影,大小约
1.16X0.98厘米
04 实体标准化
例: − 胃胀反酸、泛酸、返酸
02
<头颅CT /TES> 平扫见右侧脑室体旁 <腔隙性脑梗死 /DIS >
医学自然语言处理的基本技术
■ 实体标准化
• 医学实体在不同的数据源中存在严重的多元指代问题
■ 关键技术
• 基于医学标准术语库匹配的方法 • 医学知识图谱
如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高
• 基于机器学习的方法
从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典
否
匹配成功
是
记录分词结果,对剩余的字符串继 续重复以上步骤
是
将字符串 长度减少1
剩余字串的长度为零
输出
例:“南京市长江大桥”
1. 设最长词为5 2. 在词典中匹配“市长江大桥” 3. 匹配失败,去掉最前面一个字“市” 4. 匹配“长江大桥”,匹配成功 5. 在词典中剩余字符“南京市”,匹
• 基于词典的标注方法
✓先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注
• 基于规则的标注方法
① 简单处理,得到初标注结果 ② 建立转换规则,修正错误 ③ 得到标注结果
例:
1.初标注:“他/r做/v了/u一/m个/q报告/v” 2.转换规则:
激活环境:该词左边第一个紧邻词的词性是量词(q), 左边第二个词的词性是数词(m)
数据分析
统计分析 机器学习
疾病诊断模式 药物治疗模式 预后评价模式 ……
医学自然语言处理的基本任务
分词 01
例 : “无意识
01
障碍”
− 无 | 意识 | 障碍 无 | 意识障碍
词性标注 02
例: “细菌性痢疾” − 细菌 /n 性 /ng 痢疾 / n
名词
名词性语素
实体识别 03
词的上下文与各个词义对应上下文的等价类进行比较,通过上下文对应的等价类来确定词的词义
✓聚类算法
医学自然语言处理方法总结
■ 基于词典和规则的处理方法
• 词典匹配 • 正则表达式
■ 基于统计的处理方法
• 支持向量机(Support Vector Machine,SVM) • 隐马尔可夫(Hidden Markov Model,HMM) • 条件随机场(Conditional Random Fields,CRF) • 长短时记忆网络(Long Short Term Memory,LSTM) • 卷积神经网络(Convolutional Neural Network ,CNN)
• 采用机器学习方法,基于向量空间模型将实体表示为词向量再学习向量之 间的相似性关系
例: − 2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病 − 冠状动脉支架置入术、冠状动脉支架植入术 − 胃胀反酸、泛酸、返酸
2型糖尿病 冠状动脉支架置入术
胃胀反酸
医学自然语言处理的典型问题
■ 问题二
• 病历文档经常需要对某些概念进行否定性质的描述,因而要在病历中单纯 地依赖文中有没有出现术语作为信息检索的依据并不能取得好的结果
(4)最大池化层:为了得到最大特征,进行max-over-time操作,取出最大值 (5)输出层:通过向量映射,得到待预测的类别结果
医学自然语言处理的基本技术
■ 语义分析
例: − 病毒(计算机病毒、生物病毒) − 打球、打电话、打毛衣
• 在词的层次上,语义分析的基本任务是进行词义消歧
• 在句子层面上是语义角色标注
医学自然语言处理的典型问题
◼问题四
• 电子病历中出现大量长句,需要做语义识别
例:
食管胃交界部小弯侧溃疡型中-低分化腺癌,部分为粘液腺癌, 肿瘤大小为5x3.5x1.5cm,癌组织侵及胃壁全层,并侵犯神经, 检出之上下切缘及送检(食管切缘)均未见癌
◼解决方案
key
value
组织学类型 腺癌、粘液腺癌
用Word2vec模型对上下文取窗口进行训练,求解最大似然的共现概率。训练完成 后,使用向量余弦相似度计算实体相似性。 对于训练充分的词表示向量而言,一组相似词的向量语义距离更近。 如“首都”和“北京”的语义距离要比“上海”更近
医学自然语言处理的基本技术
诱因
■ 实体关系抽取
• 发现文本中实体对间的各种语义关系
• 机器学习方法
将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标引语料的基础上 构造分类器,再用训练得到的分类器抽取测试文本中的实体关系
• 深度学习
医学自然语言处理的基本技术
■ 基于深度学习的实体关系抽取
输入层
编码层
卷积层
池化层 输出层
(1)输入层:需要判别关系类别的实体文本 (2)编码层:预处理,使用Word2vec训练的向量模型表示实体文本 对于一句话中每个单词均为 k 维的词向量,因此对于长度为 n的一句话则可用维度为 n*k的矩阵 (3)卷积层:设计一个过滤器窗口W,其维度为h∗k,h表示窗口所含的单词个数,不断地滑动该窗 口,每次滑动一个位置时,完成非线性激活函数的计算
例:
既往史:否认肝炎、肺结核、疟疾病史,高血压10年余,糖尿病7年,口 服二甲双胍治疗,血糖控制可,口服硝苯地平,血压维持在130/70mmHg 左右
例:
送检(右肺中叶结节)淋巴结见转移癌(1/1),送检(第2组、第4组、第 7组、第11组)淋巴结未见转移癌(分别为0/1、0/2、0/1、0/1)
◼解决方案
• 病历文本数据挖掘 • 医疗知识库构建 • 病历检索 • ……
电子病历 医学文献 临床指南 健康档案 ……
临床应用
辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索
结构化、标准化
NLP技术
应用实践
可分析的医疗数据
标准化的电子病历 医学知识库 整合后的健康档案 ……
• 在篇章层面上是指代消歧,也称共指消解
■ 基于机器学习的消歧方法
• 有监督:通过建立分类器,根据上下文和标注结果完成分类任务,用划分多义词上下文类别的方
法来区分多义词的词义
✓贝叶斯模型、最大熵模型、支持向量机模型、深度神经网络模型
• 无监督:使用聚类算法对同一个多义词的所有上下文进行等价类划分,在词义识别的时候,将该
例:冠心病、冠状动脉粥样硬化性心脏病、CAD
上述现象本质上是归属于同一类问题,这类问题在通用领域称为实体对齐、实体标准化
医学自然语言处理的典型问题
■ 解决方法
• 采用规则的方法,将实体描述经过一系列规则变换(如,简写转全称)后 进行匹配
例: 冠心病、冠状动脉粥样硬化性心脏病、CAD
冠状动脉粥样硬化性心脏病
■ 两者融合的方法
03
医学自然语言处理的典型问题
医学自然语言处理的典型问题
■ 问题一
• 有瑕疵的或不规范的输入
例: − 2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病 − 冠状动脉支架置入术、冠状动脉支架植入术 − 胃胀反酸、泛酸、返酸
• 不同的数据来源(如病历、医学论文等)或不同的人员(如科研人员、临 床医生、病人等)在表达相同或相似概念时其描述方式多种多样
改写规则:将该词的词性从动词(v)改为名词(n) 3.得到标注结果:
“他/r做/v了/u一/m个/q报告/n”
医学自然语言处理的基本技术
■ 实体识别
• 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等
■ 关键技术
• 基于规则的方法
✓ 正则法
配成功 6. 输出结果:
南京市 / 长江大桥
医学自然语言处理的基本技术
例:
名词
名词性语素
■ 词性标注
− 细菌性痢疾
细菌 /n 性 /ng 痢疾 /n
− 胆囊壁明显增厚 胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a
• 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动
词等
■ 关键技术
医学自然语言处理概述
Medical Natural Language Processing
目录
1 医学自然语言处理的基本任务 2 医学自然语言处理的基本技术 3 医学自然语言处理的典型问题 4 我院的实践与总结
01
医学自然语言处理的基本任务
主要用途、基本任务
医学自然语言处理的基本任务
■ 主要用途
✓例:
糖尿病提取药物史 —— 降压药、降糖药
从文本中直接抽取实体即可
侵袭性真菌病提取抗菌药物史 —— 病前30天内使用抗菌药物、长期(超过2周)使
用抗菌药物
不是在文本中直接体现,需要添加复杂的语义分析
• 病历结构化后,抽取出的信息是孤立的,丢失了大量的时间信息和因果逻
■ 关键技术
• 基于词典的分词方法(机械分词法)
按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 ✓逆向最大匹配法 ✓正向最大匹配法 ✓双向匹配法
• 基于机器学习的分词方法
医学自然语言处理的基本技术
■ 基于词典的分词方法
开始
设词典中词语长度的最大值为M
例:“否认手术史”、“未触及质硬结节”、“支气管断端未见癌”
■ 解决方法
• 正则表达式
抽取目标实体前后出现的否定词
• 实体关系抽取问题
实体识别
共现法 寻找距离相近的实体
判断概念是否具有“否定”的上 下文环境
确定实体关系
医学自然语言处理的典型问题
◼问题三
属于实体关系抽取的一类典型问题
• 医学领域相关实体和实体之间的关系比较复杂,例:蛋白质之间相互作用关系、药物之间相互作用 关系、药物疾病对应关系等
分化程度
低分化
肿瘤大小
5x3.5x1.5cm
肿瘤部位
胃食管结合部胃小弯
• 对于长句语义识别,适合用LSTM网络模型,通过搭建多层复合LSTM网络, 将原语料反向输入生成反向LSTM层,与正向LSTM层相结合,加强关键成 分与上下文的关联度
医学自然语言处理的典型问题
■ 难点问题
• 相同的医学问题、不同的研究目的,提取规则不一样
医学自然语言处理的基本技术
分词、词性标注、实体识别、实体关系抽取、语义分析
医学自然语言处理的基本技术
■ 分词
例:
− “无意识障碍” )
• 分词是将一句话切分成一个个单词的过程
无意识 | 障碍(
) 无 | 意识障碍(✓
■ 分词工具
• 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件
例如: − 患者3天前受凉后出现咳嗽、咳痰
− 高血压病史40 年,口服厄贝沙坦控制可
• 实体关系可以用于构建知识框架,如疾病与药物的关系、症状与疾病的关
系、基因与疾病的关系等
■ 关键技术
• 实体共现法
认为两个相距很近的实体如果以一定的顺序在一个文本语料库中高频率地重复,那么 这两个实体相关的可能性很大
例: “乙肝”表示为 [ 0 0 0 1 0 0 0 0 0 0 0 0…] ,“肝硬化”表示为 [ 0 0 0 0 0 0 0 0 1 0 0 0…]
医学自然语言处理的基本技术
■ 基于机器学习的实体识别方法
原始文本
人工特征标注
已标注数据 训练集
训练 特征提取
构建机器学习模型 输出
机器标注结果
输入 测试的未标注文本
病史 高血压 糖尿病
病程 10年 7年
药物治疗 硝苯地平 二甲双胍
淋巴结 第2组 第4组 第7组 第11组 右肺中叶结节
阳性数 0 0 0 0 1
清扫数 1 2 1 1 1
• 建立完备的医学知识库、知识图谱 • LSTM、CNN等算法,建立学习模型,识别疾病——药物之间的关系 • 相对规范的文本记录(病理报告),可考虑基于规则的方法提取,如正则表达式
测试集
例: 头颅CT检查显示腔隙性脑梗死
1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病; 2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 [ 0 0 0 0 0 1 0 0 0 0 0 0…]—“TES”, [ 0 0 0 0 0 0 0 0 0 0 0 0 1 0…]—“DIS” 3.模 型进行训练,训练完成后对测试文本进行识别,得到机器标注结果:
例:清扫第1组,2组,3组淋巴结 正则表达式:“% [/d] + 组淋巴结”
1组淋巴结、2组淋巴结、3组淋巴结
• 基于机器学习的方法
✓ 词向量表示 将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法