生物医学文本挖掘目前研究工作综述讲学课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在GENIA语料库上获得了66.5%的准确率, 66.6%的召回率。
其他的系统包括Narayanaswamy等人的、 Settles的以及Mika和Rost的
NER
Chen和Friedman采用MEDLEE系统识别与生物医学文 本中表现型信息对应的短语
利用自然语言方法识别期刊论文摘要中的表现型短 语以及在文本中由分散的词组成的表现型短语。
曾被多个研究者作为命名实体识别组件用于关 系抽取研究当中。
AbGene系统把Brill的词性标注扩展到包括基因 和蛋白质名称作为标记类型
使用生物医学文本的7000个手工标注的句子作 为训练语料
之后AbGene使用手工生成的基于语言统计特性 的后处理规则进一步识别基因名称的上下文以 及消除假阳性假阴性
生物医学文本挖掘目前研究工作 综述
Aaron M. Cohen, MD is a postdoctoral fellow in the medical informatics programme at OHSU. Dr Cohen works in the area of text mining, focusing on issues and applications important to biomedical researchers. He was chairman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Integration Language (SMIL 2.0).
命名实体识别具有挑战性
不存在一个完整的包含各种类型的生物医学命 名实体的字典
相同的词或短语由于上下文不同表达的是不同 的事物
许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题
可能是由多个词构成的词组 例如:颈动脉 carotid artery 因此需要判断实体名称的边界
William Hersh, MD is Professor and Chair of the Department of Medical Informatics & Clinical Epidemiology in the School of Medicine at Oregon Health &Science University (OHSU) in Portland, Oregon. Dr Hersh’s research focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers.
混合方法
系统评价指标
准确率(预测正确的命名实体数除以预 测命名实体总数)
召回率(预测正确的命名实体数除以文 本中的命名实体总数)
召回率和准确率的调和均值 F-measure=2PR/[P+R]
召回率和准确率的平衡点
NER系统
Tanabe和Wilbur开发的AbGene系统是比较成功 的基于规则
HENRY STEWART PUBLICATIONS 1467-5463. BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57–71. MARCH 2005
背景和目的
生物医学文本挖掘的目的是帮助研究者 更加有效地识别所需要的信息以及发现 被大量的可获得信息掩盖的关系
由于研究较少,可获得的表现型相关的术语知识库 较小
自动引入成千上万的与语义类型有关的UMLS术语以 及来自哺乳动物本体的上千个术语,并且还手工加 入了其他术语
对300篇文档进行可行性研究,系统的准确率为64%, 召回率为77.1%。性能低于基因和蛋白质命名实体识 别系统
NER
总之,目前基因和蛋白质NER系统的性能指 标F值大约在75%-85%之间。
方法
基于字典的方法:将自然语言文本与事先存在 的包括大量生物医学命名实体名称的字典词条 进行比对,根据匹配的结果进行实体识别。精 确、模糊匹配
基于规则的方法: 通过规则的定义将实体与其 他文本划分为不同的类,进而识别出来,大写字 母+符号+数字
基于统计的方法: 将命名实体识别问题转化为 分类问题。通过使用分类工具,对训练文本进 行机器学习,进而区分出各种命名实体类型, 最终识别出测试文本中的命名实体。
这个值与2002年Hirschman等人研究的结果和 2004年BioCreative专题讨论会任务1A的结果 一致。
虽然性能最好的系统也没有超过前几年的, 但是研究者对不同数据集采用不同的方法都
模糊匹配(召回率81%、准确率74%、F值 77%)的系统性能好于精确匹配(召回率50%、
准确率59%、F值54%)。
NER
Hanisch等人利用基因与蛋白质名称的大型词典 语义分类可能在蛋白质名称附近出现的词
特异度为95%,敏感度为90% Zhou等人使用基于丰富特征集合的方法训练了
隐马尔可夫模型,【构词特征(大写)、形态 特征(前缀、后缀)、词性特征、语义触发 (核心名词和动词)、别名特征】
就是通过对文献中及生物医学数据库自 由文本中的大量生物医学知识应用算法、 统计方法和数据处理方法,把信息过载 的压力从研究者转嫁给计算机。
目前研究的活跃领域
命名实体识别 文本分类 关系抽取 同义词缩写词提取 假说形成 集成框架
Baidu Nhomakorabea
命名实体识别(NER)
目的是在文本集合中识别出特定类型事 物的所有名称,例如在期刊论文集中识 别出所有药物的名称,在medline摘要 中识别出所有基因名称及符号
系统达到了85.7%的准确率和66.7%的召回率。
NER系统
Chang创建了GAPSCORE系统
根据词的外观、形态和上下文对句子中的每 个词打分,然后采用分类器训练这些特征。 分数较高的词更可能是基因或蛋白质名称或 符号。
利用Yapex语料库进行训练,根据精确匹配和 模糊匹配分别计算召回率、准确率和F值
其他的系统包括Narayanaswamy等人的、 Settles的以及Mika和Rost的
NER
Chen和Friedman采用MEDLEE系统识别与生物医学文 本中表现型信息对应的短语
利用自然语言方法识别期刊论文摘要中的表现型短 语以及在文本中由分散的词组成的表现型短语。
曾被多个研究者作为命名实体识别组件用于关 系抽取研究当中。
AbGene系统把Brill的词性标注扩展到包括基因 和蛋白质名称作为标记类型
使用生物医学文本的7000个手工标注的句子作 为训练语料
之后AbGene使用手工生成的基于语言统计特性 的后处理规则进一步识别基因名称的上下文以 及消除假阳性假阴性
生物医学文本挖掘目前研究工作 综述
Aaron M. Cohen, MD is a postdoctoral fellow in the medical informatics programme at OHSU. Dr Cohen works in the area of text mining, focusing on issues and applications important to biomedical researchers. He was chairman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Integration Language (SMIL 2.0).
命名实体识别具有挑战性
不存在一个完整的包含各种类型的生物医学命 名实体的字典
相同的词或短语由于上下文不同表达的是不同 的事物
许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题
可能是由多个词构成的词组 例如:颈动脉 carotid artery 因此需要判断实体名称的边界
William Hersh, MD is Professor and Chair of the Department of Medical Informatics & Clinical Epidemiology in the School of Medicine at Oregon Health &Science University (OHSU) in Portland, Oregon. Dr Hersh’s research focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers.
混合方法
系统评价指标
准确率(预测正确的命名实体数除以预 测命名实体总数)
召回率(预测正确的命名实体数除以文 本中的命名实体总数)
召回率和准确率的调和均值 F-measure=2PR/[P+R]
召回率和准确率的平衡点
NER系统
Tanabe和Wilbur开发的AbGene系统是比较成功 的基于规则
HENRY STEWART PUBLICATIONS 1467-5463. BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57–71. MARCH 2005
背景和目的
生物医学文本挖掘的目的是帮助研究者 更加有效地识别所需要的信息以及发现 被大量的可获得信息掩盖的关系
由于研究较少,可获得的表现型相关的术语知识库 较小
自动引入成千上万的与语义类型有关的UMLS术语以 及来自哺乳动物本体的上千个术语,并且还手工加 入了其他术语
对300篇文档进行可行性研究,系统的准确率为64%, 召回率为77.1%。性能低于基因和蛋白质命名实体识 别系统
NER
总之,目前基因和蛋白质NER系统的性能指 标F值大约在75%-85%之间。
方法
基于字典的方法:将自然语言文本与事先存在 的包括大量生物医学命名实体名称的字典词条 进行比对,根据匹配的结果进行实体识别。精 确、模糊匹配
基于规则的方法: 通过规则的定义将实体与其 他文本划分为不同的类,进而识别出来,大写字 母+符号+数字
基于统计的方法: 将命名实体识别问题转化为 分类问题。通过使用分类工具,对训练文本进 行机器学习,进而区分出各种命名实体类型, 最终识别出测试文本中的命名实体。
这个值与2002年Hirschman等人研究的结果和 2004年BioCreative专题讨论会任务1A的结果 一致。
虽然性能最好的系统也没有超过前几年的, 但是研究者对不同数据集采用不同的方法都
模糊匹配(召回率81%、准确率74%、F值 77%)的系统性能好于精确匹配(召回率50%、
准确率59%、F值54%)。
NER
Hanisch等人利用基因与蛋白质名称的大型词典 语义分类可能在蛋白质名称附近出现的词
特异度为95%,敏感度为90% Zhou等人使用基于丰富特征集合的方法训练了
隐马尔可夫模型,【构词特征(大写)、形态 特征(前缀、后缀)、词性特征、语义触发 (核心名词和动词)、别名特征】
就是通过对文献中及生物医学数据库自 由文本中的大量生物医学知识应用算法、 统计方法和数据处理方法,把信息过载 的压力从研究者转嫁给计算机。
目前研究的活跃领域
命名实体识别 文本分类 关系抽取 同义词缩写词提取 假说形成 集成框架
Baidu Nhomakorabea
命名实体识别(NER)
目的是在文本集合中识别出特定类型事 物的所有名称,例如在期刊论文集中识 别出所有药物的名称,在medline摘要 中识别出所有基因名称及符号
系统达到了85.7%的准确率和66.7%的召回率。
NER系统
Chang创建了GAPSCORE系统
根据词的外观、形态和上下文对句子中的每 个词打分,然后采用分类器训练这些特征。 分数较高的词更可能是基因或蛋白质名称或 符号。
利用Yapex语料库进行训练,根据精确匹配和 模糊匹配分别计算召回率、准确率和F值