生物医学文本挖掘目前研究工作综述讲学课件

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在GENIA语料库上获得了66.5%的准确率， 66.6%的召回率。
其他的系统包括Narayanaswamy等人的、 Settles的以及Mika和Rost的
NER
Chen和Friedman采用MEDLEE系统识别与生物医学文本中表现型信息对应的短语
利用自然语言方法识别期刊论文摘要中的表现型短语以及在文本中由分散的词组成的表现型短语。
曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。
AbGene系统把Brill的词性标注扩展到包括基因和蛋白质名称作为标记类型
使用生物医学文本的7000个手工标注的句子作为训练语料
之后AbGene使用手工生成的基于语言统计特性的后处理规则进一步识别基因名称的上下文以及消除假阳性假阴性
生物医学文本挖掘目前研究工作综述
Aaron M. Cohen, MD is a postdoctoral fellow in the medical informatics programme at OHSU. Dr Cohen works in the area of text mining, focusing on issues and applications important to biomedical researchers. He was chairman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Integration Language (SMIL 2.0).
命名实体识别具有挑战性
不存在一个完整的包含各种类型的生物医学命名实体的字典
相同的词或短语由于上下文不同表达的是不同的事物
许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题
可能是由多个词构成的词组例如：颈动脉 carotid artery 因此需要判断实体名称的边界
William Hersh, MD is Professor and Chair of the Department of Medical Informatics & Clinical Epidemiology in the School of Medicine at Oregon Health &Science University (OHSU) in Portland, Oregon. Dr Hersh’s research focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers.
混合方法
系统评价指标
准确率（预测正确的命名实体数除以预测命名实体总数）
召回率（预测正确的命名实体数除以文本中的命名实体总数）
召回率和准确率的调和均值 F-measure=2PR/[P+R]
召回率和准确率的平衡点
NER系统
Tanabe和Wilbur开发的AbGene系统是比较成功的基于规则
HENRY STEWART PUBLICATIONS 1467-5463. BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57–71. MARCH 2005
背景和目的
生物医学文本挖掘的目的是帮助研究者更加有效地识别所需要的信息以及发现被大量的可获得信息掩盖的关系
由于研究较少，可获得的表现型相关的术语知识库较小
自动引入成千上万的与语义类型有关的UMLS术语以及来自哺乳动物本体的上千个术语，并且还手工加入了其他术语
对300篇文档进行可行性研究，系统的准确率为64%，召回率为77.1%。性能低于基因和蛋白质命名实体识别系统
NER
总之，目前基因和蛋白质NER系统的性能指标F值大约在75%-85%之间。
方法
基于字典的方法：将自然语言文本与事先存在的包括大量生物医学命名实体名称的字典词条进行比对，根据匹配的结果进行实体识别。精确、模糊匹配
基于规则的方法: 通过规则的定义将实体与其他文本划分为不同的类，进而识别出来,大写字母+符号+数字
基于统计的方法: 将命名实体识别问题转化为分类问题。通过使用分类工具，对训练文本进行机器学习，进而区分出各种命名实体类型，最终识别出测试文本中的命名实体。
这个值与2002年Hirschman等人研究的结果和 2004年BioCreative专题讨论会任务1A的结果一致。
虽然性能最好的系统也没有超过前几年的，但是研究者对不同数据集采用不同的方法都
模糊匹配（召回率81%、准确率74%、F值 77%）的系统性能好于精确匹配（召回率50%、
准确率59%、F值54%）。
NER
Hanisch等人利用基因与蛋白质名称的大型词典语义分类可能在蛋白质名称附近出现的词
特异度为95%，敏感度为90% Zhou等人使用基于丰富特征集合的方法训练了
隐马尔可夫模型，【构词特征（大写）、形态特征（前缀、后缀）、词性特征、语义触发（核心名词和动词）、别名特征】
就是通过对文献中及生物医学数据库自由文本中的大量生物医学知识应用算法、统计方法和数据处理方法，把信息过载的压力从研究者转嫁给计算机。
目前研究的活跃领域
命名实体识别文本分类关系抽取同义词缩写词提取假说形成集成框架
Baidu Nhomakorabea
命名实体识别(NER)
目的是在文本集合中识别出特定类型事物的所有名称，例如在期刊论文集中识别出所有药物的名称，在medline摘要中识别出所有基因名称及符号
系统达到了85.7%的准确率和66.7%的召回率。
NER系统
Chang创建了GAPSCORE系统
根据词的外观、形态和上下文对句子中的每个词打分，然后采用分类器训练这些特征。分数较高的词更可能是基因或蛋白质名称或符号。
利用Yapex语料库进行训练，根据精确匹配和模糊匹配分别计算召回率、准确率和F值