生物医学文本挖掘前沿PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Lu等人提出完成这项任务采用摘要技术与GO(基因本体, gene ontology)注释结合,GO注释与现有的Entrez基因条目 有关。
作者将这一方法进一步发展到现实任务摘要技术的创新应用 :测定低质量和过时的GeneRIFs摘要修订方法,这一任务准 确率达到89%,召回率达到79%,并且在质量上比其他方法 产生有效的GeneRIFs。
2
Company name
文本挖掘的主要技术和应用
NER
IR 问答系统
非文本数据处理
IE 知识发现
3
Company name
文本挖掘(TM)
在不同程度上,大部分生物医学TM研究依赖自
然语言处理方法和工具。“BioNLP”
TM有广义和狭义之分 : 狭义:TM系统必须返回文章中没有明确表明的知
识。 广义:任何从文章中抽取信息的系统,或者具有
文献摘要的分类也是Höglund等人的预测亚细胞位置方法一 个组成部分。
13
Company name
自动文本摘要技术区分指示摘要(帮助读者决定他们是
否应阅读感兴趣的摘要文档)
和详细摘要(从摘要文档中为读者实际提供资料)
定向/聚焦的摘要旨在满足独特信息需求,往往 以查询方式表现
8
Company name
摘要技术
Ling等人:生物学文献的特征结构性摘要
1
2
3
4
刻画基因 六个方面
填充摘要 结构
结合标记 抽取信息
评价
1:六个方面:(i)基因产物,(ii)表达的位置,(iii)序列信息,(iv)野生型功能和 表型信息,(v)突变表型和(vi)遗传相互作用。
2:检索相关MEDLINE摘要和抽取包含与靶基因某一特定方面有关信息的句子
3:为了结合治疗结果有关,最能提供信息的句子中的证据,评分句型将种类 相关性,文献相关性和摘要中句子的位置结合标记。
11
Company name
摘要技术
Névéol等人 :自动生成的建议性主题词
与摘要相关的任务:描述采用Mesh主题词的文本的主要主 题,通过人工索引medline数据库完成的。
Névéol等人通过改进自动生成的建议性主题词来推动这一手 工处理过程;
NLM索引者在索引过程中采用此方法。
这一工作的重点是将Mesh叙词(descriptors)和限定词( qualifiers)的组合分配给一篇引文,而不只是分配单一的 Mesh主标目。
抽取信息所必需先决条件功能的系统。 包括一系列的应用类型,从命名实体识别
到基于文献的知识发现,以及介于两者之间的 许多过程。
4
Company name
结构框架
IE—初始工序
文本抽取事实
NER
识别生物实体的模块或文章中的概念
关系抽取 检测出生物实体之间的关系
摘要技术 简明确定和表明文献最重要方面,节省阅读时间
超信息抽取
处理非文本材料 含有丰富信息的非文本信息如表格和图片
问答系统 为形成的问题提供精确的答案
狭义TM
知识发现
真正的TM不仅给出文章中存在的直接事实,还 有助于揭示生物学实体间的间接关系
评价&面向用户系统
有注释文本集 &大规模评价
对系统和结果质量的评价有助于评估 产生数据的可信度
(TM的最重要的必要条件) 理解用户需求
BIE系统的输出——不限制实体间关系的 简单的语句。
6
Company name
超信息抽取
1 摘要技术 2 处理非文本材料 3 问答系统 4 知识发现
7
Company name
摘要技术
传统的‘一般’摘要对摘要的预期用途不作任何 假设
“黄金信
自动文本摘要技术的目的: 息”
确定一个或多个文献最重要的方面和简洁连贯地展现这些方面。
4:这一抽取方法使确定10个随机选择基因的测试集的上述六个方面查准率达 到50%-70%。
Hale Waihona Puke Baidu
9
Company name
摘要技术
Lu等人:摘要技术与GO注释结合
2003年文本信息检索会议(TREC, Text REtrieval Conference) 基因组领域包括GeneRIFs[基因导入功能参考(GeneRIF用于Entre数据库中描 述的基因)]预测的任务。
10
Company name
摘要技术
Baumgartner等人 :句型选择子任务
将摘要方法应用于蛋白-蛋白间相互作用的 BioCreative2006句型选择子任务。 该查找描述蛋白-蛋白相互作用最好的句型的抽取 摘要方法达到了19%的准确率,是这一挑战中表 现最好的;位于第二的系统的分数为6%。
12
Company name
摘要技术
文献摘要的分类
摘要技术的另一个应用:将文献分类到一系列预先确定的分 类(例如GO编码)中。
Stoica和Hearst成功为基因分配GO编码,他们通过从生物医 学文本中查找分配给靶基因的同源类似物的GO编码来分配 GO术语。
Fyshe和Szafron针对蛋白质的亚细胞定位对文献摘要进行分 类,利用GO作为一个附加的信息资源。
(机械和工程科学的语言,信息和代理集团计算机科学实验室/法国国家科学研究中心)
他致力于自然语言处理和其在生物医学领域的应用。 Dina Demner-Fushman
NLM 国家生物医学通讯中心 通信工程部常任科学家 她利用信息检索的NLP和生物医学领域信息检索研究临床决策支持、临床问
答系统。 Hong Yu 威斯康星密尔沃基大学计算机科学和卫生科学系助理教授,她的研究多关注 于多媒体信息检索,话语分析和问答系统。 Kevin B. Cohen 科罗拉多大学医学中心校区,领导计算药理学方面生物医学文本挖掘团队。
5
对用户需求的实际掌握可引领技术发展
Company name
超信息抽取——BIE
该技术超出IE领域,满足最严格的文本挖 掘定义,本质上是处理文本以外数据类型 的系统。
IE系统的输入——单一句型 BIE系统的输入——全文本:至少是摘要, 有时是全文期刊论文,很少情况是文献集 (如后面讨论的多文档摘要)。
生物医学文本挖掘前沿 -新发现
Frontiers of biomedical text mining: current progress
WL
发表期刊&作者简介
Brief Bioinform. 2007 September ; 8(5): 358–375.
Pierre Zweigenbaum 法国LIMSI/ CNRS的高级研究员
相关文档
最新文档