5.基于文献的知识发现工具简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BITOLA
BITOLA:open
BITOLA:close
BITOLA:close
BITOLA:close
内容
Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR
病毒的昆虫媒介传播(insect vectors) 空气传播(air) 在空气中的稳定性(stability of viruses in air)


通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了三个 有意义的B-LIST(病毒的集合),通过进一步的统计学分析 和查阅文献,最终找出相对有意义的病毒(B)
RANTES



Y轴上的点为与RANTES基因相关的单词,出现率大于25%。 随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均 值 如果基因足够的话,单词的平均出现率趋于稳定。 发现出现率低于5%的单词传递有关该基因的重要信息。如infection, secreted, chemokine 等。
过滤数据
每一种基因有几万条记录。对文献中发现的 每一个单词,标上其出现的频次数。 这些单词大多数对发现基因信息没有用途:

没有特异性:'if, 'because', 'cell', 'identified' 很少使用:在很少的文献中出现。

第三类单词:
在某一种基因的文摘中出现频率高。 在所有文献中出现频率(基准率)低。 可以提供基因的相关信息。
R统计分析软件

SPSS简单易用,而SAS功能强大,更是被统计专业人员乐 于采用,尤其是在国外广泛应用。
既定的模块,不能满足需要。

需要人们自己用编程来实现新的方法,R就提供了这样一个 很好的平台。 R是由Ross Ihaka和Robert Gentleman所编写的一个专门用 于统计分析的软件。
完全免费,可以从网络上任意下载,不存在版权问题。 R的源代码公开,使得很多统计爱好者可以不断增强R的功能。 在一般统计分析功能上,R并不逊于其它商业统计软件,例如SPSS、
SAS等,并且提供一个强大灵活的编程平台。
MedlineR

用于Medline文献数据挖掘的开放式的R资源库 用于医学文献数据挖掘的手写开放性R语言资源库MedlineR。 MedlineR库包括:
发现科研机构间潜在的合作方向

利用Arrowsmith程序,发现美国斯坦福大学和哥伦 比亚大学在医学信息学研究领域的潜在合作方向 尝试将这种方法运用到寻求发现科研机构合作与交 流的领域中。 结果表明,利用Arrowsmith所挖掘的科研合作与交 流的内容详细、明确,能体现出研究所使用的具体 方法和侧重点,能更好地体现出两个机构研究内容 的相似点(可以合作之处)和不同点(可以相互交 流、学习之处)。

聚类分析
term1 Gene1 term2 term3
Gene2
Gene3
聚类分析
黄色阴影:单词 在文摘中出现的 水平
•蓝色:nuclear factors 红色:chemokines •橙色:receptor-ligand pair 紫色:MHC class I antigen-presentation pathway •绿色:interferon-related

目标
建立一种挖掘技术 该技术以对文献轮廓literature profiling的分析 为基础 文献轮廓:分析某些单词在Medline数据库的 文摘中出现的频次。

研究步骤
检索文献 分析文本 过滤数据 聚类分析

检索文献

从基因开始,分别找到与各种基因相关的论文
标题中含有基因名字的论文。 人类基因命名委员会(Human Gene Nomenclature Committee, HGNC):官方名称、缩写、别名
用文献轮廓挖掘大肠癌转移芯片表达谱


黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室 肿瘤研究所) 目的:寻找新的大肠癌转移相关基因。 方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的 数据挖掘方法,从Medline文献数据库中提取基因的相关文 献并分析词的频率,再基于重复发生和共发生的过滤标准提 取功能相关的词,最后基于词的发生频率对基因进行功能聚 类,进一步结合文献及已有的分子生物学检测结果进行分析。 结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和 NM23H1。
MedlineR

为生物医学家和统计学家建立的文献数据挖 掘工具的免费资源库MedlineR的源代码可以 从http://dbsr.duke.edu/pub/medlineR中获得, 还提供了个性需求,漏洞追踪和版本控制工 具等,以便同行进一步扩展其功能。
基于文献的生物医 学知识发现方法与 工具
中国医科大学 医学信息学系 崔雷
内容
Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR
背景与意义
研究深入 发表文献
知识分裂
在NCBI Pubmed数据库查找医学文献的程序 2. 构建共现矩阵的程序 3. 检索词的网络拓扑结构的可视化程序。
1.

这个库的开放特性使得读者在R统计程序语言中免费扩展。 只用10行代码来分析主题词的相关性。对于生物信息学家 和统计学家来说,MedlineR是建立更加复杂的文献数据挖 掘应用的基础。
过滤数据

基准率:
在所有已知的人类基因中随机抽取基因(250种)
统计单词出现频率的平均值
term1
term2
Term3
termn
Gene1 Gene2
gene250 平均值
数据过滤

单词过滤的标准:
通过设定基准率(5%),去掉在全部科技文献中经常出
现的单词 每一个单词在每一种基因上的出现率与基准率的差值〉 25% 通过两个基因过滤的单词:一个单词只有在至少2个以上 的基因中共现才在确定基因关系方面有用。
Don R. Swanson的研究
雷诺氏病 文献
潜在的联系
食用鱼油 文献
血液粘稠度 红细胞脆性 Medline文献集合
闭合式的知识发现
ARROWSMITH 3.0

http://arrowsmith.psych.uic.edu
可作为生物武器的潜在病毒

能够成为生源自文库武器:致病性,传播性。同时涉及到病毒这两 个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力
开放式的知识发现
BITOLA http://www.mf.uni-lj.si/bitola/




输入单个的概念(疾病A),找到该概念的第一层相 关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关 概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾 病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基 因、药物或者神经科学。
运用文献轮廓 挖掘微阵列表达数据

Mining microarray expression data by literature profiling
Damien Chaussabel MedlineR
Damien Chaussabel Alan Sher

Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055.
聚类分析
聚类分析
单词出现模式的分析
不同关联程度的基因组
不同的基因组 同源基因
协同基因 随机基因

共享的单词数 116
101 49
关联数 523
300 109
通过文献分布特征发现的关联 一组基因在功能上的关联程度
用文献轮廓挖掘鼻咽癌微阵列表达数据



黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所) 目的:探索鼻咽癌异常信号通路。 方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据 挖掘方法。从Medline文献数据库中提取与基因相关的文献 并分析词的频率,再根据重复发生和共发生的过滤标准提取 功能相关的词。最后根据词的发生频率对基因进行功能聚类。 结果:基因表达谱的l12个差异表达基因聚成16组功能类别: 4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代 谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组 与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb 信号通路的异常在本研究中则未发现。 结论:鼻咽癌的发生发展可能由特殊的信号通路引起。
上述纪录按照GenBank和Locus Link的ID排列 该数据库可以作为Excel表格下载
检索文献

选70种基因,每一种基因的相关文献以XML格式下 载 用Excel的宏命令抽取文摘,另存作为文本分析样本
Papers on Gene 1 Papers on Gene 2 Papers on Gene 3 Papers on Gene 70

70个基因,25,000种单词,只保留下来101种。 可以调整单词过滤的阈值:下调阈值,增加了噪音, 检索到更多的单词。
数据过滤
聚类分析
通过单词出现情况,给具有同样的文献分布 特征的基因进行分组。 经过几轮过滤之后,确定了单词表,将该表 用于建立一个单词-基因矩阵。矩阵中对应的 是每一种基因和单词出现值。 采用基因聚类分析的软件:Cluster/TreeView
http://www.genenames.org/
检索文献

建立数据库
包括HGNC定义的10,500多种已知的人类基因 用PubMed查询格式的URL,例如: protein kinase C eta

http://www3.ncbi.nlm.nih.gov/htbinpost/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C% 20eta+%5Bti%5D 'PRKCH [ti] OR PKC-L [ti] OR PRKCL [ti] OR protein kinase C eta [ti]')
分析文本


对于每一个基因的相关纪录的内容,分析文摘中单 词出现的情况。 统计文摘中含有特定单词的文献数。
例如:对于GADD45B基因的相关文献,有18.7%的文摘
中含有单词“Proliferation”。
单词
Abstracts on Gene 1
百分比=论文数/ 论文总数
Proliferation 18.7 Active 15.5 infected 14.8
聚类分析





对所研究的基因进行的功能分组明显与免疫反应有关。 蓝色:控制炎症反应和细胞凋亡的转录因子,这些基 因和‘TNF’ (the inflammatory mediator tumor necrosis factor), ‘death’ 或者 ‘apoptosis’同时出现较 多。 绿色:最大的一组基因,与‘interferon’ 有关(也叫 ‘IFN’和‘IFN-alpha’,)。STATs基因是干扰素信号传 导专门需要的因子。 红色:的一组专门面向趋化因子(chemokines)。 紫色:基因全部是I类MHC抗体表达通路基因。这些基 因专门编码把蛋白降解为肽的蛋白。 总之,这些例子说明:根据抽取词所表示的概念可以 表达有价值的信息,并且可以用于快速探索和评估复 杂数据集中的生物学意义。
相关文档
最新文档