重大疾病相关数据库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


基因芯片数据提取
S1, S2 , , S N1
Gene1 Gene2
S1, S2 , , S N 2

GeneM
a11 a12 a1N1 b11 b12 b1N 2 a21 a22 a2 N1 b21 b22 b2 N 2 aM 1 aM 2 aMN1 bM 1 bM 2 bMN2

截尾值
◦ 有的观察对象终止随访不是由于失效事件发生,而是由于 中途失访、死于其它原因、随访截止。 ◦ 这些对象的观察值称为截尾值,常用符号“+”表示。如 140+天。

生存时间
◦ 即随访观察持续的时间,按失效事件发生或失访前最后一 次的随访时间记录,常用符号t表示。 ◦ 某病人1990年2月1日进入随访,1992年4月间发生失效事 件,他的生存时间为t=26月。 ◦ 某白血病患者化疗3月后失去联系,他的随访结果为一截 尾值,生存时间记为t=3+月。 ◦ 安放心脏起搏器患者术后2年因意外事故死亡,他的随访 结果也为一截尾值,生存时间记为t=2+年。
姜伟 生物信息科学与技术学院 哈尔滨医科大学
Harbin 2013.8

复杂疾病(complex disease),又称多基因病 (polygenic disorder),常见疾病(common diseases),是指由多个基因位点共同参与,且和环 境因素相互作用决定表型的遗传疾病。 众所周知,像高血压、哮喘、 癌症的发病通常不仅由单个 基因突变导致,而是众多基 因通过蛋白质复合物、调控 网络以及互作通路来控制的。
Neurod6 神经源性分化因子

盒子里一共有N个球,其中红球n个,随机抽取m个 球,其中有k个红球的概率?
N n k m

随访资料
Gene 1
Gene 2

Gene n
Time
Dead
Sample 1 Sample 2
. . . Sample m
a11 a21
. . . am1
a12 a22
2

k近邻分类法 k-nearest neighbour classification
Outlook Humidity Windy Play Sunny

75 79 60 55 75 80 80 85 50 45 40 50 55 55
False True False False False True True False False False True True False True





复杂疾病与多基因、染色体区段及基因-环境的相互 作用有关 基因的多态性位点 基因表达的改变 基因表达调控的异常 生物学通路的失活 表观遗传修饰 非编码RNA 基因-环境互作

Genes
◦ ◦ ◦ ◦ OMIM GAD CGAP GeneCards

miRNAs
◦ miR2Disease ◦ HMDD

常见的基因芯片平台
◦ ◦ ◦ ◦ cDNA微阵列芯片 寡核苷酸芯片 原位合成芯片 光纤微珠芯片

常用的基因芯片数据库
◦ 基因表达仓库:Gene Expression Omnibus, GEO /geo/ ◦ 斯坦福微阵列数据库:The Stanford Microarray Database, SMD / ◦ ArrayExpress:/arrayexpress/

Gene Ontology (GO)
◦ ◦ ◦ ◦ ◦ ◦ ◦ 目前应用最广泛的基因注释体系之一 基因及其产物知识的标准词汇体系 涵盖主要的动、植物和微生物基因组 生物学过程(biological process) 分子功能(molecular function) 细胞组分(cellular component) /
Cum Survival
.2
观察时间(月)

生存过程的影响因素分析
◦ 了解哪些因素会影响目标人群的生存过程 ◦ 例如分析影响乳腺癌病人手术后预后的因素,可以是病人 的年龄、病程、术前健康状况、有无淋巴结转移、术后有 无感染、辅助治疗措施、营养等。 ◦ Cox比例风险回归模型
当变量数目较多或质量较差时,在建立多因素模型之前,必须 对变量作初步的筛选。 剔去缺失数据较多,或变异程度几乎为0的变量 单变量模型方法

聚类算法
◦ 层次聚类 ◦ Hierarchical Clustering
2000年Alizadeh等运用基因 芯片数据,基于层次聚类算 法证实了DLBCL肿瘤病人在 mRNA层面确实存在两种亚 型

聚类算法
◦ k-均值聚类 ◦ k-means Clustering
1 k w(C ) d E ( xi , x j ) 2 c 1 C (i ) C ( j ) c
真实 阳性
真实 阴性

分类效能评价
◦ 评价指标
预测 阳性
预测 阴性
0
10
0
90

ArrayTools DChip(DNA-Chip Analyzer) SAM Cluster和TreeView R语言和BioConductor: affy、marray、limma Matlab: Bioinformatics Toolbox

对样本进行聚类
质量控制 检查样本是否按已知类别分组 发现亚型
基因表达谱

距离尺度函数
◦ ◦ ◦ ◦ 欧式距离 Pearson相关系数 Spearman秩相关系数 互信息

聚类算法
◦ 层次聚类 ◦ Hierarchical Clustering
层次聚类算法将研究对象按照它 们的相似性关系用树形图进行呈 现,进行层次聚类时不需要预先 设定类别个数,树状的聚类结构 可以展示嵌套式的类别关系。
Survival Function Censored
随访时间(月)

比较生存过程
◦ 两组或多组生存曲线比较。 ◦ 对数秩检验(log-rank test)
Survival Functions
1.2
1.0
.8
.6
组别
.4 2 2-censored 1 0.0 0 10 20 30 40 50 1-censored

对数转换

数据过滤 补缺失值 数据标准化

倍数法(Fold change) t检验法(t test) SAM (significance analysis of microarrays)

聚类的目的
基于物体的相似性将物体分成不同的组
样本

对基因进行聚类
识别功能相关的基因 识别基因共表达模式 基因
Gini( N ) 1 p 2j
j 1

支持向量机 Support Vector Machines (SVM)

分类效能评价
◦ 构建训练集和检验集
n倍交叉验证(n-fold cross validation) Bootstrapping 无放回随机抽样 留一法交叉验证(leave-one-out cross validation,LOOCV)

决策树
◦ 分割准则
信息增益—— Information Gain
k n1 n2 Gain H ( N ) ( H ( N1 ) H ( N 2 )) H ( N ) pi log2 pi n n i 1
基尼指数—— Gini index
n1 n2 Gini Gini( N ) ( Gini( N1 ) Gini( N 2 )) n n k



GeneCards is a searchable, integrated, database of human genes that provides concise genomic related information, on all known and predicted human genes. GeneCards extracts and integrates a carefully selected subset of gene related transcriptomic, genetic, proteomic, functional and disease information, from dozens of relevant sources. /


CGAP (Cancer Genome Anatomy Project) The CGAP sought to determine the gene expression profiles of normal, precancer, and cancer cells, leading eventually to improved detection, diagnosis, and treatment for the patient. /

生存率
◦ 指某个观察对象活过t时刻的概率,常用P(X>t)表示。

描述生存过程
◦ 研究人群生存状态的规律,如生存时间的分布特点,计算 某个时点的生存率、生存率曲线的变动趋势等。 ◦ Kaplan-Meier法。
Survival Function
1.2 1.0 .8 .6
Cum Survival
.4 .2 0.0 0 5 10 15 20 25 30 35 40
No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No
决策树 Decision Tree
Sunny Overcast Rainy Rainy Rainy Overcast Sunny Sunny Rainy Sunny Overcast Overcast Rainy
+breast +cancer
brca2



GAD (Genetic Association Database) The Genetic Association Database is an archive of human genetic association studies of complex diseases and disorders. The goal of this database is to allow the user to rapidly identify medically relevant polymorphism. /
. . . am2
… …
. . . …
a1n a2n
. . . amn
t1 t2
. . . tm
1 0
. . . 1

“死亡”事件或失效事件
◦ 表示观察到随访对象出现了我们所规定的结局,是反映处 理因素失败或失效的特征。 ◦ 注意:失效事件应当由研究目的而定,并非一定是死亡, 而死亡也并非一定是失败事件。

Pathways
◦ KEGG Biblioteka ISEASE

OMIM (Online Mendelian Inheritance in Man) OMIM is a comprehensive, authoritative compendium of human genes and genetic phenotypes that is freely available and updated daily. OMIM focuses on the relationship between phenotype and genotype. /omim /
相关文档
最新文档