浅谈生物医学大数据及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算方差协方差矩阵时只考虑两 个变量间的缺失
S12
S1,2
S22
S1,3
S2,3
S32
S1,4
S2,4
S3,4
S42
S1,5
S2,5
S3,5
S4,5
S52
消去变换法
http://gwxy.njmu.edu.cn
obs X1 X2
1
xx
X3 X4 X5 Y x Ο ΟΟ
2
x x x Ο ΟΟ
3
Journal Cover Cancer Cell (IF=23). 11 February 2013
Biological network analysis
http://gwxy.njmu.edu.cn
多组学联合筛检中的效应分解 ——中介分析(Mediation analysis)
Baron&Kenny,1986
Wei Y, Chen F, et al. Chest 2015. IF 7.483
实例2:基于组学数据的因果推断 ——genetic variation→PLT → ARDS预后
http://gwxy.njmu.edu.cn
Wei Y, Chen F, et al. AJRCCM 2016. IF 13.118
微生物群
……
样本类型↑ 样本数量↑ 数据种类↑ 离散程度↑
http://gwxy.njmu.edu.cn
Big Data, being Integrated
http://gwxy.njmu.edu.cn
提 纲1
CATALOGUE 2
3
4
概述 整合策略及方法 实例分析 讨论
http://gwxy.njmu.edu.cn
block missing ‘disaster’
多组学数据整合
双重双向填补法整合数据,“盘活”已有数据, 提高数据的“完整性”,达到充分利用的目的。
Nature Biotechnology,2015
http://gwxy.njmu.edu.cn
块状缺失数据填补
要求:
快!! 尽可能维持方差/协方差结构不变
http://gwxy.njmu.edu.cn
把握度不高 预测效果不理想
Cell, 2014
Big Data, being pooled
48 GWAS + Validation sets 339,224 individuals
http://gwxy.njmu.edu.cn
Big Data, being pooled
浅谈生物医学大数据及其应用
——基于组学数据的因果推断与疾病预后
http://gwxy.njmu.edu.cn
提 纲1
CATALOGUE 2
3
4
概述 整合策略及方法 实例分析 讨论
http://gwxy.njmu.edu.cn
提 纲1
CATALOGUE 2
3
4
概述 整合策略及方法 实例分析 讨论
http://gwxy.njmu.edu.cn
http://gwxy.njmu.edu.cn
提 纲1
CATALOGUE 2
3
4
概述 整合策略及方法 实例分析 讨论
http://gwxy.njmu.edu.cn
实例1:基于组学数据的因果推断 ——genetic variation→PLT → ARDS患病风险
http://gwxy.njmu.edu.cn
11 GWAS + 41 custom array studies
http://gwxy.njmu.edu.cn
21594 cases vs. 54156 controls
Big Data, being Bigger
Leabharlann Baidu
实时
基线
多态性
拷贝数
甲基化
转录组
蛋白组
代谢组 健康数据
外周血
样 组织 本 单细胞
细胞株
x x x Ο ΟΟ
4
x x x Ο ΟΟ
5
x x x Ο ΟΟ
6
x x x Ο ΟΟ
7
Ο Ο Ο Ο ΟΟ
8
Ο Ο Ο Ο ΟΟ
9
Ο Ο Ο Ο ΟΟ
10 Ο Ο Ο Ο Ο Ο
11 Ο Ο Ο Ο Ο Ο
12 Ο Ο Ο Ο Ο Ο
高维数据快速初筛
加权迭代熵初步整合、快速筛选 ( Iterated Entropy…… )
How to deal with….
基线
Blood
C

Tissue ×
a
本 Single Cell
Cell line
Microbiome
多态性
C × aC × a
拷贝数
C × a
C × a
甲基化
C × a
转录组
C × a
C
×
a
C
×
a
蛋白组
C × Ca × a
代谢组
C × Ca × a
C × a
http://gwxy.njmu.edu.cn
随机森林重要性排序、再次筛选 ( Random forest ……)
序贯Bayes精细整合、三次筛选 ( Bayes ……)
>100万
<10万
<1000
http://gwxy.njmu.edu.cn
ERB筛选法
Borrow information from human body…
Journal Cover Chattnp:/c/gewrxyD.njimsuc.eodvu.ecnry (IF=19). 11 February 2014
Google Scholar, cited >5w Web of Science, cited >2w
Exposure
Mediator
Outcome
Tyler VanderWeele, 2010PMID: 25000145
direct effect≠direct causal effect →all unexplainable effect
生物(健康)数据之特点
优点:
质量高、精确性好
缺点:
单个变量效应微弱 变量间关系复杂
http://gwxy.njmu.edu.cn
实时采集数据 实时分析数据 实时结局预警
单个数据集分析的局限性
从指标的角度(横向)
不全面 容易遗漏重要的预测因素。
从样本的角度(纵向)
样本量有限 多重性校正力度大。
传统方法:
均值填补,MCMC填补
机器学习方法:
Multi-layer perceptron(多层感知机,MLP) KNN填补
http://gwxy.njmu.edu.cn
Bridging by COV
Listwise deletion(LD)
只利用#7~#12号记录
Pairwise deletion(PD)
实例3:基于组学数据的因果推断 ——环境砷暴露→扰乱脐带血代谢 →低出生体重
相关文档
最新文档