基于大数据的临床医学研究与精准医学平台

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘 基因分析
队列研究 用户管理
探索分析 ……
高效的数据处理与计算
预测分析的能力
集成的干净的病患数据
基于疾病的数据模型
……
语义的文本挖掘
基因组学数据
wk.baidu.com集成知识库
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
医学影像数据
扫描一个组织器官每秒产生10GB原始数据
PubMed医学论文数据库
2500多万篇论文
人类基因和生物学数据
每个全基因组有800 MB的数据 领先的研究机构数据量大于15 PB
处方数据
1万名医生和1000万名患者的记录多达15亿条 (100 GB)
临床试验
ClinicalTrials.gov网站目前有超过3万个招募名额
LACE Index 2010
13
机器学习的预测案例
风险预测研究方案 内容
目的 研究类型 研究对象 分组 暴露因素 结局
统计分析
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
建立病人使用造影剂产生造影剂肾病的评估模型
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
5
数据的处理与挖掘难点众多
从太多的数据来源 寻找数据
从各种噪声中抽取 高质量临床特征
标准化院内各种 医学术语
大数据分析的复杂性
! 采集数据难
! 清洗数据难
数据分析
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
临床专家反馈
12
经典的“预测”
Charlson Index 1987
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
! 标准化数据难
! 数据挖掘难
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
6
将海量数据迅速转化为临床研究的助力
我们想要数据处理更高效、数据分析更简单、辅助决策更智能!
统计分析 监测随访
人群检索 决策支持
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
04
精准建模
• 对原始数据进行深层次清洗 和处理
• 已开发出多套单病种模型 (高血压、AKI)
11
临床研究之路
Many Features 特征选择
队列选择
SAP精准医疗平台 基于SAP精准医疗平台的临床科研数据分析系统 案例:ASCO(美国临床肿瘤学会)
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
3
为什么要倡导精准医学
许多疾病没有普适的良药和治疗方案
7
在队列研究中发现疾病、健康与遗传之间的关联
以酒精过敏研究为例(斯坦福与SAP合作 )
酒精过敏反应由乙醛脱氢酶缺乏引起。研究表明,其与某种食管 癌的患病风险相关。
Carlos D. Bustamante 斯坦福大学遗传学系教授
斯坦福生物医学数据科学部主席
Euan A. Ashley MRCP Dphil 斯坦福心血管疾病中心临床医生和主任
基于大数据的临床医学研究与精准医学平台
内容概览
SAP精准医疗平台 基于SAP精准医疗平台的临床科研数据分析系统 案例:ASCO(美国临床肿瘤学会)
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
2
内容概览
8
各种数据类型
基因库
其他数据源
内容概览
SAP精准医疗平台 基于SAP精准医疗平台的临床科研数据分析系统 案例:ASCO(美国临床肿瘤学会)
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
10
基于SAP HANA的临床科研数据分析系统的特点
斯坦福临床基因组服务总监
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
来源: https://en.wikipedia.org/wiki/Alcohol_flush_reaction
ALDH2( 醛脱氢酶)中的单核苷酸多态性 队列分析基于完整的标注数据 § 2504个样本 § 2.1 TB数据 § 所有病患的2120亿行信息 所需时间:2.5秒
病患对同一种药的反应可能不同
抗抑郁药
失效率 38%
哮喘药 糖尿病药 关节炎药
失效率 40% 失效率 43% 失效率 50%
老年痴呆药
失效率 70%
癌症药
失效率 75%
© 2017 SAP SE or an SAP affiliate company. All rights reserved. ǀ CUSTOMER
01
快速集成
• 自动集成临床诊疗数据 • 支持集成已经下线的临床系统 • 支持集成离线数据(WORD、
EXCEL、PDF等) • 支持数据增量更新
02
智能随访
• EDC数据采集 • eCRF表单设计 • 临床研究管理 • 随访管理
临床科研数据一体化
03
深度挖掘
• 中文自动分词 • 文本分类 • 信息检索 • 信息抽取
4
将多种数据应用于临床治疗与研究
治疗时间轴 (以癌症为例)
诊断
肿瘤期
病理报告
基因标记
组织样本
放射治疗
人类蛋白质组
每个样本有1.6亿数据点 (2.4 GB)
ProteomicsDB存储7.6TB蛋白质组原始数据
癌症病人诊疗记录
海德堡研究所存有16万名癌症病人诊疗
临床医疗信息系统
数据量通常大于50 GB
回顾性
纳入:造影剂住院患者诊疗数据,并对部分数据进行补充; 排除:使用造影剂之前没有血清肌酐指标的人群 实验组:造影剂之后72小时后发生肾病患者 对照组:没有发生造影剂肾病患者 性别,年龄,肝肾功能,钠,胆红素等等(尽可能包含文献或者实际中 可能与造影剂肾病相关的因素在数据中,这样方便后期模型进行筛选)
相关文档
最新文档