医学大数据分析策略与数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
数据挖掘方法简介及其应用
医学大数据分析策略与数据挖掘
13
数据挖掘概念
数据挖掘:是在从大量的数据中提取隐含的、 事先未知的,但又是潜在有用的信息和知识的过程。
定义研究问题
数据准备
模型应用
大数据源
提取数据
建立模型
模型评估
医学大数据分析策略与数据挖掘
1144
数据挖掘
数据挖掘方法概述
分类预测 回归预测
医学大数据分析策略与数据挖掘
1199
Monte Carlo模拟分析结果
✓ 各纹理产生30,40,50,60个子代(即纹理分别 为420,560,700,840个)。每个纹理子代分布 为正态分布,均值和标准差与轴位CT图像均值 相近;
✓ 设定每个纹理内部子代之间的相关系数为r=0.1, 0.2,0.3,0.4;
➢轴位纹理 ➢冠状位纹理 ➢矢状位纹理
03 ➢ 淋巴结是否肿大
影像学
➢ ➢
边缘是否光滑 是否分叶
检查 ➢ 结节位置
➢ 有无空泡征等
医学大数据分析策略与数据挖掘
18
数据挖掘主要分类预测方法
基于肺结节纹理 鉴别诊断肺癌
支持向量机 决策树 随机森林最近邻分类神经网络 Gradient Lasso回归 boosting
医学大数据分析策略与数据挖掘
日 期:2014年11月22日
医学大数据分析策略与数据挖掘
1
提纲
1 医学中大心数概据况及其分析策略
2
数据中挖心掘概方况法简介及其应用
3 数据挖掘软件及其实现方法
医学大数据分析策略与数据挖掘
2
医学大数据及其分析策略
医学大数据分析策略与数据挖掘
3
大数据(Big Data)
生物医学大数据的只要特点:高维
医学大数据分析策略与数据挖掘
10
科学问题处理方式
➢ 假设驱动,收集数据, 分析寻找答案
➢ 数据大多是结构化的, 可以分析
➢ 数据驱动,挖掘寻找问 题
➢ 数据多是非结构化的, 难以分析。
医学大数据分析策略与数据挖掘
11
常用的医学多元统计学应用受到制约
多元线性回归分析
方
数据量规模巨大到无法通过人工,在合理时间 内达到截取、管理、处理、并整理成为人类所能解读 的信息。
医学大数据分析策略与数据挖掘
4
大数据时代的来临
•2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。 •2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。
分类回归树
朴素贝叶斯
决策树 神经网络分类
随机森林 支持向量机
神经网络回归 广义线性回归
回归组合模型 支持向量机回归
聚wk.baidu.com分析
K均值聚类 期望最大化EM
层次聚类 分布估计聚类
关联分析
属性关联分析
购物篮分析
属性筛选
LASSO 高维数据降维
医学大数据分析策略与数据挖掘
15
数据挖掘方法应用实例
肺结节良恶性的判定是CT图像诊断肺癌中 的一个难点和关键点。在实际的临床中,肺癌 被确诊时80%以上已属中晚期。
✓ 分别产生2组数据,设定两组各个变量均值之间 的差值为d(0.01-0.1)。
医学大数据分析策略与数据挖掘
2200
Monte Carlo模拟分析结果
纹理相关系数为0.1时,840个纹理值各 预测模型拟合结果
纹理相关系数为0.2时, 840个纹理值各 预测模型拟合结果
医学大数据分析策略与数据挖掘
2211
模拟式存量 2000年
数字式存量
Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources
医学大数据分析策略与数据挖掘
16
应用实例
三正交位成像
矢状位
轴状位
➢ 矢状位图像库 ➢ 冠状位图像库 ➢ 轴状位图像库
医学冠大数状据分位析策略与数据挖掘
17
数据集合
01基本信息
➢ 年龄、性别等
02 既往史
04 CT图像 纹理
➢肿瘤病史 ➢粉尘接触史 ➢遗传病史 ➢吸烟史等
高维大数据库 (变量约1000, 样本336例)
of information.
Credit: Todd Lindeman and Brian Vastag/ The Washington P医os学t 大数据分析策略与数据挖掘
5
医学大数据的应用意义
生物标志物识别
利用大数据识别有关疾病发生、 预后或治疗效果的生物标志物
组学研究
基因组学,表观组学,蛋白组学, 代谢组学,糖基组学,等 环境因素,个体行为与各组学关联
医学大数据分析策略与数据挖掘
6
医学大数据的应用意义
公共卫生监测:
传染病监测、 慢性非传染性疾病及 相关危险因素监测、 健康相关监测 群体性预防。
医学大数据分析策略与数据挖掘
7
医学大数据的应用意义
医疗协同和临床决策支持:
通过建立专用数据库,调用患者的 基因数据、病历信息等大量医学参 考数据,辅助疾病的诊断与治疗, 实现个体化诊治原则
Logistic回归分析 Cox回归分析
法
聚类分析 判别分析
主成分分析
因子分析
广义线性模型
......
正态性
线性、齐性
条
独立性
件
足够大的样本量
变量的20倍
......
➢ 传统的多元统计方法难以处理和分析医学大数据
➢ 高维、非线性、非高斯等数据,采用数据挖掘方法,可以
提供更高的预测精度。
医学大数据分析策略与数据挖掘
健康管理:
通过可穿戴设备对个体体征数据 的实时、连续监测提供个体化疾 病预防和治疗方案
医学大数据分析策略与数据挖掘
8
医学大数据的应用意义
可视化信息:
数据与信息图像、多媒体信息可视化,更清晰有效地 传达与沟通大数据包含的生物医学信息。
医学大数据分析策略与数据挖掘
9
在生物医学研究领域,大数据:
➢环境气象学数据 ➢医学影像数据 ➢基因、蛋白等组学数据 ➢大型临床资料 ➢复杂的生物和环境因素研究
支持向量机
支持向量机(Support Vector Machine, SVM)是美国Vapnik 教 授于1963年提出的。
在解决小样本、非线性和高维 模式识别问题中表现出许多优势, 并在一定程度上克服了“维数灾难” 和“过学习”等问题。在模式识别、 回归分析、函数估计、时间序列预 测等领域,都得到了长足的发展。