医学大数据分析策略与数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
郭秀花--医学大数据 分析策略与数据挖掘
提纲
1 医学中大心数概据况及其分析策略
2
数据中挖心掘概方况法简介及其应用
3 数据挖掘软件及其实现方法
医学大数据及其分析策略
大Βιβλιοθήκη Baidu据(Big Data)
数据量规模巨大到无法通过人工,在合理时间 内达到截取、管理、处理、并整理成为人类所能解读 的信息。
大数据时代的来临
医学大数据的应用意义
生物标志物识别
利用大数据识别有关疾病发生、 预后或治疗效果的生物标志物 组学研究
基因组学,表观组学,蛋白组学, 代谢组学,糖基组学,等 环境因素,个体行为与各组学关联
医学大数据的应用意义
公共卫生监测:
传染病监测、 慢性非传染性疾病及 相关危险因素监测、 健康相关监测 群体性预防。
•2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。 •2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。
模拟式存量 2000年
数字式存量
Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post
则可以得到最优分类函数为:
fx sg n w • x b sg n i l1a iy ix i• x b
核函数
SVM中不同的内积核函数将形成不同的算法。
➢ Gaussian 核函数: ➢ Polynom核函数 ➢ Vanilladot线性核函数 ➢ 双曲切线核函数 ➢ Laplacian 核函数 ➢ Bessel核函数
提供更高的预测精度。
数据挖掘方法简介及其应用
数据挖掘概念
数据挖掘:是在从大量的数据中提取隐含的、 事先未知的,但又是潜在有用的信息和知识的过程。
定义研究问题
数据准备
模型应用
大数据源
提取数据
模型评估
建立模型
14
数据挖掘
数据挖掘方法概述
分类预测
回归预测 聚类分析 关联分析 属性筛选
分类回归树
朴素贝叶斯
医学大数据的应用意义
医疗协同和临床决策支持:
通过建立专用数据库,调用患者的 基因数据、病历信息等大量医学参 考数据,辅助疾病的诊断与治疗, 实现个体化诊治原则
健康管理:
通过可穿戴设备对个体体征数据 的实时、连续监测提供个体化疾 病预防和治疗方案
医学大数据的应用意义
可视化信息:
数据与信息图像、多媒体信息可视化,更清晰有效地 传达与沟通大数据包含的生物医学信息。
影像学
➢ ➢
边缘是否光滑 是否分叶
检查 ➢ 结节位置
➢ 有无空泡征等
数据挖掘主要分类预测方法
基于肺结节纹理 鉴别诊断肺癌
支持向量机 决策树 随机森林最近邻分类神经网络 Gradient Lasso回归 boosting
19
Monte Carlo模拟分析结果
✓各纹理产生30,40,50,60个子代(即纹理分别 为420,560,700,840个)。每个纹理子代分布 为正态分布,均值和标准差与轴位CT图像均值相 近; ✓设定每个纹理内部子代之间的相关系数为r=0.1, 0.2,0.3,0.4; ✓分别产生2组数据,设定两组各个变量均值之间 的差值为d(0.01-0.1)。
应用实例
三正交位成像
矢状位
冠状位
轴状位
➢ 矢状位图像库 ➢ 冠状位图像库 ➢ 轴状位图像库
数据集合
01基本信息
➢ 年龄、性别等
02 既往史
04 CT图像 纹理
➢肿瘤病史 ➢粉尘接触史 ➢遗传病史 ➢吸烟史等
高维大数据库 (变量约1000, 样本336例)
➢轴位纹理 ➢冠状位纹理 ➢矢状位纹理
03 ➢ 淋巴结是否肿大
在生物医学研究领域,大数据:
➢环境气象学数据 ➢医学影像数据 ➢基因、蛋白等组学数据 ➢大型临床资料 ➢复杂的生物和环境因素研究
生物医学大数据的只要特点:高维
科学问题处理方式
➢ 假设驱动,收集数据, 分析寻找答案
➢ 数据大多是结构化的, 可以分析
➢ 数据驱动,挖掘寻找问 题
➢ 数据多是非结构化的, 难以分析。
Vapnik
最优分类(超平)面
SVM的机理是寻找一个满足分类要求的最优分类
超平面 w•xb0 ,使得该超平面在保证分类精
度的同时,能够使超平面两侧的空白区域最大化。
广义最优分类面
-
当线性不可分时,SVM的主要思想是将输人向量映 射到一个高维的特征向量空间,并在该特征空间中 构造最优分类面。
x x1x,2x,...,lxT 代替输入向量x,
决策树 神经网络分类
随机森林 支持向量机
神经网络回归 广义线性回归
回归组合模型 支持向量机回归
K均值聚类 期望最大化EM
层次聚类 分布估计聚类
属性关联分析
LASSO 高维数据降维
购物篮分析
数据挖掘方法应用实例
肺结节良恶性的判定是CT图像诊断肺癌中 的一个难点和关键点。在实际的临床中,肺癌 被确诊时80%以上已属中晚期。
常用的医学多元统计学应用受到制约
多元线性回归分析

Logistic回归分析 Cox回归分析

聚类分析 判别分析
主成分分析
因子分析
广义线性模型
......
正态性
线性、齐性

独立性

足够大的样本量
变量的20倍
......
➢ 传统的多元统计方法难以处理和分析医学大数据 ➢ 高维、非线性、非高斯等数据,采用数据挖掘方法,可以
20
Monte Carlo模拟分析结果
纹理相关系数为0.1时,840个纹理值各 预测模型拟合结果
纹理相关系数为0.2时, 840个纹理值 各预测模型拟合结果
21
支持向量机
支持向量机(Support Vector Machine, SVM)是美国Vapnik 教授 于1963年提出的。
在解决小样本、非线性和高维 模式识别问题中表现出许多优势, 并在一定程度上克服了“维数灾难” 和“过学习”等问题。在模式识别、 回归分析、函数估计、时间序列预 测等领域,都得到了长足的发展。
相关文档
最新文档