郭秀花--医学大数据分析策略与数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Vapnik
22
最优分类(超平)面
SVM的机理是寻找一个满足分类要求的最优分类 超平面 w x b 0 ,使得该超平面在保证分类精 度的同时,能够使超平面两侧的空白区域最大化。
23
广义最优分类面
-
24
当线性不可分时,SVM的主要思想是将输人向量映 射到一个高维的特征向量空间,并在该特征空间中 构造最优分类面。
模拟式存量
2000年
数字式存量
Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post
持向量机分类分类预测方法,可以有效提高肺癌诊断正确率,
辅助放射科医生进行辅助诊断肺癌。
数据挖掘软件及其实现方法
32
R软件
1
R是统计领域广泛使用的诞生于1980年 左右的S语言的一个分支。
Your text
2
R是一个有着统计分析功能及强大作图功能的 软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。
35
支持向量机
36
• WEKA(Waikato Environment for Knowledge Analysis)
WEKA作为一个公开的数 据挖掘工作平台,用于非商 业目的的研究行为,集合了 大量能承担数据挖掘任务的 机器学习算法,包括对数据 进行预处理,分类、回归、 聚类、关联规则以及在新的 交互式界面上的可视化。
医学大数据分析策略与数据挖掘
讲座人:郭秀花 博士生导师 guoxiuh@ccmu.edu.cn 单 位:首都医科大学 日 期:2014年11月22日
1
提纲
1 2 3 中心概况 医学大数据及其分析策略
数据挖掘方法简介及其应用 中心概况 数据挖掘软件及其实现方法
2
医学大数据及其分析策略
3
大数据(Big Data)
37
STATA该软件是美国Computer Resource Center 研 制的统计软件,目前的12、13版本就可以实现数据 挖掘。 SAS for windows:国际权威的统计软件,有专门 的数据挖掘模块。 SPSS for Windows :该软件是一个统计专用软件 ,界面很友好。在19.0之前的版本需要加专门的 Clementine模块;19.0之后版本因有modeler,可 直接做。
x x 1 x ,2 x ,...,l x
T
代替输入向量x,
则可以得到最优分类函数为: l f x sgn w x b sgn ai yi xi x b i 1
38
基于大数据进行数据挖掘,采用 大型服务器可以提高运行速度。
39
40
41
方 法
正态性 线性、齐性 独立性 足够大的样本量 变量的20倍 ......
条 件
传统的多元统计方法难以处理和分析医学大数据
高维、非线性、非高斯等数据,采用数据挖掘方法,可以
提供更高的预测精度。
12
数据挖掘方法简介及其应用
13
数据挖掘概念
数据挖掘:是在从大量的数据中提取隐含的、 事先未知的,但又是潜在有用的信息和知识的过程。
Laplacian 核函数
Bessel核函数
26
预测模型不同判别方法结果
1. 投票法:选取多数类结果(例如:2个或者2个以上预测模 型结果为恶性)作为最后病例的预测结果; 2. 并联法:只要有一个预测模型结果判断为恶性,此病人最 终判断为恶性结果,否则为良性;
3. 串联法:只有3个预测模型同时判断为恶性,此病人最终判 断为恶性结果,否则为良性;
20
20
Monte Carlo模拟分析结果
纹理相关系数为0.1时,840个纹理值各 预测模型拟合结果
21
纹理相关系数为0.2时, 840个纹理值 各预测模型拟合结果
21
支持向量机
支持向量机(Support Vector Machine, SVM)是美国Vapnik 教授 于1963年提出的。
在解决小样本、非线性和高维 模式识别问题中表现出许多优势, 并在一定程度上克服了“维数灾难” 和“过学习”等问题。在模式识别、 回归分析、函数估计、时间序列预 测等领域,都得到了长足的发展。
01基本信息
年龄、性别等
02 既往史
肿瘤病史 粉尘接触史 遗传病史 吸烟史等
04 CT图像 纹理
高维大数据库 (变量约1000, 样本336例) 轴位纹理 冠状位纹理 矢状位纹理
03 影像学 检查
淋巴结是否肿大 边缘是否光滑 是否分叶 结节位置 有无空泡征等
18
数据挖掘主要分类预测方法
4. 综合法:合并轴状位、冠状位、矢状位数据集,建立一个 预测模型,其结果作为最终结果。
27
病例基本信息分析结果
良恶性病例人口学特征分析
良性 性别 N(Missing) 女性 n(%) 男性 n(%) 年龄 N(Missing) Mean(Std) 84(0) 50(59.52) 34(40.48) 84(0) 54.10(13.57) 恶性 252(0) 150(59.52) 102(40.48) 252(0) 59.90(12.68) 61(53~69.5) 25~83 3.45(秩和检验) 0.0006 统计值 0(卡方检验) P值 1.0000
Median(Q1~Q3) 57(46.5~63) Min~Max 21~80
不同评价方法支持向量机预测模型结果
29
利用病例人口学特征、环境遗传信息和结节形态
学信息等综合性信息,建立支持向量机预测模型。
基于人口学、环境遗传和结节形态学信息建立预测模型结果
结论:
基于三正交位CT图像,结合多方面信息,采用大数据支
定义研究问题 数据准备
大数据源 模型应用
Hale Waihona Puke Baidu
提取数据
建立模型
模型评估 14
14
数据挖掘方法概述
分类回归树
朴素贝叶斯
神经网络分类 支持向量机 回归组合模型 支持向量机回归
分类预测
决策树 随机森林
回归预测
神经网络回归 广义线性回归 K均值聚类 期望最大化EM 属性关联分析 LASSO 高维数据降维
数据挖掘
5
医学大数据的应用意义
生物标志物识别
利用大数据识别有关疾病发生、
预后或治疗效果的生物标志物 组学研究
基因组学,表观组学,蛋白组学, 代谢组学,糖基组学,等 环境因素,个体行为与各组学关联
6
医学大数据的应用意义
公共卫生监测:
传染病监测、
慢性非传染性疾病及
相关危险因素监测、
健康相关监测
群体性预防。
7
25
核 函 数
SVM中不同的内积核函数将形成不同的算法。
Gaussian 核函数:
Polynom核函数
kx . y (ax T y c)d
Vanilladot线性核函数
双曲切线核函数
kx . y tanh(ax Ty c)
kx . y xTy cd
3
在R的官方网址上,选择网站镜像 http://cran.r-project.org/mirrors.html
33
R软件
R Console: 运行过程 提示错误等
R编辑器: 编辑程序 选择运行
http://www.r-project.org/
34
支持向量机R语言实现
library(kernlab) /加载支持向量机程序包/ setwd(“D:\\ku”) /设置当前数据库路径/ datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/ svmModel <- ksvm(as.matrix(dataxunlian[1:5]), as.factor(dataxunlian$x), type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/ pre=predict(svmModel,datayuce[1:5]) write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file="result.csv") )/输出结果到result.csv / table(pre,class=datayuce$x) /结果整理/
数据量规模巨大到无法通过人工,在合理时间
内达到截取、管理、处理、并整理成为人类所能解读
的信息。
Velocity 出现和更新速度快 时效性高
Value
潜在价值大 密度低 提纯难度大
Volume
数据容量巨大: TB到PB级别 Variety 数据类型繁多: 图片、视频等
4
大数据时代的来临
•2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。 •2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。
聚类分析 关联分析 属性筛选
层次聚类
分布估计聚类 购物篮分析
15
数据挖掘方法应用实例
肺结节良恶性的判定是 CT 图像诊断肺癌中 的一个难点和关键点。在实际的临床中,肺癌 被确诊时80%以上已属中晚期。
16
应用实例
三正交位成像
矢状位
轴状位
矢状位图像库 冠状位图像库 轴状位图像库
17
冠状位
数据集合
医学大数据的应用意义
医疗协同和临床决策支持:
通过建立专用数据库,调用患者的
基因数据、病历信息等大量医学参
考数据,辅助疾病的诊断与治疗, 实现个体化诊治原则
健康管理:
通过可穿戴设备对个体体征数据 的实时、连续监测提供个体化疾 病预防和治疗方案
8
医学大数据的应用意义
可视化信息:
数据与信息图像、多媒体信息可视化,更清晰有效地 传达与沟通大数据包含的生物医学信息。
9
在生物医学研究领域,大数据:
环境气象学数据 医学影像数据 基因、蛋白等组学数据 大型临床资料 复杂的生物和环境因素研究
生物医学大数据的只要特点:高维
10
科学问题处理方式
11
常用的医学多元统计学应用受到制约
多元线性回归分析 Logistic回归分析 Cox回归分析 聚类分析 判别分析 主成分分析 因子分析 广义线性模型 ......
基于肺结节纹理 鉴别诊断肺癌
支持向量机 决策树
随机森林 最近邻分类 神经网络 Gradient Lasso回归 boosting
19
19
Monte Carlo模拟分析结果
各纹理产生30,40,50,60个子代(即纹理分别 为420,560,700,840个)。每个纹理子代分布 为正态分布,均值和标准差与轴位CT图像均值相 近; 设定每个纹理内部子代之间的相关系数为r=0.1, 0.2,0.3,0.4; 分别产生2组数据,设定两组各个变量均值之间 的差值为d(0.01-0.1)。