医学科研数据挖掘方法挖掘技术3PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 用途
▫ 分类、回归、异常值检测……
人工神经网络
输入层
中间层(隐含层)
输出层
• 神经网络可以分为三 个部分——输入层、 中间层、输出层
• 中间层可以为单层, 也可以为多层
• 一般建模时,输入层 的神经元个数为影响 因素个数,输出层为 结局变量个数,中间 层没有固定的个数, 需要经验和实际情况 确定
• 用法:分类预测,回归预测,卫生决策…
支持向量机原理
支持向量机(SVM)本质上是一种分类判别函数
H2 H
H1
• H是分类面,H1和H2是平 行于H,且分离H最近的两 类样本的直线,H1与H, H2与H之间的距离就是几 何间隔
• 离分类面H最近的样本点, 因其构成了H1,H2平面, 成为H1、H2的支持向量
Decrease Usage
???
Time
决策树的原理
无强制措施 铅中毒诊断
有强制措施
中毒 P=0.73
无中毒 P=0.27
无中毒 P=0.62 中毒 P=0.38
低
P=0.46 中
P=0.43 高
P=0.11
¥0
¥75 ¥150 ¥350
¥18
低 P=0.50
中
P=0.46
高 P=0.04
¥79 ¥146 ¥305
• 点评:同一个病人重复测量了若干血液动力 学指标,地氟醚浓度是与“重复测量’有关 的因素,因而此资料属于具有一个重复测量 的单因素设计资料,作者采用T检验进行两 两比较,因T检验仅适合分析单因素设计且 因素的水个数最多为2的定量资料,因此不 适合分析此类资料。根据数据可采用重复测 量设计资料的方差分析。
案例二
• 原文题目:《地氟醚对老年病人血液动力学的影 响》,为研究地氟醚对老年病人血液动力学的影 响,选择腹部手术老年病人(年龄60一74岁)30例, 所有病人术前肝肾功能检查均正常。在吸入地氟 醚 前 , 监 测 心 输 出 量 (CO) 、 峰 流 速 (PV) 、 心 率 (HR)、校正的血流时间(FTC)、中心静脉压(CVP)、 心脏指数(CI)、平均动脉压(MAP)、外周血管阻 力(SYR)作为基础值,然后分别调整地氟醚浓度 至0.5MAC、1.0 MAC、1.5MAC、2.0MAC,同时 测定以上各参数。结果见表。统计学处理:采用 T检验来测定差异显著性,P<0.05为有显著性差 异。
统计学四型错误
Ⅰ型错误:也称假阳性错误。即当原假设H0客观上成立,但根 据假设检验的规则,将有α大小的概率错误地拒绝H0,同 时错误地接受备择假设H1。
Ⅱ型错误:也称假阴性错误。即当H0客观上不成立,但根据假 设检验的规则,将有β大小的概率错误地拒绝H1,同时错 误地接受H0。
Ⅲ型错误:即最终回答的是1个错误的问题。此错误主要是由于 试验设计不周密不完善所致,如在试验设计中未将重要 的试验因素包括在内。
• 支路
决策节点 机会节点
结局节点
▫ 从根节点(决策节 点)到叶节点(结 局节点)为一条支 路
▫ 从一个决策节点放 射出来的支路必须
互斥且包含一切可
能的情况,即每一
方案各种状态发生
的概率之和为1
决策树的特点
• 优点
▫ 直观,易于理解及解释 ▫ 对资料分布无特殊要求
• 缺点
▫ 处理大样本多变量时效率较低 ▫ 分类性能较神经网络与SVM稍差
• 从数学上可以证明分类面 的几何间隔越大,分类误
几何
差越小
间隔
• SVM:最大化几何间隔, 寻找最优分类面
SVM的特点
• 优点
▫ 对样本量需求小 ▫ 高维识别:对大样本量的数据能降低部分运算复杂
性 ▫ 很好的“鲁棒性”(数据容错能力) ▫ 能处理非线性可分样本 ▫ 得到全局最优解
• 缺点
▫ 对变量数很多的数据计算复杂度很大 ▫ 解决多分类问题效果不好 ▫ 作为分类器,难以解释各因素的影响大小
• 用途
▫ 预测、模式识别……
聚类概念
• 聚类就是将数据对象组成不同的类,使得不同类 之间的相似性尽量小,而同类对象之间的相似性 尽量大
• 探索性统计分析方法
• 在不知道应分多少类合适的情况下,试图借助某 种数理方法用已收集的资料找出研究对象的适当 分类
Ⅳ型错误:即对1个假设进行了多项正确的检验,但在对因果关 系的分析时作出了错误的比较和解释,这些比较并非是 由被使用的模型所定义的。此错误主要出现在结果的解 释阶段。
二.统计分析方法回顾
I. 无假设的数据挖掘方法
决策树
Income>$40K
Yes
NO
来自百度文库
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
聚类分析
支持向量机
H
H
H 2
1
关联分析
神经网络
Q5 Q6
Q3 Q4
I1
I2
factor n
factor 1 factor 2
时间序列分析
Open Accn’t
Add New Product
• 如图所示的人工神经 网络结构为4-6-3-1, 神经网络的结构越复 杂越能拟合复杂的模 型
神经网络的特点
• 优点
▫ 对数据分布要求低,不需要对数据分布进行检验 ▫ 具有很强的数据容错能力(鲁棒性) ▫ 能拟合因素间复杂的非线性关系
• 缺点
▫ 黑箱子模型,难以写出推理过程及模型公式 ▫ 其预测精度受训练集的影响 ▫ 易陷入局部最优解
➢ 点评:根据研究目的,每个哮喘患者都能提供一个药
物发生疗效的时间,因而此资料从本质土讲应为定量 资料,表中结果只是为了表达的方便列出不同时点上 的频数分布,并不代表此资料的结果变量就为定性资 料。原作者采用卡方检验分析定量资料,所能回答的 问题与原作者的分析目的不一致。此时得出的结论只 能是美喘清组和博利康尼组在不同起效时间的构成上 存在的差别是否具有统计学意义,并不能得出两组起 效时间之间的差别具有统计学意义。
数据挖掘技术(3)
一.文章错误案例 二.统计分析方法回顾 三.如何正确选择统计分析方法
四.统计分析方法应用案例
一.文章错误案例
案例一
• 原文题目:《美喘清和博利康尼治疗支气管 哮喘各40例临床疗效与副作用比较》,作者 选择80例哮喘病人随机分为美喘清组与博利 康尼组各40例,记录各组病人发生疗效的时 间(见下表)。所得结果用卡方检验进行处 理,认为美喘清较博利康尼发生疗效的时间 早,且差异具有统计学意义(P<0.05)。
▫ 分类、回归、异常值检测……
人工神经网络
输入层
中间层(隐含层)
输出层
• 神经网络可以分为三 个部分——输入层、 中间层、输出层
• 中间层可以为单层, 也可以为多层
• 一般建模时,输入层 的神经元个数为影响 因素个数,输出层为 结局变量个数,中间 层没有固定的个数, 需要经验和实际情况 确定
• 用法:分类预测,回归预测,卫生决策…
支持向量机原理
支持向量机(SVM)本质上是一种分类判别函数
H2 H
H1
• H是分类面,H1和H2是平 行于H,且分离H最近的两 类样本的直线,H1与H, H2与H之间的距离就是几 何间隔
• 离分类面H最近的样本点, 因其构成了H1,H2平面, 成为H1、H2的支持向量
Decrease Usage
???
Time
决策树的原理
无强制措施 铅中毒诊断
有强制措施
中毒 P=0.73
无中毒 P=0.27
无中毒 P=0.62 中毒 P=0.38
低
P=0.46 中
P=0.43 高
P=0.11
¥0
¥75 ¥150 ¥350
¥18
低 P=0.50
中
P=0.46
高 P=0.04
¥79 ¥146 ¥305
• 点评:同一个病人重复测量了若干血液动力 学指标,地氟醚浓度是与“重复测量’有关 的因素,因而此资料属于具有一个重复测量 的单因素设计资料,作者采用T检验进行两 两比较,因T检验仅适合分析单因素设计且 因素的水个数最多为2的定量资料,因此不 适合分析此类资料。根据数据可采用重复测 量设计资料的方差分析。
案例二
• 原文题目:《地氟醚对老年病人血液动力学的影 响》,为研究地氟醚对老年病人血液动力学的影 响,选择腹部手术老年病人(年龄60一74岁)30例, 所有病人术前肝肾功能检查均正常。在吸入地氟 醚 前 , 监 测 心 输 出 量 (CO) 、 峰 流 速 (PV) 、 心 率 (HR)、校正的血流时间(FTC)、中心静脉压(CVP)、 心脏指数(CI)、平均动脉压(MAP)、外周血管阻 力(SYR)作为基础值,然后分别调整地氟醚浓度 至0.5MAC、1.0 MAC、1.5MAC、2.0MAC,同时 测定以上各参数。结果见表。统计学处理:采用 T检验来测定差异显著性,P<0.05为有显著性差 异。
统计学四型错误
Ⅰ型错误:也称假阳性错误。即当原假设H0客观上成立,但根 据假设检验的规则,将有α大小的概率错误地拒绝H0,同 时错误地接受备择假设H1。
Ⅱ型错误:也称假阴性错误。即当H0客观上不成立,但根据假 设检验的规则,将有β大小的概率错误地拒绝H1,同时错 误地接受H0。
Ⅲ型错误:即最终回答的是1个错误的问题。此错误主要是由于 试验设计不周密不完善所致,如在试验设计中未将重要 的试验因素包括在内。
• 支路
决策节点 机会节点
结局节点
▫ 从根节点(决策节 点)到叶节点(结 局节点)为一条支 路
▫ 从一个决策节点放 射出来的支路必须
互斥且包含一切可
能的情况,即每一
方案各种状态发生
的概率之和为1
决策树的特点
• 优点
▫ 直观,易于理解及解释 ▫ 对资料分布无特殊要求
• 缺点
▫ 处理大样本多变量时效率较低 ▫ 分类性能较神经网络与SVM稍差
• 从数学上可以证明分类面 的几何间隔越大,分类误
几何
差越小
间隔
• SVM:最大化几何间隔, 寻找最优分类面
SVM的特点
• 优点
▫ 对样本量需求小 ▫ 高维识别:对大样本量的数据能降低部分运算复杂
性 ▫ 很好的“鲁棒性”(数据容错能力) ▫ 能处理非线性可分样本 ▫ 得到全局最优解
• 缺点
▫ 对变量数很多的数据计算复杂度很大 ▫ 解决多分类问题效果不好 ▫ 作为分类器,难以解释各因素的影响大小
• 用途
▫ 预测、模式识别……
聚类概念
• 聚类就是将数据对象组成不同的类,使得不同类 之间的相似性尽量小,而同类对象之间的相似性 尽量大
• 探索性统计分析方法
• 在不知道应分多少类合适的情况下,试图借助某 种数理方法用已收集的资料找出研究对象的适当 分类
Ⅳ型错误:即对1个假设进行了多项正确的检验,但在对因果关 系的分析时作出了错误的比较和解释,这些比较并非是 由被使用的模型所定义的。此错误主要出现在结果的解 释阶段。
二.统计分析方法回顾
I. 无假设的数据挖掘方法
决策树
Income>$40K
Yes
NO
来自百度文库
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
聚类分析
支持向量机
H
H
H 2
1
关联分析
神经网络
Q5 Q6
Q3 Q4
I1
I2
factor n
factor 1 factor 2
时间序列分析
Open Accn’t
Add New Product
• 如图所示的人工神经 网络结构为4-6-3-1, 神经网络的结构越复 杂越能拟合复杂的模 型
神经网络的特点
• 优点
▫ 对数据分布要求低,不需要对数据分布进行检验 ▫ 具有很强的数据容错能力(鲁棒性) ▫ 能拟合因素间复杂的非线性关系
• 缺点
▫ 黑箱子模型,难以写出推理过程及模型公式 ▫ 其预测精度受训练集的影响 ▫ 易陷入局部最优解
➢ 点评:根据研究目的,每个哮喘患者都能提供一个药
物发生疗效的时间,因而此资料从本质土讲应为定量 资料,表中结果只是为了表达的方便列出不同时点上 的频数分布,并不代表此资料的结果变量就为定性资 料。原作者采用卡方检验分析定量资料,所能回答的 问题与原作者的分析目的不一致。此时得出的结论只 能是美喘清组和博利康尼组在不同起效时间的构成上 存在的差别是否具有统计学意义,并不能得出两组起 效时间之间的差别具有统计学意义。
数据挖掘技术(3)
一.文章错误案例 二.统计分析方法回顾 三.如何正确选择统计分析方法
四.统计分析方法应用案例
一.文章错误案例
案例一
• 原文题目:《美喘清和博利康尼治疗支气管 哮喘各40例临床疗效与副作用比较》,作者 选择80例哮喘病人随机分为美喘清组与博利 康尼组各40例,记录各组病人发生疗效的时 间(见下表)。所得结果用卡方检验进行处 理,认为美喘清较博利康尼发生疗效的时间 早,且差异具有统计学意义(P<0.05)。