机器学习算法的分类与选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Linear Discriminant Analysis
回归
CHIMA 20139
01 02 03 04
特
征 降 维
聚 类
分 类
&
总
回
结
归
目 录
CHIMA 20149
特征降维
特征向量较多时使用SVM进行分类,结果并不理想; 随机删除几个特征后,准确率反而提升?
CHIMA 20159
特征降维 == 特征选择???
➢ 采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的 提出和治疗策略的制定有重大暗示
3. 疾病与模式基因之间的关联关系分析研究 4. 特征解释
CHIMA 201195
案例分享2
——利用层次聚类解释模型
长 老青幼小中中
寿 年年儿学年学
老 人人园生人生
人
学
生
肠道菌群与年龄之间的关系研究
从公共数据库中选用江苏地区923个健 康人(按照年龄被分为7组)粪便检材的 16S测序数据,从中获取5621个菌群的丰 度值,特征筛选后得到278个菌群的丰度值, 用来对不同年龄分组的样本做层次聚类。
3项
6项
9项
76项
•性别 •年龄 •BMI
•呼衰 •肾衰 •脑梗 •冠心病 •糖尿病 •高血压
•射血分数 •缩短分数 •胸腔积液 •心包积液 •二尖瓣反 流 •……
•血常规类 15项 •血生化类 38项 •尿类化验 23项
特征分布情况
心衰患者是否发生院内死亡预测
选取2015-2018年于解放军总医院住院 的心衰患者,根据是否发生院内死亡选择 正样本1094例,随机筛选负样本1094例, 选用94个特征用SVM做分类,利用5折交叉 验证法进行结果评估。
机器学习算法的 分类&选择
2019年7月4日
PCA DBSCAN
K-means Adaboost
LDA
KNN GBDT
决策树
SVM 逻辑回归
随机森林
Xgboost
神经网络
机 器 学 习 算 法
CHIMA 20129
聚类 分类
降 维 Dimension Reduction
Try PCA
Supervised
找一个高 维到低维 的映射!
特征降维
特征选择
删除若 干特征!
通过属性间的关系(如组合 不同的属性得新的属性)改 变原来的特征空间
从原始特征数据集中选择出 子集,是一种包含的关系, 没有更改原始的特征空间
CHIMA 20169
特征选择
Filter(过滤法)
Wrapper(包装法) Embedded(嵌入法)
分组
幼儿园学生 小学生 中学生 青年人 中年人 老年人 长寿老人
年龄
3-6 8-12 13-14 19-24 30-50 60-79 >94
K-means聚类(不断迭代过程)
K-modes(k众数聚类)
对分类型数据进行聚类 采用差异度(属性不相同的个数)来
代替k-means算法中的距离
CHIMA 201193
分层聚类
密度聚类
K-means 高斯混合聚类
聚类方法优缺点:
优点:让数据变得有意义 缺点:结果难以解读,针对不寻常的数据组,结果可 能无用
如:基于随机森林 的特征选择方法
CHIMA 20179
特征降维
PCA(主成分分析)
SVD(奇异值分解)
LDA(线性判别分析)
A
无监督的降维
找到一个能最大保留数 据方差信息的子空间, 降维后的数据是原来特 征在新空间中的映射值
无监督的降维
将矩阵A分解为三个矩 阵UΣVT的乘积,选择Σ 中数值较大的几个奇异 值及U和VT中对应的奇 异向量,完成特征降维。
应用:
• PCA是最常用的数据降维方法,可用于图像压缩等领域 • SVD可用于推荐系统、自然语言处理等领域,如电子病历文本
潜在语义分析 • LDA既可以用于降维也可用于分类
缺点:
• 经过降维后的数据与原特征不存在一一对应关系,较难解释
CHIMA 20199
案例分享1
——利用PCA对数据集去噪
基本信息 共病信息 检查信息 检验信息
➢ K-means聚类: ✓ 简单,最常用; ✓ 仅适用凸的样本集聚类,受离群值影响大
➢ 高斯混合聚类: ✓ 在各类尺寸不同、聚类间有相关关系时可 能比k-means聚类更合适;
✓ 需要初始化多个参数 CHIMA 201194
聚类方法在医学中的应用:
1. 无监督的医学图像分割 2. 疾病可能存在的亚型分类研究
原型聚类
https://scikit-learn.org/stable/modules/clustering.html
➢ 分层聚类: ✓ 不需要预先制定聚类数,可以发现类的层 次关系; ✓ 耗时,受离群值影响大
➢ 密度聚类: ✓ 不需要输入类别数,可发现任意形状的聚 类簇,可识别离群值; ✓ 无法反映数据尺寸,对高维数据密度难以 定义
按照发散性或者相 关性对各个特征进 行评分,设定阈值 或者待选择阈值的 个数,选择特征。
如:移除低方差的 特征、移除相关性 较高的特征
根据目标函数(通 常是预测效果评 分),每次选择若 干特征,或者排除 若干特征。
如:递归地训练基 模型,移除对模型 贡献度较பைடு நூலகம்的特征
使用某些机器学习 的算法和模型进行 训练,得到各个特 征的权值系数,根 据系数从大到小选 择特征。
层次聚类
凝聚方法AGNES 分裂方法DIANA
聚类 密度聚类
DBSCAN
原型聚类
GMM
K-means
AGNES
DBSCAN
GMM
CHIMA 201192
K-MEANS(K均值聚类)
对数值型数据进行聚类 随机选取K个对象作为初始的聚类中
心,把每个对象分配给距离它最近的 聚类中心,根据聚类中现有的对象重 新计算聚类中心,不断重复此过程直 到满足终止条件
有监督的降维
相同类别在超平面上投 影之间的距离尽可能近, 不同类别投影之间的距 离尽可能远,最多降到 类别数-1的维数
CHIMA 20189
降维算法的注意事项:
➢ PCA、SVD、LDA均为线性降维方法,但可引入核函数实现非线 性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等
➢ LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合
SVM 5折交叉验证结果
未经过PCA降维
经过PCA降维到 90维
训练集AUC 0.9591 0.9009
测试集AUC 0.8436 0.8605
CHIMA 201190
聚类
想做一个分类问题,但是却没有分类标签? 如:疾病可能存在的亚型研究 如:疾病风险因素的归类分析
CHIMA 201191
聚类方法的类别