机器学习课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习与python实践

讲师:裴得利

大纲

•机器学习概述

•监督学习与无监督学习,特征工程

•回归模型

•线性回归, Logistic 回归

•决策树类模型

•不同决策树模型,兼谈 Bagging, Boosting和Stacking思想•评价体系

•评价指标及其误区

机器学习概述

•常见分类

•监督学习

•给定数据集并知道其正确的输出,即有反馈

•回归(Regression):特征输入→连续值输出

•分类(Classification):特征输入→离散值输出•非监督学习

•给定数据集,不知道其正确的输出,无反馈

•聚类(Clustering):输入一批样本数据→划分为若干簇

•关联分析:给定一批记录→记录中各项的关联关系

监督学习

•监督学习

•要素:特征,目标值,模型,数据集

•目标值 = 模型(特征 | 模型参数)

•模型训练

•由训练数据集获取最优模型参数 模型

•预测

•利用已有模型,对未知结果做出预测

•老司机的例子

•过往的经历(数据集),每条经历的描述(特征),人生经验(模型)

•成长(训练过程),教你做人(预测过程)

•老司机带你买二手车

•分类:这辆车是否值得买;回归:这辆车值多少钱

监督学习

•Bias – Variance tradeoff

•偏差 Bias

•预测值与真实值的平均偏差

•Bias过大:欠拟合 underfitting

•没有学习到特征值与目标值之间的偏差•方差 Variance

•同等大小数据集变动导致学习性能的波动

•Variance 过大:过拟合overfitting

•对训练集噪声过于敏感,泛化能力差

特征工程

•特征

•数据的预处理:将样本的属性转化为数据特征,刻画样本

•问题:描述那些方面,以及怎样描述

•特征工程

•时间戳处理

•分解成多维度如年、月、日、小时,区分场景

•如交通状况(天级别,小时级别),天气预测(月级别,季度级别)•类别属性处理

•误区:将类别属性转换成标量,误导模型(排序,平均)

•颜色属性:用 {1,2,3} 表示{红,绿,蓝}

特征工程

•特征工程

•类别属性处理

•one-hot 编码

•颜色属性 {红,绿,蓝} 用 { (1,0,0), (0,1,0), (0,0,1) }表示

class sklearn.preprocessing.OneHotEncoder(n_values='auto', categorical_features='all',

dtype=, sparse=True, handle_unknown='error')

•Hash编码

•近似 one-hot编码,对特征的每一种取值做hash

•缺点

•维数爆炸:个性化特征,userid,广告id,商品id,几百万上千万维

代码演示 one-hot 编码

特征工程

•特征工程

•分箱或者分区

•特征离散化:数值落入同一分区时能够呈现出共同特征

•增强鲁棒性,减少噪声干扰

•如时间分组,年龄段分组,位置分组(县乡镇 => 区市省)•交叉特征

•两个或者更多类别属性组合成一个,比单独两个特征更有意义

•常与one-hot编码方式结合

•如地理位置服务中(经度,纬度),个性化推荐中(性别,年龄)

特征工程

•特征工程

•特征选择

•解决“从哪些方面描述”的问题,领域知识要求强

•特征与目标值的相关性,前向/后向特征搜索

•特征缩放

•回归模型中尤为突出,不同量纲的特征值

•如Min-Max缩放

class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)

class sklearn.preprocessing.Normalizer(norm=‘l2’, copy=True)

大纲

•机器学习概述

•监督学习与无监督学习,特征工程

•回归模型

•线性回归, Logistic 回归

•决策树类模型

•不同决策树模型,兼谈 Bagging, Boosting和Stacking思想•评价体系

•评价指标及其误区

监督学习之回归分析

•回归分析(Regression)

•回归分析是解决预测建模任务时的一种方法,用于研究自变量与因变量之间的关系

•典型方法

•线性回归 Linear Regression

•Logistic 回归 Logistic Regression

监督学习之回归分析

•线性回归

•模型表达

•特征:对样本的多维度描述

•模型参数:

•目标值

•老司机买二手车

•特征:品牌,出厂日期/价格,里程数,外观及内饰的折旧,有无事故•模型参数:每个特征的重要程度(权重)

•目标值:二手车估价

相关文档
最新文档