机器学习课件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习与python实践
讲师:裴得利
大纲
•机器学习概述
•监督学习与无监督学习,特征工程
•回归模型
•线性回归, Logistic 回归
•决策树类模型
•不同决策树模型,兼谈 Bagging, Boosting和Stacking思想•评价体系
•评价指标及其误区
机器学习概述
•常见分类
•监督学习
•给定数据集并知道其正确的输出,即有反馈
•回归(Regression):特征输入→连续值输出
•分类(Classification):特征输入→离散值输出•非监督学习
•给定数据集,不知道其正确的输出,无反馈
•聚类(Clustering):输入一批样本数据→划分为若干簇
•关联分析:给定一批记录→记录中各项的关联关系
监督学习
•监督学习
•要素:特征,目标值,模型,数据集
•目标值 = 模型(特征 | 模型参数)
•模型训练
•由训练数据集获取最优模型参数 模型
•预测
•利用已有模型,对未知结果做出预测
•老司机的例子
•过往的经历(数据集),每条经历的描述(特征),人生经验(模型)
•成长(训练过程),教你做人(预测过程)
•老司机带你买二手车
•分类:这辆车是否值得买;回归:这辆车值多少钱
监督学习
•Bias – Variance tradeoff
•偏差 Bias
•预测值与真实值的平均偏差
•Bias过大:欠拟合 underfitting
•没有学习到特征值与目标值之间的偏差•方差 Variance
•同等大小数据集变动导致学习性能的波动
•Variance 过大:过拟合overfitting
•对训练集噪声过于敏感,泛化能力差
特征工程
•特征
•数据的预处理:将样本的属性转化为数据特征,刻画样本
•问题:描述那些方面,以及怎样描述
•特征工程
•时间戳处理
•分解成多维度如年、月、日、小时,区分场景
•如交通状况(天级别,小时级别),天气预测(月级别,季度级别)•类别属性处理
•误区:将类别属性转换成标量,误导模型(排序,平均)
•颜色属性:用 {1,2,3} 表示{红,绿,蓝}
特征工程
•特征工程
•类别属性处理
•one-hot 编码
•颜色属性 {红,绿,蓝} 用 { (1,0,0), (0,1,0), (0,0,1) }表示
class sklearn.preprocessing.OneHotEncoder(n_values='auto', categorical_features='all',
dtype=
•Hash编码
•近似 one-hot编码,对特征的每一种取值做hash
•缺点
•维数爆炸:个性化特征,userid,广告id,商品id,几百万上千万维
代码演示 one-hot 编码
特征工程
•特征工程
•分箱或者分区
•特征离散化:数值落入同一分区时能够呈现出共同特征
•增强鲁棒性,减少噪声干扰
•如时间分组,年龄段分组,位置分组(县乡镇 => 区市省)•交叉特征
•两个或者更多类别属性组合成一个,比单独两个特征更有意义
•常与one-hot编码方式结合
•如地理位置服务中(经度,纬度),个性化推荐中(性别,年龄)
特征工程
•特征工程
•特征选择
•解决“从哪些方面描述”的问题,领域知识要求强
•特征与目标值的相关性,前向/后向特征搜索
•特征缩放
•回归模型中尤为突出,不同量纲的特征值
•如Min-Max缩放
class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
class sklearn.preprocessing.Normalizer(norm=‘l2’, copy=True)
大纲
•机器学习概述
•监督学习与无监督学习,特征工程
•回归模型
•线性回归, Logistic 回归
•决策树类模型
•不同决策树模型,兼谈 Bagging, Boosting和Stacking思想•评价体系
•评价指标及其误区
监督学习之回归分析
•回归分析(Regression)
•回归分析是解决预测建模任务时的一种方法,用于研究自变量与因变量之间的关系
•典型方法
•线性回归 Linear Regression
•Logistic 回归 Logistic Regression
监督学习之回归分析
•线性回归
•模型表达
•特征:对样本的多维度描述
•模型参数:
•目标值
•老司机买二手车
•特征:品牌,出厂日期/价格,里程数,外观及内饰的折旧,有无事故•模型参数:每个特征的重要程度(权重)
•目标值:二手车估价