机器学习—常见几种回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16 of 36
线性回归分析流程:
17 of 36
关于偏差ε的假定
1、 ε是一个随机的变量,均值为0 2、 ε的方差(variance)对于所有的自变量x是一样的 3 、ε的值是独立的 4、 ε满足正态分布
18 of 36
简单线性回归模型举例
汽车卖家做电视广告数量与卖出的汽车数量:
19 of 36
其中,b0是估计线性方程的纵截距,b1是估计线性方程的斜率 ,ŷ是在自变量x等于一个给定值的时候,y的估计值。 使用场景: 一般来说,只要觉得数据有线性关系,首先选择 LinearRegression类。如果发现拟合或者预测的不好,再考虑 用其他的线性回归库。如果是学习线性回归,推荐先从这个类开
始第一步的研究。
回归学习
School of Information and Mathematics
2 of 36
内容概要
1、线性回归 2、多元线性回归 3、代价函数
4、多项式回归
5、逻辑回归
6、岭(Ridige)回归
7、Lasso回归
8、ElasticNet回归
3 of 36
回归学习
回归属于有监督学习中的一种方法。该方法
如何画出适合简单线性回归模型的最佳回归线?
Leabharlann Baidu
20 of 36 使sum of squares最小 计算过程
21 of 36
预测
假设有一周广告数量为6,预测的汽车销售量是多少?
x_given = 6 Y_hat = 5*6 + 10 = 40
22 of 36
多元线性回归
1. 与简单线性回归区别(simple linear regression):多个自变量(x)
2. 多元回归模型 y=β0+β1x1+β2x2+ … +βpxp+ε
其中:β0,β1,β2… βp是参数值,ε是误差值
3. 多元回归方程 E(y)=β0+β1x1+β2x2+ … +βpxp 4. 估计多元回归方程 y_hat=b0+b1x1+b2x2+ … +bpxp
8 of 36
回归学习
学习过程
首先给出一个输入数据,算法通过一系列的过程得到一个估计的函数,这个函数 有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。就如同上 面的线性回归函数。
一个典型的机器学习的过程
9 of 36
回归学习
线性回归(Linear regression)是利用称为线性 回归方程的最小平方函数对一个或多个自变量和因 变量之间关系进行建模的一种回归分析. 线性回归属于监督学习,因此方法和监督学习应 该是一样的,先给定一个训练集,根据这个训练集 学习出一个线性函数,然后测试这个函数训练的 好不好(即此函数是否足够拟合训练集数据),挑 选出最好的函数(cost function最小)即可.
的核心思想是从连续型统计数据中得到数学
模型,然后将该数学模型用于预测或者分类。
该方法处理的数据可以是多维的。
回归是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一 次回归预测,目的是根据上一代豌豆的种子(双亲)的尺寸来预测下一代豌豆 种子(孩子)的尺寸(身高)。Galton在大量对象上应用了回归分析,甚至包 括人的身高。他得到的结论是:如果双亲的高度比平均高度高,他们的子女也 倾向于平均身高但尚不及双亲,这里就可以表述为:孩子的身高向着平均身高 回归。Galton在多项研究上都注意到了这一点,并将此研究方法称为回归。
例子
假如你刚刚搬到学校,需要知道在你学校周围的房价,设 计一个数据回归程序。
房 租
房 租
1.0/距离
距离
房间
6 of 36
回归学习
如果来了一个新的面积,假设在销售价钱的 记录中没有的,怎么处理? 解决方法:用一条曲线去尽量准的拟合这些 数据,然后如果有新的输入过来,我们可以 在将曲线上这个点对应的值返回。如果用一 条直线去拟合,可能是下面的样子:
问题引入
假设有一个房屋销售的数据如下: 面积(m^2) 销售价钱 (万元)
123 150 87 102 …
250 320 160 220 …
7 of 36
回归学习
常用概念和符号: 房屋销售记录表:训练集(training set)或者训练数据 (training data), 是我们流程中的输入数据,一般称为x 房屋销售价钱:输出数据,一般称为y 拟合的函数(或者称为假设或者模型):一般写做 y = h(x) 训练数据的条目数(#training set),:一条训练数据是 由一对输入数据和输出数据组成的输入数据的维度n (特征的个 数,#features) 这个例子的特征是两维的,结果是一维的。然而回归方法能 够解决特征多维,结果是一维多离散值或一维连续值的问题。
4 of 36
线性回归介绍
例子
假如你刚刚搬到学校,需要知道在你学校周围的房价,设计 一个数据回归程序。
距离学校的距 离 卧室数目 房租
2.30km 5.06km
1 2
1600 2000
4.33km
1.09km …
2
1
2100
1500
1.50km
2.70km
1
1.5
?
?
5 of 36
线性回归介绍
10 of 36
线性回归
注意: (1)因为是线性回归,所以学习到的函数为线性函数,即直线函数
(2)因为是单变量,因此只有一个x;
单变量线性回归模型:
X:feature,h(x):hypothesis; 问题:线性函数拟合的好不好?
11 of 36
简单线性回归(Simple Linear Regression) 1 很多做决定的过程通常是根据两个或者多个变量之间的关系 2 回归分析(regression analysis):用来建立方程模拟两个或者 多个变量之间如何关联 3 被预测的变量叫做:因变量(dependent variable), y, 输出
(output)
4 被用来进行预测的变量叫做: 自变量(independent variable), x, 输入(input)
12 of 36 正向线性关系
13 of 36
负向线性关系:
14 of 36
无关系:
15 of 36
估计的简单线性回归方程
ŷ=b0+b1x
这个方程叫做估计线性方程(estimated regression line)