第7章 统计技术(1)——回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表7.2 Excel帮助文档中的办公楼数据集
Offices(x2) 2 2 3 3 2 4 2 2 3 4 2 Entrances(x3) 2 2 1.5 2 3 2 1.5 2 3 4 3 Age(x4) 20 12 33 43 53 23 99 34 23 55 22 Value 142000 144000 151000 150000 139000 169000 126000 142900 163000 169000 149000
第11页,共25页
Space(x1) 2310 2333 2356 2379 2402 2425 2448 2471 2494 2517 2540
2017年3月8日星期三
【例7.2】
使用办公楼数据集和Excel的LINEST函数,建立多元线性回归 方程,在对模型进行评估后,估计出某个未知价值的办公楼的 价值。
(式7.7)
2017年3月8日星期三
第15页,共25页
【例7.3】
使用表7.2中的办公楼数据集和Weka软件的,建立多元线性回 归模型,为某办公楼估值。
清华大学出版社
输出结果
图7.8 预估价值结果
图7.6 Weka的线性回归分析输出结果
2017年3月8日星期三 第17页,共25页
清华大学出版社
2017年3月8日星期三 第13页,共25页
清华大学出版社
输出结果
图7.4 输入LINEST函数参数
–234.2371645 13.26801148 0.996747993 459.7536742 1732393319 2553.211 530.6692 970.5785 6 5652135
表7.3
清华大学出版社
使用MS Excel建立线性回归方程
表7.1 一组x,y值
x 1 4 2 3 y 3 7 6 8
9
8 7 6
5 4 3 2
y = 1.4x + 2.5
系列1
线性 (系列1)
1 0 0 1 2 3 4 5
图7.1 表7.1中实例数据的的散点图和趋势线
2017年3月8日星期三 第8页,共25页
• 了解数据挖掘中的统计技术与机器学习技术
2017年3月8日星期三
第2页,共25页
7.1 回归分析
清华大学出版社
回归分析(Regression Analysis)
• 一种统计分析方法 • 用来确定两个或两个以上变量之间的定量的依赖关系,并建立一 个数学方程作为数学模型,来概化一组数值数据,进而进行数值 数据的估值和预测,应用非常广泛。
12529.77 400.0668 #N/A #N/A #N/A
办公楼数据集回归分析的统计值
27.64139 5.429374 #N/A #N/A #N/A 52317.83 12237.36 #N/A #N/A #N/A
Value 27.64x1 12529.77x2 2553.21x3 234.24x4 52317.83
y = ax + c • 其中
– X——自变量,y——因变量,a和c——常量; – 方程的图形是斜率为a,y轴截距为c的一条直线。 – 常量a和c的确定,是建立回归方程的重要工作,称为参数估计 (Parametric Estimating)。 – 常用的计算a和b的统计学方法是最小二乘法(Least-Squares Criterion)。
2017年3月8日星期三
第20页,共25页
清华大学出版社
3、对数回归模型的应用
• 对数回归(Logistic Regression)
– 非线性回归技术。 – 对数回归不是直接预测因变量的值,而是估计因变量取给定值的概率。 – 对因变量发生某事件的条件概率进行建模,从而预测因变量的线性函 数,因其回归方程表达形式为线性的,所以又被称之为广义线性回归 模型中的一种。
•
(图7.10)函数的图形表示,是一条限制在 [0,1]区间内的S形曲线。
e ax c p( y 1 | x) 1 e a x c
1.2
(式7.11)
1 0.8
0.6 0.4 0.2
0 -6 -4 -2 0 2 4 6
图7.10 Logistic函数
第22页,共25页
2017年3月8日星期三
第7章 统计技术 之一
回归分析
清华大学出版社
本章目标
• 回归分析
– 掌握线性回归分析方法 – 了解非线性回归 – 了解树回归
• 贝叶斯分析
– 掌握贝叶斯分析方法 – 掌握使用Weka建立贝叶斯分类器的方法
• 聚类技术
– 了解分层聚类技术——凝聚聚类和Cobweb聚类 – 了解模型聚类技术E——M算法
2017年3月8日星期三
(式7.6)
第14页,共25页
清华大学出版社
估计未知值
(7)使用回归方程预估办公楼的价值。 设有一座未知价值的办公楼,面积2500、3个办公室、2 个入口,已 使用 25 年,则其估计价值由式7.6计算所得为158257.56。
y = 27.64*2500 + 12529.77*3 + 2553.21*2 - 234.24*25 + 52317.83 = 158257.56
清华大学出版社
7.1.3 树回归(Tree Regression)
• 使用称之为回归树(Regression Tree)的决策树结构,通过构建 决策节点把数据切分成区域,然后在局部区域内进行回归拟合。 • 回归树本质上是一棵决策树,其叶结点是数值而不是分类类型值。 • 叶结点的值是经过树到达叶结点的所有实例的输出属性的平均值。 • 分类回归树(Classification And Regression Tree,CART)
p ( y 1 | x) ln a x c 1 p ( y 1 | x )
式7.10 对数回归方程
• 其中 x x 1 ,x 2 ,x 3 , x n ax c a1x 1 a2 x 2 a3 x 3 x n x n c
• 有两个或两个以上的自变量的线性回归 • 由多个自变量的最优组合共同来预测或估计因变量,结果更有效、 更准确,更符合实际需要。
式7.1 多元线性回归方程
y a1x1 a2 x2 ai xi xn xn c
• 其中
–
–
x 1 ,x 2 , ,x i, x n
是自变量,
2017年3月8日星期三
第19页,共25页
清华大学出版社
2、非线性回归分析的步骤
(1)选择适当的非线性回归方程。 (2)通过变量置换,将非线性回归转换为线性回归,利用线性回归 方法进行参数估计(式7.8)。 (3)评估非线性模型。
(式7.8)
令 y ' ln( k y ) , a ' ln(a ), 则y ' a ' bx yx
清华大学出版社
使用最小二乘法
• 要使得y的计算值与实际值之间的方差(误差平方和)(式7.3)最小。 • 分别对a和c求偏导,再使两个偏导数为0(式 7.4/5)。
E(a,c) (3 - (1a c))2 (7 - (4a c))2 (6 - (2a c))2 (8 - (3a c))2
– y 是因变量
a1 ,a2 ,a3 , ,ai , an 和c是常量, a1 ,a2 ,a3 , ,ai , an 又称回归 系数 。
2017年3月8日星期三
第10页,共25页
清华大学出版社
3、实验:使用Excel和Weka进行多元线性回归
• 使用Excel帮助文档中的LINEST函数指南实例数据集——“办公 楼”数据集(表7.2)和Excel的LINEST函数建立多元线性回归方 程,为某办公楼估值。 • 使用办公楼数据集和Weka软件的建立多元线性回归模型,为某办 公楼估值。
LINEST( E 2 : E12, A2 : D12, TRUE, TRUE)
(4)按Enter+Ctrl+Shift键,此时回归分析的输出显示在Excel 工作簿被选中的区域中。 (5)查看回归分析的输出结果(表7.3)。 (6)根据回归分析的输出结果,建立回归模型(式7.6,其中其 X1、x2 、x3 、x4 分别为地层面积、办公室个数、入口个数和使 用年数。)和对模型进行评估。
7.1.2 非线性回归
• 线性和非线性回归分析都是使用最小二乘法进行回归分析,区别 只是分析的问题中变量之间的关系呈线性的和非线性的。 • 常见的非线性回归分析模型
– 指数曲线方程
– 对数曲线方程
– 幂函数曲线方程 – 抛物线曲线方程 – 双曲线方程 – S形曲线方程与logistic曲线方程 – 等
(式7.3)
f 0 a
f 0 c
(式7.4/5)
• • 偏导计算结果——
– 60a+20c-134=0,20a+8c-48=0
解方程组,得到——
– a=1.4,b=2.5
2017年3月8日星期三
第9页,共25页
清华大学出版社
2、多元线性回归(Multivariable Linear Regression)
2017年3月8日星期三 第21页,共25页
清华大学出版社
3、对数回归模型的应用
• • • 对数回归模型的输出变量必须为二元分类变量,其数值变换为0和1。 计算输入实例取0和1的概率,拟合这些概率的模型就是对数回归模型。 通过变换,得出计算 条件概率的公式(式7.11),又称为Logistic函数 (S型函数)
2017年3月8日星期三
第18页,共25页
清华大学出版社
1、常见的非线性回归方程
(1)指数函数:
(2)对数函数:
y ae x 或 y ab x
y a b ln(x )
b (3)幂函数曲线方程 y ax
(4)抛物线函数:
y a bx cx 2
y x
或 y
a bx 1 或 y (5)双曲线函数: a bx x a bx k y (6)S形曲线函数(又称Logistic函数): 1 ae bx
式7.2 简单线性回归格式
•
最小二乘法
– 又称最小平方法。 – 通过使得因变量预测值与实际值之间的误差的平方和(方差)最小,而得出a和c 的最优解。
2017年3月8日星期三
第6页,共25页
【例7.1】
给出一组x,y值,如表7.1所示。将x作为自变量,y作为因变 量,应用最小二乘法计算a和c的值,建立简单回归方程。
是自变量, 和c是常量。
– y 是因变量 – a1 ,a2 ,a3 , ,ai , an
2017年3月8日星期三
第5页,共25页
清华大学出版社
1、简单线性回归(Simple Linear Regression)
• 只有一个自变量作为因变量的预测。 • 典型的斜截式(Slope-Intercept Form)方程。
• 一元回归分析和多元回归分析
• 线性回归分析和非线性回归分析
2017年3月8日星期三
第4页,共25页
清华大学出版社
7.1.1线性回归分析
y a1x1 a2 x2 ai xiபைடு நூலகம் xn xn c
式7.1 线性回归方程的格式
• 其中
–
x 1 ,x 2 , ,x i, x n
清华大学出版社
执行线性回归分析的步骤
(1)新建一个Excel的工作簿,使用第A1到E12放入表7.2中的数据; (2)LINEST函数的输出需要显示在至少n列的区域(回归变量的总 数,本例中n=5)。用鼠标选中至少5列的空白区域,作为回归分析 输出区域。
(3)执行回归,在Excel公式栏中键入下式:
– 根据数据特征进行二元划分来创建树。 – CART使用计算分割数据的方差作为度量,树的节点使用使得方差最小的那个 连续特征值,即方差越小的那个节点越能表达那个特征的数据。
2017年3月8日星期三
第23页,共25页
清华大学出版社
模型树(Model Trees)
• • CART的缺点是结果的解释困难。 回归树经常同线性回归方程结合起来形成模型树。
•
与回归树不同之处
• 模型树的叶节点是一个分段的线性回归方程而不是一些特征的平均属性值。
p(y 1 | x) 为条件概率(Conditional Probability),表示y取1的事件发生的条件频率,通常 被转换为一个概率比 ln( p(y 1 | x) /(1 p(y 1 | x))) ,并用对数表示, 以避免预测概率值超出[0,1]区间。通常写成 log it(p ) 的形式。
Offices(x2) 2 2 3 3 2 4 2 2 3 4 2 Entrances(x3) 2 2 1.5 2 3 2 1.5 2 3 4 3 Age(x4) 20 12 33 43 53 23 99 34 23 55 22 Value 142000 144000 151000 150000 139000 169000 126000 142900 163000 169000 149000
第11页,共25页
Space(x1) 2310 2333 2356 2379 2402 2425 2448 2471 2494 2517 2540
2017年3月8日星期三
【例7.2】
使用办公楼数据集和Excel的LINEST函数,建立多元线性回归 方程,在对模型进行评估后,估计出某个未知价值的办公楼的 价值。
(式7.7)
2017年3月8日星期三
第15页,共25页
【例7.3】
使用表7.2中的办公楼数据集和Weka软件的,建立多元线性回 归模型,为某办公楼估值。
清华大学出版社
输出结果
图7.8 预估价值结果
图7.6 Weka的线性回归分析输出结果
2017年3月8日星期三 第17页,共25页
清华大学出版社
2017年3月8日星期三 第13页,共25页
清华大学出版社
输出结果
图7.4 输入LINEST函数参数
–234.2371645 13.26801148 0.996747993 459.7536742 1732393319 2553.211 530.6692 970.5785 6 5652135
表7.3
清华大学出版社
使用MS Excel建立线性回归方程
表7.1 一组x,y值
x 1 4 2 3 y 3 7 6 8
9
8 7 6
5 4 3 2
y = 1.4x + 2.5
系列1
线性 (系列1)
1 0 0 1 2 3 4 5
图7.1 表7.1中实例数据的的散点图和趋势线
2017年3月8日星期三 第8页,共25页
• 了解数据挖掘中的统计技术与机器学习技术
2017年3月8日星期三
第2页,共25页
7.1 回归分析
清华大学出版社
回归分析(Regression Analysis)
• 一种统计分析方法 • 用来确定两个或两个以上变量之间的定量的依赖关系,并建立一 个数学方程作为数学模型,来概化一组数值数据,进而进行数值 数据的估值和预测,应用非常广泛。
12529.77 400.0668 #N/A #N/A #N/A
办公楼数据集回归分析的统计值
27.64139 5.429374 #N/A #N/A #N/A 52317.83 12237.36 #N/A #N/A #N/A
Value 27.64x1 12529.77x2 2553.21x3 234.24x4 52317.83
y = ax + c • 其中
– X——自变量,y——因变量,a和c——常量; – 方程的图形是斜率为a,y轴截距为c的一条直线。 – 常量a和c的确定,是建立回归方程的重要工作,称为参数估计 (Parametric Estimating)。 – 常用的计算a和b的统计学方法是最小二乘法(Least-Squares Criterion)。
2017年3月8日星期三
第20页,共25页
清华大学出版社
3、对数回归模型的应用
• 对数回归(Logistic Regression)
– 非线性回归技术。 – 对数回归不是直接预测因变量的值,而是估计因变量取给定值的概率。 – 对因变量发生某事件的条件概率进行建模,从而预测因变量的线性函 数,因其回归方程表达形式为线性的,所以又被称之为广义线性回归 模型中的一种。
•
(图7.10)函数的图形表示,是一条限制在 [0,1]区间内的S形曲线。
e ax c p( y 1 | x) 1 e a x c
1.2
(式7.11)
1 0.8
0.6 0.4 0.2
0 -6 -4 -2 0 2 4 6
图7.10 Logistic函数
第22页,共25页
2017年3月8日星期三
第7章 统计技术 之一
回归分析
清华大学出版社
本章目标
• 回归分析
– 掌握线性回归分析方法 – 了解非线性回归 – 了解树回归
• 贝叶斯分析
– 掌握贝叶斯分析方法 – 掌握使用Weka建立贝叶斯分类器的方法
• 聚类技术
– 了解分层聚类技术——凝聚聚类和Cobweb聚类 – 了解模型聚类技术E——M算法
2017年3月8日星期三
(式7.6)
第14页,共25页
清华大学出版社
估计未知值
(7)使用回归方程预估办公楼的价值。 设有一座未知价值的办公楼,面积2500、3个办公室、2 个入口,已 使用 25 年,则其估计价值由式7.6计算所得为158257.56。
y = 27.64*2500 + 12529.77*3 + 2553.21*2 - 234.24*25 + 52317.83 = 158257.56
清华大学出版社
7.1.3 树回归(Tree Regression)
• 使用称之为回归树(Regression Tree)的决策树结构,通过构建 决策节点把数据切分成区域,然后在局部区域内进行回归拟合。 • 回归树本质上是一棵决策树,其叶结点是数值而不是分类类型值。 • 叶结点的值是经过树到达叶结点的所有实例的输出属性的平均值。 • 分类回归树(Classification And Regression Tree,CART)
p ( y 1 | x) ln a x c 1 p ( y 1 | x )
式7.10 对数回归方程
• 其中 x x 1 ,x 2 ,x 3 , x n ax c a1x 1 a2 x 2 a3 x 3 x n x n c
• 有两个或两个以上的自变量的线性回归 • 由多个自变量的最优组合共同来预测或估计因变量,结果更有效、 更准确,更符合实际需要。
式7.1 多元线性回归方程
y a1x1 a2 x2 ai xi xn xn c
• 其中
–
–
x 1 ,x 2 , ,x i, x n
是自变量,
2017年3月8日星期三
第19页,共25页
清华大学出版社
2、非线性回归分析的步骤
(1)选择适当的非线性回归方程。 (2)通过变量置换,将非线性回归转换为线性回归,利用线性回归 方法进行参数估计(式7.8)。 (3)评估非线性模型。
(式7.8)
令 y ' ln( k y ) , a ' ln(a ), 则y ' a ' bx yx
清华大学出版社
使用最小二乘法
• 要使得y的计算值与实际值之间的方差(误差平方和)(式7.3)最小。 • 分别对a和c求偏导,再使两个偏导数为0(式 7.4/5)。
E(a,c) (3 - (1a c))2 (7 - (4a c))2 (6 - (2a c))2 (8 - (3a c))2
– y 是因变量
a1 ,a2 ,a3 , ,ai , an 和c是常量, a1 ,a2 ,a3 , ,ai , an 又称回归 系数 。
2017年3月8日星期三
第10页,共25页
清华大学出版社
3、实验:使用Excel和Weka进行多元线性回归
• 使用Excel帮助文档中的LINEST函数指南实例数据集——“办公 楼”数据集(表7.2)和Excel的LINEST函数建立多元线性回归方 程,为某办公楼估值。 • 使用办公楼数据集和Weka软件的建立多元线性回归模型,为某办 公楼估值。
LINEST( E 2 : E12, A2 : D12, TRUE, TRUE)
(4)按Enter+Ctrl+Shift键,此时回归分析的输出显示在Excel 工作簿被选中的区域中。 (5)查看回归分析的输出结果(表7.3)。 (6)根据回归分析的输出结果,建立回归模型(式7.6,其中其 X1、x2 、x3 、x4 分别为地层面积、办公室个数、入口个数和使 用年数。)和对模型进行评估。
7.1.2 非线性回归
• 线性和非线性回归分析都是使用最小二乘法进行回归分析,区别 只是分析的问题中变量之间的关系呈线性的和非线性的。 • 常见的非线性回归分析模型
– 指数曲线方程
– 对数曲线方程
– 幂函数曲线方程 – 抛物线曲线方程 – 双曲线方程 – S形曲线方程与logistic曲线方程 – 等
(式7.3)
f 0 a
f 0 c
(式7.4/5)
• • 偏导计算结果——
– 60a+20c-134=0,20a+8c-48=0
解方程组,得到——
– a=1.4,b=2.5
2017年3月8日星期三
第9页,共25页
清华大学出版社
2、多元线性回归(Multivariable Linear Regression)
2017年3月8日星期三 第21页,共25页
清华大学出版社
3、对数回归模型的应用
• • • 对数回归模型的输出变量必须为二元分类变量,其数值变换为0和1。 计算输入实例取0和1的概率,拟合这些概率的模型就是对数回归模型。 通过变换,得出计算 条件概率的公式(式7.11),又称为Logistic函数 (S型函数)
2017年3月8日星期三
第18页,共25页
清华大学出版社
1、常见的非线性回归方程
(1)指数函数:
(2)对数函数:
y ae x 或 y ab x
y a b ln(x )
b (3)幂函数曲线方程 y ax
(4)抛物线函数:
y a bx cx 2
y x
或 y
a bx 1 或 y (5)双曲线函数: a bx x a bx k y (6)S形曲线函数(又称Logistic函数): 1 ae bx
式7.2 简单线性回归格式
•
最小二乘法
– 又称最小平方法。 – 通过使得因变量预测值与实际值之间的误差的平方和(方差)最小,而得出a和c 的最优解。
2017年3月8日星期三
第6页,共25页
【例7.1】
给出一组x,y值,如表7.1所示。将x作为自变量,y作为因变 量,应用最小二乘法计算a和c的值,建立简单回归方程。
是自变量, 和c是常量。
– y 是因变量 – a1 ,a2 ,a3 , ,ai , an
2017年3月8日星期三
第5页,共25页
清华大学出版社
1、简单线性回归(Simple Linear Regression)
• 只有一个自变量作为因变量的预测。 • 典型的斜截式(Slope-Intercept Form)方程。
• 一元回归分析和多元回归分析
• 线性回归分析和非线性回归分析
2017年3月8日星期三
第4页,共25页
清华大学出版社
7.1.1线性回归分析
y a1x1 a2 x2 ai xiபைடு நூலகம் xn xn c
式7.1 线性回归方程的格式
• 其中
–
x 1 ,x 2 , ,x i, x n
清华大学出版社
执行线性回归分析的步骤
(1)新建一个Excel的工作簿,使用第A1到E12放入表7.2中的数据; (2)LINEST函数的输出需要显示在至少n列的区域(回归变量的总 数,本例中n=5)。用鼠标选中至少5列的空白区域,作为回归分析 输出区域。
(3)执行回归,在Excel公式栏中键入下式:
– 根据数据特征进行二元划分来创建树。 – CART使用计算分割数据的方差作为度量,树的节点使用使得方差最小的那个 连续特征值,即方差越小的那个节点越能表达那个特征的数据。
2017年3月8日星期三
第23页,共25页
清华大学出版社
模型树(Model Trees)
• • CART的缺点是结果的解释困难。 回归树经常同线性回归方程结合起来形成模型树。
•
与回归树不同之处
• 模型树的叶节点是一个分段的线性回归方程而不是一些特征的平均属性值。
p(y 1 | x) 为条件概率(Conditional Probability),表示y取1的事件发生的条件频率,通常 被转换为一个概率比 ln( p(y 1 | x) /(1 p(y 1 | x))) ,并用对数表示, 以避免预测概率值超出[0,1]区间。通常写成 log it(p ) 的形式。