大数据数据挖掘与智慧运营第五章回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第5章
回归分析
217
图 5-1
选择“线性”
^ ^ ^
(
)
yi = β 0 + β 1 xi
^
^
2
(
)
2
(
(5-2)
)
2
n n n n∑ xi yi − ∑ xi ∑ yi ^ i =1 i =1 β 1 = i =1 2 n n 2 n∑ xi − ∑ xi i =1 i =1
5.1
回归分析概述
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方 法,是应用极其广泛的数据分析方法之一。作为一种预测建模技术,它基于观测数据 建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。 回归分析按照涉及的变量多少,分为一元回归和多元回归分析;按照自变量和因 变量之间的关系类型,可分为线性回归分析和非线性回归分析;在线性回归中,按照 因变量的多少,可分为简单回归分析和多重回归分析;如果在回归分析中,只包括一 个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一 元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在 线性相关,则称为多元线性回归分析。逻辑回归模型其实仅在线性回归的基础上,套 用了一个逻辑函数,用于预测二值型因变量,但其在机器学习领域有着特殊的地位, 并且是计算广告学的核心。 在运营商的智慧运营案例中,多元线性回归可以用来预测用户下个月的通话及流 量费用,以便给用户精准推送套餐或者流量包;逻辑回归可以通过历史数据预测用户 未来可能发生的购买行为,通过模型推送的精准性降低营销成本以扩大利润。
5.2
一元线性回归
当两个变量间存在线性相关关系时,常常希望在两者间建立定量关系,两个相关 变量间的定量关系的表达即是一元线性回归方程。
第5章
回归分析
215
5.2.1 一元线性回归的基本原理
将两个变量的值绘制到散点图,从散点图上看,n 个点在一条直线附近波动,一 元线性回归方程便是对这条直线的一种估计。在估计出这条直线后,就可以利用这 一直线方程根据给定的自变量来预测因变量,这就是一元线性回归分析要解决的 问题。 下面我们假设自变量 x 是一般变量,因变量 y 是随机变量,对于固定的 x 值、 y 值也有可能不同。假定 y 的均值是 x 的线性函数,并且波动是一致的。此外总假 定 n 组数据的搜集是独立进行的。在这些假定的基础上,建立如下的一元线性回 归模型: E(y)=β0+β1x 事的标准方法是使用最小二乘法。该方法试图找出这两个参数。 (5-1)
R2 =
∑( y
nቤተ መጻሕፍቲ ባይዱ
^
∑(
i =1
i =1 n
i
−y
)
)
2
yi − y
2
(5-5)
R2 的取值范围是 [0,1]。R2 的值越接近 1,说明回归直线对观测值的拟合程度越 好;反之,R2 的值越接近 0,说明回归直线对观测值的拟合程度越差。在进行回归分 析时,首先观察判定系数的大小,如果判定系数太小,说明自变量对因变量的线性解 释程度太小,即模型的现实意义不大,可以考虑使用别的分析方法进行分析,或者使 用多元线性回归和曲线回归分析方法。
其中 x 为自变量;y 为因变量;β0 和 β1 是该模型的参数,称为回归系数。做这件
5.2.1.1 最小二乘法
一元线性回归的表达式描述了 y 的平均值或期望值如何依赖于自变量 x。现在给 出了 n 对样本数据(xi,yi),i=1,2,…,n,要我们根据这些样本数据去估计 β0 和 β1,估计值记为 β 0 和 β 1。如果 β 0 和 β 1 已经估计出来,那么在给定的 xi 值上,回归直 线上对应的点的纵坐标为:
5.2.3 SPSS软件中一元线性回归应用案例
本节内容主要介绍如何在 SPSS 中确定并建立一元线性回归方程,进行回归分析。 下面以某地区的用户前三月平均通话分钟数(MOU)和前三月平均话费(ARPU)统 计的一元线性回归为例,讲解其操作步骤和分析过程。
5.2.3.1 一元线性回归分析的操作步骤
1. 在菜单上依次选择“分析”→“回归”→“线性”,如图 5-1 所示。
^ ^ ^ ^ ^
y = ∑ yi − y i , y = ∑ yi称 − y i 为回归值,实际的观测值 y =∑ y y − yi 之间存在偏差,记偏差为 V i i与 ^ ^ 我们希望 Vy 最小。可以证明,根据微分学的原理,可以证明要使 Vy 最小, β 0 和 β 1 的值应为:
第5章
回归分析
Big Data, Data Mining And Intelligent Operation
214
大数据、数据挖掘与智慧运营
分类算法因具有预测功能而在实际生产生活中具有十分广泛的应用。本章将介绍 另外一种同样具有预测功能的数据挖掘方法——回归分析。5.1 节引入回归分析的概 念及功能;5.2 节介绍一元线性回归的原理及实际操作;5.3 节在一元线性回归的基础 上讲解多元线性回归;5.4 节介绍多种不同的非线性回归以扩充可能的各种模型;5.5 节介绍逻辑回归的算法模型及实际操作。
(5-3)
β 0 = y − β1 x
这一组解称为最小二乘估计,其中 β 1 是回归直线的斜率; β 0 是回归直线的截距, 二者可以统称为回归系数。
^ ^
^
^
216
大数据、数据挖掘与智慧运营
5.2.1.2 回归系数
通过以上介绍的最小二乘法,就可以通过样本数据求得 β 0 和 β 1 这两个回归系数, 也就能找到回归方程。在不致混淆的情况下,下文将回归系数的最佳估计值 β 0 和 β 1 全部记为 β0 和 β1,即 E(y)=β0+β1x 完成回归分析的主要任务。 (5-4)
^ ^ ^ ^
5.2.2 一元线性回归性能评估
一元线性回归得到的模型即为回归方程,该模型可以用回归直线的拟合优度来进 行评价。所谓拟合优度,是指回归直线对观测值的拟合程度。显然若观测点离回归直线 近,则拟合程度好;反之,则拟合程度差。度量拟合优度的统计量是可决系数(也称 判定系数)R2。可决系数是回归平方(SSR)占误差平方和(SST)的比例,计算公式为: SSR = SST
相关文档
最新文档