市场调查与预测实验——回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“最优”的回归方程就是包含所有对Y有影响的变量, 而不 包含对Y影响不显著的变量回归方程。
y 117 9.74x 117 9.7435 458
二、 回归模型的检验
❖拟合优度检验
–检验模型对样本观测值的拟合程度。检验方法 是构造一个表征拟合程度的统计量。
总离差平方和的分解
Yˆi ˆ0 ˆ1 X i
yi (Yi Y )
Y的i个观测值与样本均 值的离差
yi Yi Y (Yi Yˆi ) (Yˆi Y ) ei yˆi
一、 回归模型的构建
❖总体回归函数 E(Y | X ) 0 1X
个别家庭的 情况呢?
一、 回归模型的构建
❖ 总体回归模型 Y=E(Y|X)+μ
随机误差项
❖ 随机误差项可以概括表示由于人们的认识以及其它客观原 因的局限而没有考虑的种种偶然因素。主要包括下列因素 的影响:
– 由于人们认识的局限或时间、费用、数据质量等制约未引入回归模 型但又对被解释变量y有影响的因素。
二、 回归模型的检验
F检验
F检验是根据平方和分解式,直接从回归效果检验回归方 程的显著性。
F SSR /1 SSE / (n 2)
总平方和SST中,包括能够由自变量解释的部分SSR,以及 不能由自变量解释的部分SSE。回归平方和SSR越大,回归 的效果就越好。
回归分析的内容
线性回归
一元线性回归 多元线性回归 多个因变量与多个自变量的回归
【例】假定一保险公司希望确定居民住宅区火灾造成的损 失数额与该住户到最近的消防站的距离之间的相关关系, 以便准确地定出保险金额。下表列出了15起火灾事故的损 失及火灾发生地与最近的消防站的距离。
距消防站距离x(km) 3.4 1.8 4.6 2.3 3.1 5.5 0.7 3.0 火灾损失y(千元) 26.2 17.8 31.3 23.1 27.5 36.0 14.1 22.3 距消防站距离x(km) 2.6 4.3 2.1 1.1 6.1 4.8 3.8 火灾损失y(千元) 19.6 31.3 24.0 17.3 43.2 36.4 26.1
2006年消费 2006年可 2005年消 支出 支配收入 费支出
Y
7397.3
X1
9802.7
X2
6736.6
8169.3 10504.7 7505.0
12432.2 16015.6 11809.9
6792.0 9898.8 7032.8
7126.8 9395.1 9398.7 11569.7
5928.8 8623.3
多元线性回归分析
❖多元线性回归模型的一般形式
Y 0 1X1 2 X 2 k X k
【例】地区城镇居民消费模型
– 被解释变量:地区城镇居民人均消费Y – 解释变量:
• 地区城镇居民人均可支配收入X1 • 前一年地区城镇居民人均消费X2
– 样本:2006年,31个地区
地区
北京 天津 河北 山西 内蒙 古 辽宁 吉林 黑龙 江 上海 江苏 浙江 安徽 福建 江西 山东 河南
一元线性回归线性回归多元线性回归多个因变量与多个自变量的回归讨论如何从数据推断回归模型基本假设的合理性回归诊断当基本假设不成立时如何对数据进行修正判定回归方程拟合的效果选择回归函数的形式回归分析回归变量的选择自变量选择的准则逐步回归分析方法参数估计方法的改进一元非线性回归非线性回归分段回归多元非线性回归含有定性变量的回归自变量含定性变量的情况因变量是定性变量的情况多元线性回归模型的一般形式样本
400 35
8
20 160
64 458
480 25
-2
100 -200
4
361
3800 270
9855 1012
【例】某饮料公司发现,饮料的销售量与气温之间存在着相 关关系,即气温越高,人们对饮料的需求量越大。如下表所 示。试预测气温为35℃时,饮料的销售量。
1
9855 1012
9.74
0 y 1x 380 9.74 27 117
回归直线不能 解释的部分
由回归直线 解释的部分
n
n
n
(Yi Y )2 (Yi Y )2 (Yi Yi )2
i 1
i 1
i 1
总离差平方和
回归平方和
残差平方和
SST
SSR
SSE
样本可决系数
将回归平方和与总离差平方和之比定义为样本可决系数。
n
R 2
SSR SST
(Yˆi
i 1 n
(Yi
19977.5 14283.1 10304.6 10027.7 10358.0 10369.6 9775.1 9182.3 20667.9 14084.3 18265.1 9771.1 13753.3 9551.1 12192.2 9810.3
X2
13244.2 湖 北 9653.3 湖 南 6699.7 广 东 6342.6 广 西 6928.6 海 南 7369.3 重 庆 6794.7 四 川 6178.0 贵 州 13773.4 云 南 8621.8 西 藏 12253.7 陕 西 6367.7 甘 肃 8794.4 青 海 6109.4 宁 夏 7457.3 新 疆 6038.0
假设5:随机误差项与解释变量之间不相关。
假设6:随机误差项服从零均值、同方差的正态分布。
一、 回归模型的构建
❖一元线性回归模型的参数估计
Y 0 1X
Yˆ ˆ0 ˆ1X
普通最小二乘法(Ordinary Least Squares, OLS) 要求样本回归线上的点与真实观测点的“总体误差” 尽可能地小。判别标准:
50
45
y 10.279 4.919x
40
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
❖ 建立实际问题回归模型的过程
具体问题
设置指标变量
收集整理数据
构造理论模型
估计模型参数
模型检验 N
Y 模型应用
修改
回归分析方法
❖ 回归分析用于解决什么问题?
– 要认识和掌握市场的发展规律需要探求现象之 间各个变量的变化规律,变量间的统计关系是 市场发展变化规律的重要特征。
❖ 回归分析关心的是根据解释变量的已
知或给定值,考察被解释变量的总体均 值,即当解释变量取某个确定值时,与 之统计相关的被解释变量所有可能出现 的对应值的平均值。
研究过程:将该99户家庭划分为组内收入差不多的10 组,以分析每一收入组的家庭消费支出。
E(Y|X)=f(X)
一、 回归模型的构建
❖总体回归函数 E(Y|X)=f(X)
2006年消费 2006年可 2005年消
支出
支配收入 费支出
地区
Y
14825.4 10548.1 7343.5 7170.9 7666.6 7987.5 7352.6 6655.4 14761.8 9628.6 13348.5 7294.7 9807.7 6645.5 8468.4 6685.2
X1
-6
-45 270
36 322
520 35
8
140 1120 64 458
490 42
15 110 1650 225 526
470 37
10
90 900 100 477
210 20
-7 -170 1190 49 312
195
8
-19 -185 3515 361 195
270
17
-10 -110 1100 100 283
函数的具体 形式?
3500
每 月 消 费 支 出 Y (元)
3000 2500 2000 1500 1000
500
E(Y | X ) 0 1X
0
500 1000 1500 2000 2500 3000 3500 4000
每月可支配收入X(元)
描出散点图发现:随着收入的增加,消费“平均地说”也 在增加,且Y的条件均值均落在一根正斜率的直线上。这 条直线称为总体回归线。
Y )2 Y )2
i 1
二、 回归模型的检验
t检验
在回归分析中,t检验用于检验回归系数的显著性。检
验的原假设是
H0 : 1 0
对立假设是
H1 : 1 0
回归系数的显著性检验就是要检验自变量x对应变 量y的影响程度是否显著。如果原假设H0成立,则应变 量y与自变量x之间并没有真正的线性关系,也就是说 自变量x的变化对应变量y并没有影响。
回归分析的基本概念
❖ 回归分析研究的主要对象是客观事物变量间的统 计关系,它是建立在对客观事物进行大量试验和 观察的基础上,用来寻找隐藏在那些看上去是不 确定的现象中的统计规律性的统计方法。
回归分析(regression analysis)是研究一 个变量关于另一个(些)变量的具体依赖关 系的计算方法和理论。
n
n
n
Q ei2 (Yi Yˆi )2 (Yi (ˆ0 ˆ1Xi ))2
i 1
i 1
i 1
一、 回归模型的构建
❖普通最小二乘估计量
n
ቤተ መጻሕፍቲ ባይዱ
n
n
n XiYi Xi Yi
1
i 1 n
i 1
i 1
n
n
X
2 i
(
Xi )2
i 1
i 1
n
n
Yi Xi
0
i 1
n
1
i 1
n
1
(X
X )(Y (X X )2
– 一种极端的情况下一个变量的变化能完全决定 另一个变量的变化。
– 现实世界中还有不少情况是两事物之间有着密 切的联系,但它们密切的程度并没有到由一个 可以完全确定另一个的程度。
长江刀鱼是“长江三鲜”之一,本 来每年春季吃长江刀鱼是一种风俗, 但如今长江刀鱼产量越来越低,已 经成为了奢饰品,据悉市场上已经 卖到八千元一斤。近日在江苏举办 的长江刀鱼王公益拍卖会上,一条 重325克的长江刀鱼王拍出了59000 元的天价,可见如今长江刀鱼已经 稀少的堪比黄金价。
Y
)
0 Y 1X
【例】某饮料公司发现,饮料的销售量与气温之间存在着相 关关系,即气温越高,人们对饮料的需求量越大。如下表所 示。试预测气温为35℃时,饮料的销售量。
销售量 (箱)
气温 (度)
(X
X)
(Y
Y
)
(X X (Y Y )
)
(
X
X )2

430 30
3
50 150
9
409
335 21
7524.8 9350.1 6891.3
6848.4 9116.6 6159.3
7379.8 10069.9 6996.9
6192.6 7553.3
8941.1 9267.7
8617.1 6656.5
6974.2 8920.6 6529.2
6530.1 9000.4 6245.3
7205.6 9177.3 6404.3
讨论如何从数据推断回归模型基本假设的合理性
回归诊断 当基本假设不成立时如何对数据进行修正 判定回归方程拟合的效果 选择回归函数的形式
回归分析 回归变量的选择 自变量选择的准则
逐步回归分析方法
参数估计方法的改进
一元非线性回归 非线性回归 分段回归
多元非线性回归
含有定性变量的回归 自变量含定性变量的情况 因变量是定性变量的情况
影响因素 影响因素 影响因素
关系
预测对象
选择自变量
模 型 基 本 形 式
拟定应变量
研究基础:大量可靠数据
一、 回归模型的构建
问题一:我们能否获得所有数据?
【例】一个假想的社区有99户家庭组成,要研究该社区每月 家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知 道了家庭的月收入,能否预测该社区家庭的平均月消费支出 水平。
Y Yˆ ˆ ˆ0 ˆ1X e
残差项
▼回归分析的主要目的:根据样本回归函数, 估计总体回归函数。
注意:这里总体回归函 数可能永远无法知道。
一、 回归模型的构建
❖一元线性回归模型
Y 0 1X
❖一元线性回归模型的基本假设 1. 对模型设定的假设 2. 对解释变量的假设 3. 对随机误差项的假设
6730.0 8871.3 6207.5
方对程模的型总中体被线解性关释系变显量著与不解等释于每变个量解之释间变的量线对被性解关释系变 量在的总影体响上都是是否显著显的著。成必立须作对出每个推解断释。变量进行显著性检
验,以决定是否作为解释变量被保留在模型中。
多元线性回归分析
❖ 自变量的选择-逐步回归法
假设1:回归模型是正确设定的。
假设2:解(释1)变模量型X是选确择定了性正变确量的,变不量是;随机变量,在重复抽 样(中2取)固模定型值选。择了正确的函数形式;
假设3:解释变量X在所抽取的样本中具有变异性,而且随着 样本容量的无限增加,解释变量X的样本方差趋于一 个非零的有限常数。
假设4:随机误差项µ具有给定X条件下的零均值、同方差以 及不序列相关性。
– 样本数据的采集过程中变量观察值的观测误差的影响。
– 理论模型设定误差的影响。 – 其它随机因素的影响。
一、 回归模型的构建
❖ 问题二:能从一次抽样中获得总体的近似的信息吗? 如果可以,如何从抽样中获得总体近似信息?
一、 回归模型的构建
❖样本回归函数
Yˆ f (X ) ˆ0 ˆ1X
❖样本回归模型
其目的在于通过后者的已知或设定值,去估 计和(或)预测前者的(总体)均值。
被解释变量(Explained Variable)或应变 量(Dependent Variable)。
解释变量(Explanatory Variable)或自变 量(Independent Variable)。
一、 回归模型的构建
相关文档
最新文档