简单线性回归模型分析.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
连锁店附近的人流与店的利润
气温与滑雪场门票销量
………
2
阿姆德比萨饼连锁店的问题
阿姆得(Armand)比萨饼连锁店坐落在美国的5 个州内,它们通常的位置是在大学旁边,而且管理人 员相信附近大学的人数与这些连锁店的季度销售额是 有关系的。下面是10家连锁店附近大学的学生人数和 季度销售收入的数据:
xi yi ( xi2 (
xi xi
)
2
yi ) /n
/
n
,
b0 y b1 x
估计的回归直线 yˆ b0 b1x
11
阿姆德连锁店的回归直线
估计参数
b1=5
250
季度销售收入/千美圆
b0=60
200 150
回归直线
100
50
yˆ 60 5x
0
0
5
10
15
20
25
30
你对系数的含义怎么
xi2 ( xi )2
/ n
E( yp )的1置信区间是
yˆ p t / 2 (n 2) syˆ p ( 98.58, 121.42)
21
使用你建立的模型(三)
对于问题二,如何给出一个预测区间, 使得这家连锁店的季度销售收入落在该 区间里面的概率是1-?
y p的概率为1 的预测区间是
这些假定意味着什么?
9
f
y 服从在回归直线附近的正态分布
对每个 x 值, y分布的方差相同.
Y
X2
X1 X
回归直线
10
估计的回归方程
如何估计参数和?
最小二乘准则
n
求解 min ( yi 0 1 xi )2 0 ,1 i1
得出达到最小值点(b0 , b1)为0和1的点估计
b1
连锁店
1
学生人数/千人 2
销售额/千元 58
2 3 4 5 6 7 8 9 10 6 8 8 12 16 20 20 22 26 105 88 118 117 137 157 169 149 202
根据以上数据,你能否判断学生人数(x)如何影 响到销售收入(y)?根据一家连锁店附近大学的人数, 你能够预测该家连锁店的季度销售收入吗?
变量x的确对y有解释作用吗?(H0: =0) 检验统计量
F=MSR/MSE 其中MSR=SSR/自变量的个数 拒绝域
F>F(1, n-2)
17
回归方程的方差分析表
方差来源 回归 误差 总计
平方和 SSR SSE SST
自由度 1 n-2 n-1
均方 F值 MSR MSR/MSE MSE
18
阿姆德连锁店的情形
Relationship NOT Linear
Negative Linear Relationship
No Relationship
5
模型的引入
对于给定的学生人数,销售收入是唯一确定的 一个数,还是一个随机变量?
学生人数的变化如何影响到销售收入? 使用的模型
6
简单线性回归模型
Y 的截距
Y 0 1X
使用EXCEL对阿姆德连锁店的数据 建立模型,并进行分析,基于EXCEL的输 出结果,你对该模型有些什么认识?
19
使用你建立的模型(一)
问题一:对于那些附近学校人数是1万的 连锁店,他们的季度销售收入一定是一 样吗?这种连锁店平均的季度销售收入 是多少?你能够给出一个估计吗?
问题二:某家连锁店附近学生总数约1万 人,你能够给出它的季度销售收入的一 个估计值吗?
第十讲
简单线性回归模型
1
建立两个变量X和Y间的关系模型,推断变量Y 如何依赖于变量X, 从而可以用X预测Y.
例:
广告费用和销售量
公司的市值与CEO的年薪
原始股的销售数量和期望价格
证券市场收益率与某只股票的收益率
商品价格和销售量
装配线的速度和次品数量
年收入与信用卡消费金额
年龄与手机话费
3
描述学生人数和销售收入之间的关系
协方差(315.56)和相关系数(0.95),散点图;
250
季度销售收入/千美圆
200
150
100
50
0
0
5
10
15
20
25
30
学生人数/千人
根据这些你可以得到什么结论?
百度文库
4
Types of Regression Models
Positive Linear Relationship
学生人数/千人
理解?
12
回归方程的判定系数
y的总变差的分解
SST ( yi y)2 ( yi yˆi yˆi y)2
( yi yˆi )2 ( yˆi y)2 SSE SSR
定义判定系数R2=SSR/SST. 判定系数的含义是什么? 阿姆德比萨饼连锁店的例子:R2=0.9027. 判定系数和相关系数的关系。
点估计:110
20
使用你建立的模型(二)
对于问题一,如何得到这种连锁店平均 销售收入的一个95%的置信区间?
对于给定的xp , yˆ p b0 b1xp是E( y p )的无偏估计。
yˆ p的分布是N (E( yp ),
2 yˆ p
), 其中
2 的估计是
yˆ p
s2 yˆ p
s
2
1 n
(xp x)2
的一个无偏估计 s2=MSE=SSE/(n-2)
15
关于回归系数的假设检验
H0 : 1 0 H1 : 1 0
检验统计量
t b1
sb1
其中sb1
s
xi2
1 n
(
xi )2 是b1的标准误差
给定显著水平时,选择拒绝域
t t /2 (n 2)或者t t /2 (n 2)
16
关于回归方程整体的检验
yˆ p t / 2 (n 2) sind
其中
s2 ind
s2 1
1 n
(xp x)2
xi2 ( xi )2 / n
( 76.13, 143.87)
随机误 差
因变量(响 应变量,被 预测变量)
斜率
自变量(解释 变量,预测变 量)
7
Y
观测值
Yi 0 1Xi i 观测值
i
=
随机误差
Y 0 1X
X
8
模型的假定
1) E()=0; (E(y)=x) 2) 对于所有的x,Var()=. 3) 是服从正态分布N(0, ) 的. 4) 对于不同的x, 是相互独立的.
13
Coefficients of Determination (r2) and Correlation (r)
Y r2 = 1,r = +1
Y r2 = 1, r = -1
X
Yr2 = .8, r = +0.9
X
Y r2 = 0, r = 0
X
X
14
的估计
理解误差平方和 SSE ( yi yˆi )2 ( yi b0 b1xi )2