第九章(二)回归分析1PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
nanxbny
nxa(
n i1
xi2
)b
n i1
xi
yi
其中
x1 n
ni1
xi,y1nin1
yi,
返回
n nx
D
nx
xi2 n(
n
xi2nx2)n (xi x)2 0
i1
所以方程组有解,解得
aˆ
bˆ
y
bˆ x l xy
l xx
其中
n
回归直线经过散点几何中心
lxx (xi x)2 i1
总体方差 2 的一个无偏估计量是:
n
n
S2n 12 (yi ˆyi )2n 12 ei2
i1
i1
用S2代替2,得到 aˆ , bˆ 方差的无偏估计量分别是:
Sa ˆ2S2(n 1lxx2x),Sb ˆ2lS x2x
它们的算术平方根分别称为a,b的估计标准误差。
4. a和b的区间估计
置信水平为1 的区间估计是:
可得到: yi ~N(abix ,2)
如果给出a和b的估计量分别为aˆ ,bˆ ,则经验回归方程为:
ˆyi aˆ bˆxi
一般地,
ei yi ˆyi 称为残差,
残差 e i 可视为扰动 i 的“估计量”。
返回
第2节 回归系数的最小二乘估计
设对y及x做n次观测得数据(xi ,yi) (i=1,2,…,n ).
pt
2.5 2.0 1.5 1.0 0.5 0
qt
1 3 5 7 9 11
这是一个确定性关系: qt 114pt
返回
若x、y之间的关系是随机的,例如
pt
qt
概率
0
0.25
2.5
1
0.50
2
0.25
2
0.25
2.0
3
0.50
4
0.25
…
…
…
10
0.25
0
11
0.50
12
0.25
这时,方程的形式为qt 114pt t
这种趋向于种族稳定的现象称之“回归”
返回
“回归”已成为表示变量之间某种数量 依存关系的统计学术语,并且衍生出“回 归方程”“回归系数”等统计学概念。如 研究糖尿病人血糖与其胰岛素水平的关系, 研究儿童年龄与体重的关系等。
返回
回归分析是根据变量观测数据分析变量间关系的 常用统计分析方法.
通常把变量观测数据称为样本.
返回
其中 t 为随机变量.
t
-1 0 1
概 率 0 . 2 5 0 . 5 0 0 . 2 5
t 称为随机扰动或随机误差项.
返回
两个变量之间的线性关系,其回归模型为
yi abixi y称为因变量,x称为自变量, 称为随机扰动,a,b称为
待估计的回归参数,下标i表示第i个观测值。
对于回归模型,我们假设: i ~N(0,2 )i, 1,2,,n E(ij )0,ij
第9章 (二)回归分析
•第1节 一元回归分析模型
•第2节 回归系数的最小二乘估计
•第3节 回归估计的统计推断
•第4节 预测
•第5节 多元回归分析
•第6节 可线性化的回归方程
返回
返回
第1节 一元回归分析模型
变 确定性关系或函数关系y=f(x)
量非 间确
人的身高和体重 家庭的收入和消费
的定
关 系
性 关 系
yˆybˆ(xx)
n
lxy (xi x)(yi y)
i1
即最小二乘估计所得回归方程为 yˆ aˆbˆx
返回
第3节 回归估计的统计推断
1.a,b 的点估计 (1)估计量 aˆ ,bˆ 分别是a,b的无偏估计量;
(2)由于aˆ ,bˆ均为相互独立正态变量 y1,y2,,yn 的
线性组合,根据正态分布的性质,它们也一定是正态的。
如果数学关系式描写了一个变量与另一个变量之间 的关系,则称其为一元回归分析;
如果数学关系式描写了一个变量与另外多个变量之 间的关系,则称其为多元回归分析,并且称这一个 变量是被影响变量(因变量:Dependent Variable);
称这多个变量是影响变量ቤተ መጻሕፍቲ ባይዱ自变量:Independent
Variable).
返回
基本思想 (x,y)
采集样本信息(xi,yi)
回归分析 散点图
回归方程
回归方程的显著性检验 对现实进行预测与控制
由一个或一组非
随机变量来估计或预 测某一个随机变量的 观察值时,所建立的 数学模型及所进行的 统计分析,称为回归
分析。 返回
例如 某市场在t时刻黄瓜销量的数据如下(其中qt表示t时刻销 售黄瓜的数量,单位为:斤,pt表示t时刻的销售价格,单位 为:元):
2.a,b 的点估计的方差
自变量x应该在
D(aˆ)2(1x2),D(bˆ)2
n lxx
lxx
较大的范围内尽 量分散多取值。
(1)扰动εi的方差σ2越大, aˆ , b的ˆ 方差也越大. (2)自变量x的值越分散,aˆ , bˆ 的方差越小.
(3) 当 x0(lxx0) 时, aˆ 的方差最小.
返回
3. 2 的点估计和a,b的估计标准误差
以(xi ,yi)为坐标在平面直角坐标系中描点,所得到的这张
图便称之为散点图.
若散点呈直线趋势,则认为y 与x的关系可以用一元回归 模型来描述.
设线性回归方程为 Y=a+bx+ε
其中:ε是随机误差, ε~N(0,σ2).
将(xi,yi) (i=1,2,…,n)逐一代入上式:
yi abixi i1,2, ,n
i (i1,2, ,n)独立同正 N(态 0,2)分 返回布
n
n
记
Q(a,b) i2 [yi(abix)2]
i1
i1
二元函数 Q(a,b)的最小值点 (aˆ, bˆ) 称为a,b的最小二乘估
计(简记为OLSE ).
Q n a2i1(yi (abix))0 Q b2i n1[yi (abix)]xi 0
大长度)做了测量,发现:
返回
儿子身高(Y,英寸)与父亲身高 (X,英寸)存在线性关 系:Y ˆ33.730.516X。
x=100, y=85.33;x=50,y=59.53
也即高个子父代的子代在成年之后的身高平均来说
不是更高,而是稍矮于其父代水平,而矮个子父代的子代
的平均身高不是更矮,而是稍高于其父代水平。Galton将
商品的广告费和销售额 粮食的产量和施肥量 股票的价格和时间
x
实变量
非确定性关系
Y 随机变量
学生的期中和期末考试成绩,…
如果对于任何已知的x值,变量y按某个概率取某 些特殊的值,则x和y之间的关系为随机的.
返回
历史背景:
英国人类学家 F.Galton首次在《自然遗传》 一书中,提出并阐明了“相关”和“相关系数” 两个概念,为相关论奠定了基础。其后,他和 英国统计学家 Karl Pearson对上千个家庭的身 高、臂长、拃长(伸开大拇指与中指两端的最