高级统计学统计学课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t
1
Heightof1w.0 i f6 e1 .008
.991 928.225
a.Dependent Variable: Hei ghtofhus
b.Linear Regressi on through the Origi n
Sig. .000
一元回归模型的建立
观察由n个样本 构成 ( x 1 ,y 1 )( x , 2 ,y 2 ) ,,( x n ,y n ) 的散点图或计算样本相关系数,若呈
定义2 p 维一般正态分布
设 YNq(,q),B为 pq 实数矩阵,为 p
维实数向量,则
X p1BpqYq1
是 p 维正态随机向量,记为:
XNp(,p)
其中 BB为非负定阵。
定理 1 若 X 服从 Np(,) ,则
(1)EX , DX (2)密度函数:
f(x;, )(2 )p 1 2 12ex 1 2 p(x ) 1(x )
i1
n
(x2i X2)2
i1
i1 n
(x2i
i1
X2)(xpiXp)
n
n
n
i1(xpiXp)(x1i X1)
(xpiXp)(x2i X2)
i1
(xpiXp)2
i1
样本方差阵
V 1S n
样本相关系数阵
1
(x2i X2)(x1i X1)
R
(x2iX2)2 (x1iX1)2
(xpiXp)x(1iX1)
(xpiXp)2 (x1iX1)2
(x1iX1)x(2iX2)
(x1iX1)x(piXp)
(x1iX1)2 (x2iX2)2
(x1iX1)2 (xpiXp)2
1
(x2i X2)x(piXp)
(x2iX2)2 (xpiXp)2
(xpiXp)x(2iX2) (xpiXp)2 (x2iX2)2
yi
yˆ i
yˆˆ0ˆ1x
xi
x
ˆ 与 S E 的性质
性质1 ‾
ˆ ~ N 2(,2(X X)1)
ˆ 0 ~ N(0,2
c (xi xi2x)2) 00
ˆ 1 ~ N(1,2
1 (xi x)2)
c11
‾
性质2 SE 2~ ‾n2 2 ,且 E(SE(n2))2
即 2的无偏估计是 ˆ2SE (n2)
回归方程的显著性检验 方差分析 = F-检验
决定系数法
总平方和总平方和分解
回归平方和
( y i y ) 2 ( y ˆ i y ) 2 ( y i y ˆ i ) 2
df = n-1
STSRSE
残差平方和
决定系数 df = 1
df = n-2
R2 SR 1 SE
ST
ST
AdjR2 1n1SE n2ST
方差分析法(回归方程的显著性检验)
零假设
含义?
H0:1 0
检验统计量
F
SR
~ F(1,n2)
SE (n2)
拒绝域(临界值法):
FF(1,n2) →回归方程显著
P (FF (1,n2) )
F(1,n2)
P值法: P<0.05→回归方程显著
P(F SR )p SE (n2)
SR S E (n - 2)
随机向量的数字特征
随机向量的数学期望
E ( ) ( E ( X 1 )E ( , X 2 ) ,E ( X p ) )
随机向量的方差阵
D()E(E)(E)
covX(1,X1) covX(2,X1)
covX(1,X2)
covX(2, X2)
covX(1,Xp)
covX(2,Xp)
现明显的相关性,建立数学模型
y01x
~ N(0,2)
其中0,1,2是未知参数,需要利用样本 对它们进行估计.
散点图(1)
y
yi
i
y01x
xi
x
参数 0, 1 的最小二乘估计(1)
模型1 1,y2i, ,0ni.i.d1x.N i (0,i2) 最小二乘解:
ˆ0 y ˆ1 x
n
ˆ1
X 1 的样本 X 2 的样本 X p 的样本
x11 x12 x1n
x21
,
x22
,
,
x2n
x p1 x p 2 x pn
样本均值
x11 x12 x1n
x21
,
x22
,
,
x2n
x p1 x p 2 x pn
covX(p,X1) covX(p,X2) covX(p,Xp)
随机向量的相关系数阵
1
R
X2
,X1
Xp,X1
X1,X2
1
X p , X2
X1,Xp X2,Xp
1
Xi,Xj
covX(i,Xj) D(Xi)D(Xj)
随机向量的样本及其数字特征
P维随机向量 (X 1 ,X 2, ,X p) 的一个容量为n的样本:
内容提要
1 回归分析 2 定性数据的建模 3 聚类分析 4 判别分析 5 主成分分析 6 因子分析 7 结构方程
教学内容结构
回归分析
One
定性数据建模
高
聚类分析
级
Two
统
判别分析
计
学
主成分分析 因子分析
Three
结构方程
统计学方法的应用以及内容之间的逻辑关系
预测
判别
应
用
范
分类
围
综合评价
回归分析
X1 X2
Xp
1 n 1 n
1 n
n
i1 n
i1
n
i1
x 1 i
x2i
x pi
样本离差阵与样本方差阵
样本离差阵
n
(x1i X1)2
n (x1i X1)(x2i X2)
n (x1i X1)(xpiXp)
n i1
Si1(x2i X2)(x1i X1)
性质3 S E 与 ˆ 相互独立
ˆ i 的样本标准差
性质4 若 Sˆi ˆ cii,则
t ˆ i i ~
S ˆ i
n2
于是 i 的(1)%置信区间是:
(ˆ i tn 2 (2 ) S ˆ i,ˆ i tn 2 (2 ) S ˆ i)
一元回归模型的显著性
决定系数法 R Square + Adjusted-R Square
( xi x )( yi y )
i 1 n
(xi x)2
i0
矩阵偏导数与样本矩阵表达
xAx 2Ax x
ux u x
y 1
Y
y2
y n
1 x 1
X
1
x2
1 x n
1 2
1
2
n
参数 0, 1 的最小二乘估计(2)
模型2 YN nX ( , 2n) Y Nn(X,2n)
1
X 1与 X p 的样本相关系数
相关系数阵计算的SPSS实现
多元正态分布
定义1 q维标准正态分布 设 Y1,Y2,,Yq 独立同分布于N(0,1) ,则称随机向 量 Y(Y 1,Y 2, ,Y q服) 从q 维正态分布,记
Y~Nq(,q)
密度函数:
fY ( y 1 ,y 2 , ,y q ) ( 2 1 ) q 2 e x 1 2 ( y 1 2 p y 2 2 [ y q 2 ) ] ( 2 1 ) q 2 e x 1 2 y y p )
c. Dependent Variable: Heightofhus
d.Linear Regres s ion through the Origin
Coefficien a ,tbs
Unstandardi zS etdandardized CoefficientsCoefficients
Model
B Std. Error Beta
P维随机向量: (X 1 ,X 2, ,X p)
联合分布函数: F(x1,x2, ,xp)
P(X1x1,X2x2, ,Xpxp)
联合密度函数:
(1)
f(x1,x2,,xp)0
(2)
f(x1,x2,,xp)d1xd2xdpx1
x1 x2 xp
(3) F(x1,x2,,xp) f(x1,x2,,xp)d1xd2xdpx
点击2 点击1
Model Summary c,d
Model 1
R
R Square a
.999b
.998
Adjusted R Square
.998
Std. Error of the Estimate
7.76600
a. For regression through the origin (the no-intercept model), R Square measures the proportion of the v ariability in the dependent v ariable about the origin explained by regression. This CANNOT be compared to R Square f or models which include an intercept.
高级统计学统计学课件
高级统计学研究的对象
多指标或多变量数据 企业管理:产值、单位成本、原
材料消耗、工资、劳动生产率、 销售收入、利润、全要素生产率 居民家庭消费:家庭收入、家庭 人口、阶层、中高档消费品支出 等等
必备知识
概率论与数理统计
统计学
——点估计 ——区间估计 ——假设检验
研究内容
最小二乘解:ˆ(XX)1XY
(1) yˆˆ0ˆ1x 为y关于x的回归方程
(2)称 ˆ(ˆ0,ˆ1)为方程的回归系数(Yˆ Xˆ)
(3)称 ˆi yi yˆi 为残差,ˆYYˆ 为残差向量
(4)称 SEˆˆ(Y Y ˆ)(Y Y ˆ)为残差平方和
散点图(2)
y ˆiy iy ˆiy iˆ0ˆ1x i
定理2 X 与 偏估计,即
1S n 1
分别是 和
的无
E(X) E( 1 S)
n1
回归分析
1 一元回归模型的建立 2 回归模型的诊断以及SPSS实现 3 回归模型的矩阵表示 4 多元回归模型的建立
5 多元回归模型的诊断以及SPSS实现
为什么要建立线性模型
一般函数线性化…
简单易分析…
线性模型
特殊函数线性化…
拒绝域(临界值法)
df Mean Square F 1 991602.36716441.553
Sig. .000a
Res idual 1869.633
Total
993472.0b
31
60.311
32
a.Predictors : Heightofwife
b.This total s um of s quares is not corrected for the cons tant because the zero for regres s ion through the origin.
简化数据结构
箱式数据
主成分分析 Principle Analysis
变 换
平面数据
因子分析 Factor Analysis
按观测点分类或按变量分组
分类比较是一切科学比较的基础和开端 对观测点分类:银行发放贷款
对各企业财务指标、信用状况进行分析 对变量分组:股票市场是宏观经济的晴雨表
经济指标与股票市场各种指标间的群组关系
相关性=线性性…
一元回归的SPSS实现
观察散点图 Graphs
Scatter
点击1
点击2
点击1
点击2
点击3
点击4
点击
执行回归过程 Analyze Regression Linear
点击1 点击3
点击2
点击4
点击5
点击1
点击2
点击3
点击3
点击1 点击2
点击5
点击4
点击6
点击
可选
定性数据建模
判别分析
教
聚类分析
学 内
主成分分析
容
因子分析
关联性分析
结构方程
参考书
多元统计分析(何晓群 编著) 中国人民大学出版社
应用统计(陆璇 编著) 清华大学出版社
预备知识
ONE
随机向量及其分布
TWO
随机向量的数字特征
THREE
随机向量的样本及其数字特征
FOUR
多元正态分布
随机向量及其分布
b. Predictors: Heightof wif e
c. Dependent Variable: Heightof hus
d. Linear Regres sion through the Origin
ANOVAc,d
Sum of
Model
Squares
1
Regres s io9n91602.4
方差分析表(ANOVA)
Analysis of Variance
Model SS
regression 来自百度文库 R
residual S E
Total
ST
df
MS
F
1
n2
SR
SE (n2)
SR SE (n 2)
n1
回归系数的显著性检验(1)
零假设
含义?
H0:0 0
检验统计量
T
ˆ 0 S ˆ 0
~ tn2
聚类分析
Cluster Analysis
判别分析
Discriminant Analysis
变量间的依存关系+关系的强弱分析 寻找变量间的依存关系是一切科学研
究的主要内容 寻找一般的规律:预测、控制
回归分析 Regression Analysis
结构方程 Structural Equation Model