高级统计方法概论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B
.978 .732 .678 .635 .545 -.219
Std. Error .254 .259 .296 .253 .293 .122
t
3.845 2.833 2.290 2.507 1.861 -1.785
F SS(XJ) SSE Sig.
14.788 8.026 5.244 6.285 3.463 3.186
高级统计方法概论
本章内容
第一节 多重线性回归 第二节 logistic回归分析 第三节 生存分析 第四节 判别分析与聚类分析 第五节 主成分分析与因子分析 第六节 典型相关分析
第一节 多重线性回归
一、应用范围:生物医学现象的发生、发展和变化是 多种因素在一定条件下相互影响、相互制约产生的结 果。例如,影响原发性高血压发生的因素有年龄、性 别、精神紧张、劳动强度、吸烟状况、家族史等,这 些因素中,哪些是主要因素,各因素的大小如何,往 往是研究者关心的问题。
入 0.1,出 0.15
Model 1
Variables Entered
糖化血X4
Variables Removed
.
2
总胆固醇X1
.
3
胰岛素X3
.
4
甘油三酯X2
.
5
. 总胆固醇X1
Model Summary(f)
Model 1 2 3 4 5
R .610(a) .696(b) .740(c) .775(d) .773(e)
Model
1
Regression
Residual
Total
2
Regression
Residual
Total
3
Regression
Residual
Total
4
Regression
Residual
Total
5
Regression
Residual
Total
ANOVA
Sum of Squares
df
Mean Square
基本思路:尽可能将回归效果显著的自变量选入回 归方程中,作用不显著的自变量则排除在外。
模型的正确选择:根本依赖于所研究问题本身专业 实践
调整R2
全局择优 自变量的筛选
CP统计量
前进法
逐步选择 后退法 逐步回归法
五、实例分析
27名糖尿病人的血糖及有关变量的测量结果
编号
1 2 3 4 5 … 27
总胆固醇
多重线性回归就是研究多个自变量与一个应变量间 的线性依存关系的统计分析方法。
Y 0 1X1 2 X 2 m X m
Yˆ b0 b1X1 b2 X2 bm Xm
它可以从一组实际数据出发,研究多个自变量和一 个应变量之间是否存在线性依存关系,若存在则找出 适当的定量关系式,并对其进行参数估计和假设检验 ,从而推断哪些自变量对应变量的影响是主要的,哪 些是次要的,哪些是没有意义的;并可利用回归方程 对所研究的现象进行预测和控制
胰岛素
-.287 .112
甘油三酯 .402 .154 a Dependent Variable: 血糖
X1
5.68 3.79 6.02 4.85 4.6
…
3.84
甘油三酯 胰岛素 糖化血 血糖
X2
X3 X4 Y
1.90 4.53 8.2 11.2
1.64 7.32 6.9 8.8
3.56 6.95 10.8 12.3
1.07 5.88 8.3 11.6
2.32 4.05 7.5 13.4
…
… ……
1.2 6.45 9.6 10.4
22
4.038
26
3
44.366
89.454
23
3.889
222.552
26
F
Sig.
14.788 .001(a)
11.271 .000(b)
9.260 .000(c)
8.278 .000(d)
11.407 .000(e)
Model
1 糖化血 2 糖化血
总胆固醇 3 糖化血
总胆固醇 胰岛素
4 糖化血
R Square .372 .484 .547 .601 .598
Adjusted R Square .347 .441 .488 .528 .546
Std. Error of the Estimate 2.36506 2.18672 2.09351 2.00954 1.97213
a Predictors: (Constant), 糖化血 b Predictors: (Constant), 糖化血, 总胆固醇 c Predictors: (Constant), 糖化血, 总胆固醇, 胰岛素 d Predictors: (Constant), 糖化血, 总胆固醇, 胰岛素, 甘油三酯 e Predictors: (Constant), 糖化血, 胰岛素, 甘油三酯 f Dependent Variable: 血糖
82.714 139.837 .001 .009
25.067 114.762 .031 .020 .076
13.958 100.804 .088
.638 .243 2.623 6.880
.016
总胆固醇 .142 .366
胰岛素
-.271 .121
甘油三酯 .351 .204
5 糖化血
.663 .230
82.714
1
82.714
139.837 222.552 107.790
25
5.593
26
2
53.895
114.762 222.552 121.748
24
4.782
26
3
40.583
100.804 222.552 133.711
23ห้องสมุดไป่ตู้
4.383
26
4
33.428
88.841 222.552 133.098
建立回归方程(样本)
Yˆ b0 b1X 1b2 X2 bm Xm
方差分析和t检验
2. 对回归方程及各自变量做假设检验,并对方 程的拟合效果及各自变量的作用大小做出评价。
R2,等 标准化偏回归系数
四、自变量筛选
前述方程中包括的自变量是研究者根据专业知识和 经验事先选择好的。然而在许多实际应用中,由于没 有清晰的理论依据,回归模型中包括的自变量难以预 先确定,为了避免由于引入一些不重要的自变量,而 使模型的精度降低,因此选择有意义的自变量常常是 回归分析的第一步。
二、应用条件条件
1. Y与X1、X2、…、Xm之间存在线性关系 2. 各观察值Yi相互独立 3. 残差ε服从均数为0,标准差为σ2的正态分布 (对任意一组自变量X1、X2、…、Xm,因变量Y
服从正态分布,并且方差相等)
——LINE
三、多重线性回归的一般步骤
1. 求截距及偏回归系数 b0 , b1, b2 , , bm