医学统计学第五章线性回归(2lin)
医学统计学 回归方程的应用
例13-1 为研究中年女性体重指数和收缩 压之间的关系,随机测量了16名40岁以上 的女性的体重指数和收缩压,见表13-1, 试绘制散点图。
解:以体重指数为变量X,收缩压为变量Y 做散点图,见图13-1。可见,体重指数与 收缩压有比较密切的相关关系。
二、直线相关
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说 明。 目的:研究 两个变量X,Y 数量上的依存(或相
关) 关系。 特点:统计关系
三、应用线性相关系数r时应注意的问题:
1. r只表示两个服从正态分布的随机变量之间线 性关系的密切程度和相关方向,r=0只能说X与Y之 间无线性关系,并不能说X与Y之间无任何关系。
2. 相关关系并不一定是因果关系。相关分析的 任务就是对相关关系给以定量的计算和描述。
关系数的显著性误解为两事物或现象相关的强度,
例如对于相关系数的假设检验来说,P<0.01比 P<0.05更有理由认为相关关系成立,但并不能得出
前者比后者相关关系更密切的结论,相关关系的强
度是用r的绝对值来反映的。
2.进行相关、回归分析前应绘制散点图—第一步
(1) 散点图可考察两变量是否有直线趋势; (2) 可发现异常点(outlier)。
第三节 相关系数的假设检验
t检验法
第五节 直线回归与相关应用的注意事项
1.根据分析目的选择变量及统计方法
➢ 直线相关用于说明两变量之间直线关系的方向和 密切程度,X与Y没有主次之分; ➢ 直线回归则进一步地用于定量刻画应变量Y对自变 量X在数值上的依存关系,其中应变量的定夺主要依 专业要求而定,可以考虑把易于精确测量的变量作为 X,另一个随机变量作Y,例如用身高估计体表面积。 ➢ 两个变量的选择一定要结合专业背景,不能把毫 无关联的两种现象勉强作回归或相关分析。
《医学统计学》之多元(重)线性回归
多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系,即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立,即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差,即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开 始,逐步添加自变量,选择 最佳的组合。
后向消除法
从包含所有自变量的全模型 开始,逐步删除自变量,选 择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除 法,逐步调整自变量,找到 最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治 疗效果的影响。
市场分析
用于预测市场需求和销售量,并确定最佳的市场推 广策略。
财务预测
社会科学
用于预测企业的财务状况,并制定相应的经营决策。
用于研究社会现象和群体行为,解释和预测社会现 象的变化。
通过方差膨胀因子等指标,判断自变量之间是否存在高度相关性,以避免估计结果的不 准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式,检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标(如决定系数R²)和假设分布,评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响,判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中,多元(重)线性回归是一种强大的数据分析方法,可用于探索 和建立多个自变量与因变量之间的关系。
医学统计学(课件)线性相关与回归
• X-自变量(independent variable);
• Y-应变量(dependent variable);
•
Y
-
给定cept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
回归方程参数的计算
表11-2 方差分析表
变异来源 SS
MS
F
总变异 14563.13
8
回归
12538.06
1
12538.06 43.34
残差
2025.07
7
289.30
P
<0.01
Hypothesis test
(二) t 检验
b0 t
Sb
Sb
SY X l XX
n2
SY X
SS残差
残差
lYY
(Y Y )2
Y 2 ( Y )2 n
• 例11-2 从男青年总体中随机抽取11名男青年组成 样本,分别测量每个男青年的身高和前臂长,测
量结果如表11-3所示,试计算身高与前臂长之间
的相关系数。
52
50
48
前臂长(cm)
46
44
42
40
150
160
170
180
190
则回归方程为:
Yˆ 13.049 9.94X
simple regression
(3)作回归直线
• 按上述回归方程,在 X 实测值的范围内,任取两个 相距较远的点 A( X1 ,Yˆ1 ) 和 B( X2 ,Yˆ2 ),连接A、B两点 即得到回归直线。
医学统计学课件:回归分析
生存分析模型
生存分析模型概述
生存分析模型是用于研究生存时间与相关因素 之间关系的一种统计分析方法。
模型的建立与拟合
通过Cox比例风险模型等统计技术,拟合生存分 析模型,并评估模型的拟合效果。
生存曲线与影响因素
利用生存曲线描述生存时间与影响因素之间的关系,并评估不同因素对生存时 间的影响。
正态性
误差项应服从正态分布,即近似于钟形曲线。如 果误差项存在偏离正态分布的情况,需要采取措 施进行调整。
多重共线性诊断
定义:多重共线性是指自变量之间存在 较强的线性相关关系,导致模型估计失 真或不稳定。
特征值:如果特征值接近于0,则表明存 在严重的多重共线性问题。
条件指数:条件指数大于10表明模型受 到多重共线性的影响。
模型构建流程
数据清洗
对数据进行预处理,包括缺失值填充、异常值处理等,以确保数 据的质量和可靠性。
模型构建
根据已知的变量和因变量之间的关系,构建线性回归模型。
模型优化
通过逐步回归等方法对模型进行优化,以提高模型的预测精度和 稳定性。
模型评估指标
拟合优度
通过计算模型的R²值等指标,评估模型对数 据的拟合程度。
回归分析的分类
线性回归分析和非线性回归分析。
线性回归模型
线性回归模型的定义
线性回归模型是一种最常用的回归分析模型,其形式为Y = β0 + β1X1 + β2X2 + ... + βnXn。
线性回归模型的基本要素
因变量Y,自变量X1, X2, ..., Xn,以及模型中的系数β0, β1, ..., βn。
医学统计学课件:回归分析
03
信息提取
从回归模型中提取有意义的自变量组合和系数,为研究提供新的思路和方向。
多元回归模型的应用
01
预测
利用已建立的多元回归模型,预测新数据或未来数据的因变量值。
02
分类
结合回归模型和分类算法,将因变量进行分类,实现对数据的深度挖掘。
05
其他回归分析方法
总结词
岭回归分析是一种用于处理共线性数据的线性回归方法,通过引入一个惩罚项来改善模型的稳定性和预测精度。
通过线性回归模型,可以估计自变量对因变量的影响程度和方向。
在线性回归模型中,可以考察自变量之间的交互作用,以及自变量与因变量的交互作用。
03
逻辑回归分析
逻辑回归模型的建立
确定自变量和因变量
首先需要确定影响因变量哪些因素作为自变量,并明确因变量和自变量的关系。
数据的正态性检验
对各变量进行正态性检验,以确保数据满足正态分布的要求。
逻辑回归模型的检验
逻辑回归模型的应用
分层分析
根据预测结果,将研究对象分成不同的层,针对不同层进行差异性分析。
风险评估
根据预测结果,对研究对象进行风险评估,以更好地进行临床决策。
预测
利用训练好的模型,输入自变量的值,得到预测的概率值。
04
多元回归分析
多元回归模型的建立
确定自变量
根据研究目的和已有知识,选择与因变量相关的多个自变量。
线性回归分析
假设自变量和因变量之间存在非线性关系,通过建立非线性回归模型来预测因变量的取值。
非线性回归分析
回归分析的分类
回归分析的基本步骤
数据清洗
对收集到的数据进行清洗,包括处理缺失值、异常值、重复数据等。
《医学统计学》教学课件-多重线性回归
Sum of Squares 133.711dfຫໍສະໝຸດ 4Re si du a l
88.841
22
T o ta l
222.552
26
a. Predictors: (Constant), x4, x2, x3, x1
b. Dependent Variable: y
Mean Square 33.428 4.038
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
各变量的离差矩阵
4阶线性方程组
建立多元回归方程
方程的求解过程复杂,可借助于SPSS、SAS等统计软件来完成 SPSS:Analyze→Regression→Linear regression
剔除后所引起的回归平方和的减少量。
H0 : j 0;H1 : j 0,j=1,2,…,m;
2.对回归方程及各自变量作假设检验,并对方程的拟 合效果及各自变量的作用大小作出评价。
多元线性回归方程的建立:
利用最小二乘法原理估计模型的参数: (使残差平方和最小)
表2 27名糖尿病人的血糖及有关变量的测量结果
序号 总胆固醇 甘油三酯 胰岛素 糖化血红蛋白
血糖
i (mmol/L) (mmol/L) (U/ml)
12.3
27
医学统计学-第五章线性回归(2)
分析阳性或阴性的发生与哪些因素有关,因素为二 值数据,等级资料或计量资料。
Binary Logistic 回归模型中因变量只能取两个值1和0(虚拟因变量) Y是两分类变量,影响Y的危险因素)=p,
• Logistic回归分析是对定性变量进行的回归分析。
小结
SPSS中“Analyze”/“Regression”菜单可用于回归 统计分析。 •一元线性回归、多元线性回归和含虚拟变量的回归 分析可由“Linear”子菜单完成;
•非线性回归分析、曲线估计和时间序列的曲线估计 可由“Curve Estimation”子菜单完成;
•逻辑回归分析可由“Binary Logistic”子菜单完成。
log
itp
ln
1
p
p
4.705
0.924x1
1.496x5
3.135x6
1.947x8
小结
• 一元线性回归只涉及一个自变量的回归问题;
• 多元线性回归用于解决两个或两个以上自变量 对一个因变量的数量变化关系问题;
• 非线性回归主要解决在非线性相关条件下,自变量 对因变量的数量变化关系;
p
log
itp
ln
1
p
1x1
mxm
Multinomial Logistic 回归模型中因变量可以取多个值。
SPSS中实现过程
研究问题 为探讨冠心病发生的危险因素,对26
例冠心病人和28例对照者进行病例对照 研究,试用Logistic回归筛选危险因素。
Analyze→Regression →Binary Logistic
医学统计学课件:回归分析
回归分析在医学中的应用
05
疾病风险预测
利用回归分析,研究疾病发生的相关因素,如年龄、性别、遗传等,从而预测个体或群体在未来患某种疾病的风险。
预防措施制定
通过了解疾病影响因素,制定针对性强的预防措施,如控烟、控糖、加强锻炼等,以降低疾病发生概率。
疾病预测与预防
治疗效果评估与优化治疗方案
通过对比治疗前后的数据,利用回归分析研究治疗效果的影响因素,如治疗方式、病情严重程度等,为改进治疗方案提供依据。
时间序列回归分析
分位数回归分析是一种非参数回归方法,用于估计因变量的分位数与自变量之间的关系。
总结词
在分位数回归分析中,我们通常将因变量的值分成一系列的分位数,然后估计每个分位数与自变量之间的关系。这种方法可以更加灵活地描述因变量与自变量之间的关系,并且可以更好地适应各种不同的数据类型。
详细描述
分位数回归分析
总结词
多元回归分析
总结词
时间序列回归分析是一种特殊的回归方法,用于研究时间序列数据之间的依赖关系和预测未来趋势。
详细描述
在时间序列回归分析中,我们通常有两个或更多的时间序列数据,它们在时间上具有连续性。通过时间序列回归分析,我们可以估计各个时间序列对目标时间序列的影响程度,并对目标时间序列的未来趋势进行预测。
回归分析的基本步骤
线性回归分析
02
ቤተ መጻሕፍቲ ባይዱ
确定自变量和因变量
建立回归模型
模型假设检验
线性回归模型的建立
03
模型诊断
通过残差图、残差与预测值图等图形工具,对模型的假设和适应性进行诊断。
线性回归模型的评价与诊断
01
模型拟合度评估
应用R^2、校正R^2等指标,评估回归模型对数据的拟合程度。
医学统计学有关线性回归
个案残差诊断
返回主对话框
弹出对话框
标准化预测值 标准化残差
学生化残差
返回主对话框
选“*SRESID”作为y轴, “DEPENDNT” 为x轴,并选取 “Normal probability plo
返回主对话框
弹出对话框
对回归分析的结果保存,如残差、预测值
r2 (
lxy
)2
(lxy)2
lyy lxx lyy lyy SS总
SS回 r 2SS总
上式说明,当SS总固定不变时,SS回的大小 取决于r2。r2越大,则SS回就越大;SS回是由于 引入了相关变量后使总平方和减少的部分。
SS回越接近SS总,则r2越接近1,说明引入相 关变量的效果越好。
判断回归方程效果的指标: 1、剩余标准差 2、残差 3、决定系数
P444
回归分析的一般步骤: 1. 绘制散点图,初步判断是否呈直线
趋势
2.计算a、b。(如果基本呈直线趋势)
3.对b作假设检验
方法: (1) F检验 (2) t检验 (3) 用r检验来代替。
4.作结论
如P≤0.05, 说明方程成立,列出回归方程; 如P >0.05, 说明方程不成立,不列回归 方程。
在临床研究中,若r2达到0.7以上,就可 认为回归效果不错;但在实验室研究中,如 标准线的配制,r2的要求很高,达到0.95以 上。
可通过r2的大小来确定两变量间相关关系 的实际意义。例如r=0.2,n=100时,可以认为 两变量间有直线相关关系,但r2=0.04,表示 回归平方和在总平方和中仅占4%,即X对Y的 影响仅占4%,实际意义不大。
Unstandardized Standardized Adjusted S.E of mean predictions
医学统计学课件:回归分析
《医学统计学课件:回归分析》xx年xx月xx日CATALOGUE目录•回归分析概述•线性回归分析•逻辑回归分析•多重回归分析•回归分析的软件实现•回归分析的应用场景与实例01回归分析概述回归分析是一种统计学方法,研究因变量与自变量之间的关系,并预测因变量在给定自变量值下的值。
定义回归分析旨在找出一个或多个自变量与因变量之间的定量关系,以便根据自变量的值预测因变量的值,或者评估因变量在自变量变化时的稳定性。
目的定义与目的线性回归研究因变量与一个或多个自变量之间的线性关系。
多重回归研究因变量与多个自变量之间的关系,同时考虑它们之间的相互作用。
逻辑回归研究分类因变量与一个或多个自变量之间的关系,主要用于二元分类问题。
非线性回归研究因变量与一个或多个自变量之间的非线性关系,如曲线、曲面等。
回归分析的种类0102确定研究问题和研究设计明确要研究的问题和设计实验或收集数据的方式。
数据收集和整理收集与问题相关的数据,并进行整理和清洗。
选择合适的回归模型根据数据的特征和问题的需求选择合适的回归模型。
拟合模型使用选定的模型对数据进行拟合,得到回归系数。
模型评估评估模型的性能和预测能力,通常使用统计指标如R²、均方误差等。
回归分析的基本步骤03040502线性回归分析线性回归分析是一种预测性的统计方法,它通过研究自变量(通常是多个)与因变量(我们想要预测或解释的变量)之间的关系,建立它们之间的线性关系模型。
模型线性回归模型通常表示为 y = β0 +β1*x1 + β2*x2 + ... + βn*xn + ε,其中 y 是因变量,x1, x2, ..., xn 是自变量,β0, β1, ..., βn 是模型参数,ε 是误差项。
定义定义与模型VS参数估计线性回归分析的参数通常通过最小二乘法进行估计,这种方法试图找到最适合数据的一组参数值,使得因变量的观察值与预测值之间的平方误差最小。
假设检验在检验自变量与因变量之间是否存在显著线性关系时,通常会使用 F 检验或 t 检验。
医学统计学相关线性回归
通过本次演讲,我们将深入讨论医学统计学中与线性回归相关的课题,从介 绍线性回归的概念和应用开始,逐步深入到模型、方法和实践案例等方面。
什么是线性回归?
线性回归是一种用来研究自变量与因变量间关系的统计方法。通过拟合线性模型,我们能够对变量间的 关系进行建模、预测和解释。
线性回归的应用
线性回归的优化算法
为了拟合最佳的回归模型,我们可以使用不同的优化算法,如梯度下降、牛 顿法和拟牛顿法等。
广义线性模型
广义线性模型是线性回归的扩展,通过引入链接函数和指数族分布,可以处 理因变量不满足正态分布的情况。
残差分析
残差分析用于评估模型的拟合优度和残差的性质。正常的残差应当满足独立性、无明显的模式和符合正 态分布。
反应曲面法
反应曲面法可以帮助我们更好地理解自变量与因变量的关系。通过绘制反应 曲面图,我们可以可视化预测结果和优化因素。
最小二乘法
最小二乘法是一种常用的线性回归系数估计方法,通过最小化观测值与模型预测值之间的差异来拟合最 佳拟合直线或平面。
岭回归、Lasso回归和Elastic Net回归
岭回归通过L2正则化项控制回归系数的大小;Lasso回归通过L1正则化项使得 某些回归系数为零;Elastic Net回归结合了L2和L1正则化项的优势。
正则化回归的优缺点
1 优点
减少多重共线性和过拟合的影响,提高模型预测性能。
2 缺点
模型复杂度提高,对解释性较弱。
参数估计
参数估计用于计算回归系数的值,帮助我们理解自变量对因变量的影响大小 和方向。
量影响分析
量影响分析用于衡量自变量对因变量的影响程度。通过变化自变量的取值,我们可以观察因变量的变动 情况。
医学统计学课件-直线回归
03
医学统计学在直线回归分析中具有重要作用,提供了多种统计方法和指标,如简单相关系数、标准误、置信区间等,用于评估回归关系的强度、预测精度和可靠性。
优点
直线回归模型简单易懂,易于解释和实施。同时,该模型能够准确地描述两个变量之间的线性关系,并可以用于预测因变量的趋势。此外,直线回归分析还具有较高的灵敏度和特异性。
模型检验
模型假设与检验
选择合适的估计方法
直线回归模型的参数估计方法有多种,例如最小二乘法、加权最小二乘法等。选择合适的估计方法需要考虑数据的性质和研究目的。例如,如果数据的误差项具有异方差性,则应该使用加权最小二乘法等方法进行估计。
软件实现
可以使用多种统计软件来实现直线回归模型的参数估计,例如SPSS、R、Stata等。通过软件操作可以方便快捷地得到模型的估计结果。
散点图
直线回归模型有一些假设条件,例如误差项的独立性、同方差性和无序列相关性等。这些假设条件必须满足,否则模型的估计结果会受到影响。
模型假设
在进行直线回归分析之前,需要对数据进行检验,以确保数据满足模型假设条件。例如,可以通过相关性检验、残差分析等方法来检验数据是否满足同方差性和无序列相关性等假设条件。
样本量和数据质量
03
样本量的大小会影响结果的稳定性和可靠性。样本量越大,结果越可靠。同时,数据质量也很重要,例如数据的完整性、准确性和真实性等。
绘制散点图
将研究因素和结果的数据点在二维平面上表示出来,形成散点图。通过散点图可以大致观察到因素和结果之间的关系趋势。
判断线性关系
在散点图中,如果因素和结果之间的关系大致呈线性趋势,则可以考虑使用直线回归模型来描述它们之间的关系。如果关系呈非线性趋势,则需要选择其他的回归模型。
医学统计学课件直线回归
03
况,帮助医生制定更加精准的治疗方案。
02
直线回归模型建立
收集数据
确定研究因素和结果
在医学研究中,通常需要确定研究因素(independent variables)和结果(dependent variable)。例如,在研究血压与心血管疾病关系时,血压是研究因 素,心血管疾病是结果。
收集数据
收集与研究因素和结果相关的数据。数据可以来自文献、调查、实验等。
归因危险度
在评价疾病预防措施的效果时,直线回归可以帮助计 算归因危险度。
06
直线回归前沿进展
多因素分析的直线回归方法
01
多元线性回归模型
02
模型构建
该模型可以同时考虑多个自变量对因 变量的影响,通过调整各个自变量的 系数来揭示各个因素的重要性。
在多元线性回归模型中,需要构建一 个数学模型来描述因变量和自变量之 间的关系,通常采用最小二乘法进行 参数估计。
03
模型评估
通过比较实际值和预测值之间的差异 ,评估模型的准确性和可靠性,常用 的评估指标包括R方值和均方根误差 。
非线性关系的直线回归模型
1 2 3
曲线拟合
对于非线性关系,可以采用曲线拟合的方法来建 立回归模型,例如二次曲线拟合、三次曲线拟合 等。
模型选择
在选择非线性回归模型时,需要考虑模型的复杂 度和拟合优度,同时还需要考虑模型的生物学和 医学意义。
模型优化
在选择好非线性回归模型后,可以通过优化模型 参数和结构来提高模型的预测精度和可靠性。
基于大数据的直线回归应用
数据挖掘
通过大数据分析,可以挖掘出更多的规律和信息,从而为医学研究 和临床实践提供更多的参考依据。
预测模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究在线性相关条件下,两个或两个以上自 变量对一个因变量的数量变化关系,称为多元线 性回归分析。
ˆ y b0 b1 x1 b2 x2 bk xk b0 ,b1 , bk
是偏回归系数
多元线性回归模型是一元线性回归模型的扩展, 其基本原理与一元线性回归模型类似,在计算上 更为复杂,一般需借助计算机来完成。
将“y”选入 【Dependent框】; 将“x1、x2、x3、 x4选入 【Independent(s) 框】中 在methods中选择 “stepwise”。
点击“Statistics” 按钮
选择“Estimates”、 “Confidece interval”、“Model fit”、 “Descriptives” ,点击“continue”返回。
Sig. (1-tailed)
N
a V a r ia b l e s En t e r e d /R e m o v e d
Model 1
Variables Entered
Variables Removed
x1
.
2
x4
.
Method Stepwise (Criteri a: Probabili ty-ofF-to-ente r <= . 100, Probabili ty-ofF-to-remo ve >= . 150). Stepwise (Criteri a: Probabili ty-ofF-to-ente r <= . 100, Probabili ty-ofF-to-remo ve >= . 150).
y x1 x2 x3 x4
C o r r el a t i o n s Pearson Correlation y x1 x2 x3 x4 y x1 x2 x3 x4 y x1 x2 x3 x4 y 1.000 .844 -.300 -.394 -.225 . .000 .054 .016 .116 30 30 30 30 30 x1 .844 1.000 -.194 -.248 .027 .000 . .152 .093 .443 30 30 30 30 30 x2 -.300 -.194 1.000 .488 .235 .054 .152 . .003 .106 30 30 30 30 30 x3 -.394 -.248 .488 1.000 .527 .016 .093 .003 . .001 30 30 30 30 30 x4 -.225 .027 .235 .527 1.000 .116 .443 .106 .001 . 30 30 30 30 30
51 62 85 38
实现步骤:
1. 将数据录入SPSS并整理加工
定义变量
输入数据
保存
x1:载脂蛋白AI; X2:载脂蛋白B;X3:载脂蛋白E X4:载脂蛋白C;y:胆固醇含量。
2.正态性检验:Analyze | Descriptive Statistics | Explore(探索性)
T e s ts o f N or m a l i t y Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig. Statistic df .128 30 .200* .951 30 Sig. .183
10.1
7.2 8.5 6.3 11.5 6.0 6.1
42.8
20.7 16.7 10.1 33.4 17.5 20.4
41
56 58 47 49 69 57
19
20 21
175
136 153
111
110 133
4.1
9.4 8.5
27.2
26.0 16.9
74
39 65
22
23 2 d el S u m m ar y Model R R Square 1 .844a .713 2 .880b .775 a. Predictors: (Constant), x1 b. Predictors: (Constant), x1, x4
A N O VAc Model 1 Sum of Squares 4003.008 1610.459 5613.467 4349.970 1263.496 5613.467 df 1 28 29 2 27 29 Mean Square 4003.008 57.516 2174.985 46.796 F 69.598 Sig. .000a
C o e f fi c i e n t sa Unstandardized Coefficients B Std. Error -21.280 9.185 .494 .059 -11.781 8.989 .498 .053 -.497 .182 Standardized Coefficients Beta .844 .851 -.249 95% Confidence Interval for B Lower Bound Upper Bound -40.094 -2.466 .373 .616 -30.225 6.664 .389 .608 -.871 -.122
“Logistic Regression”对话框
p log itp ln 4.705 0.924x1 1.496x5 3.135x6 1.947x8 1 p
Model 1 2
(Constant) x1 (Constant) x1 x4
t -2.317 8.343 -1.311 9.320 -2.723
Sig. .028 .000 .201 .000 .011
a. Dependent Variable: y
分析:非标准化系数 其回归方程为 标准化回归方程为
【Options钮】选择进入或排除 变量的显著水平
此处因为是stepwise(逐步回归),所以entry填0.10 Removal填0.15.点击continue回到主对话框。
点击“OK”按钮
结果输出和讨论:
D e s c ri p t i v e St a t i s t i cs Mean 54.4667 153.2000 125.5333 8.0833 20.3567 Std. Deviation 13.91287 23.76233 18.12549 2.16079 6.96700 N 30 30 30 30 30
,
逻辑回归分析
(Logistic回归分析)
分析阳性或阴性的发生与哪些因素有关,因素为二 值数据,等级资料或计量资料。
Binary Logistic 回归模型中因变量只能取两个值1和0(虚拟因变量) Y是两分类变量,影响Y的危险因素 x1 , x2 , , xm为协变量, 在m个危险因素暴露条件下p(y=1)=p,
p log itp ln 1x1 m xm 1 p
Multinomial Logistic 回归模型中因变量可以取多个值。
SPSS中实现过程
研究问题 为探讨冠心病发生的危险因素,对26 例冠心病人和28例对照者进行病例对照 研究,试用Logistic回归筛选危险因素。
胆固醇含量 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction
3.Regression过程
菜单 “Analyze” | “Regression ” | “linear ”命令
149
86 123
9.5
5.3 8.0
24.7
10.8 16.6
40
57 34
25
147
110
8.5
18.4
54
26
27 28 29 30
204
131 170 173 132
122
102 127 123 131
6.1
6.6 8.4 8.7 13.8
21.0
13.4 24.7 19.0 29.2
72
有研究认为血清中高密度脂蛋白降低是引起动脉硬化的 一个重要原因,现测量了30名被怀疑患有动脉硬化的就 诊患者的载脂蛋白AⅠ、载脂蛋白B、载脂蛋白E、载脂 蛋白C和高密度脂蛋白中的胆固醇含量,资料见表, 分析四种载脂蛋白对高密度脂蛋白中胆固醇含量的影响。
编 号 1 2 3 4 5 6 载脂蛋白AI 载脂蛋白B 载脂蛋白 载脂蛋白C 胆固醇含量 (mg/dl) (mg/dl) E (mg/dl) (mg/dl) (mg/dl) 173 139 198 118 139 175 106 132 112 138 94 160 7.0 6.4 6.9 7.1 8.6 12.1 14.7 17.8 16.7 15.7 13.6 20.3 62 43 81 39 51 65
Adjusted R Square .703 .758
Std. Error of the Estimate 7.58396 6.84077
2
Regression Residual Total Regression Residual Total
46.478
.000b
a. Predictors: (Constant), x1 b. Predictors: (Constant), x1, x4 c. Dependent Variable: y
7
8
131
158
154
141
11.2
9.7
21.5
29.6
40
42
9
10 11
158
132 162
137
151 110
7.4
7.5 6.0
18.2
17.2 15.9
56