stata画图和线性回归基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编 号 指标 体温 脉搏 1 41.0 135 2 37.5 85 3 40.7 134 4 38.4 108 5 38.8 120 6 40.0 124 7 38.0 106 8 39.0 117 9 39.5 125 10 39.8 130 11 40.8 138 12 39.6 135
X
Y
Stata 数据
给定 X=X 0 时, Y 的总体均数的点估计,例 10 给定 X=X 0
-1 中, 当自变量 X 取值为 307 mg/dL 时。 个体 Y 值的容许区间估计
值时,估计总体中个体 Y 值的波动范围,以例 10-1 中第一个样本点的数据 (307,80)为例。 Stata 命令:
predict yhat predict stdp, stdp predict stdf, stdf generate clm1 = yhat - invttail(7,0.025)*stdp generate clm2 = yhat + invttail(7,0.025)*stdp generate clp1 = yhat - invttail(7,0.025)*stdf generate clp2 = yhat + invttail(7,0.025)*stdf twoway (lfitci y x, level(95)) (scatter y x) (line clm1 clm2 clp1 clp2 x, pstyle(p2 p2 p3 p3) sort)
指标 胆固醇 X 舒张压 Y 编 号 1 307 80 2 259 75 3 341 90 4 237 70 5 254 75 6 416 105 7 267 70 8 320 85 9 374 88 10 316 78
H 0 :总体回归方程不成立( 0 )
H 1 :总体回归方程成立( 0 )
t=8.07 ,P值<0.001(Stata输出值0.000), 构建直线回归方程 式(10-2),可知,
将 a 和 b 代入
ˆ 26.62 0.178 X Y
本例中, b 的统计学意义为:血清胆固醇含量每增加 1mg/dL,总体中舒张 压平均增加 0.178mmHg。
总体均数 Y X 的区间估计
Prob > F = 0.0000 R-squared = 0.8906 Adj R-squared = 0.8769 Root MSE = 3.7759
பைடு நூலகம்
-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | .177864 .0220419 8.07 0.000 .1270352 .2286927 _cons | 26.62225 6.916995 3.85 0.005 10.67163 42.57287 ------------------------------------------------------------------------------
HIE 临床分度 MDA(umol/L) 1 7.4 1 7.0 1 6.7 1 6.3 1 8.1 2 7.2 2 8.4 2 8.9 2 8.8 3 11.5 3 10.6 3 10.2 3 11.0
本例目的在于分析 HIE 临床分度与血浆 MDA 含量的关系, 从数据特征上看, HIE 临床分度是等级资料,血浆 MDA 含量是连续性变量,因此应计算 Spearman 等级相关系数 rs 。
=0.05
Stata 数据: x 1 2 3 4 5 6 7 8 9 10
307 259 341 237 254 416 267 320 374 316
y
80 75 90 70 75 105 70 85 88 78
Stata 命令为:
reg y x
结果:
Source | SS df MS -------------+-----------------------------Model | 928.343132 1 928.343132 Residual | 114.056868 8 14.2571086 -------------+-----------------------------Total | 1042.4 9 115.822222 Number of obs = F( 1, 8) = 10 65.11
第十章
直线回归和相关的 Stata 实现
本章使用的 Stata 命令为:
直线回归 残差计算 Pearson 相关 Spearman 相关 regress 应变量 自变量
在执行 regress 命令后,执行下列命令: predict 变量名,residual pwcorr 变量 1 … 变量 n, sig
60
70
80
90
100
110
250
300 95% CI y clp1/clp2
350 x
400 Fitted values clm1/clm2
450
例 10-2
某发热门诊医生根据患者就诊顺序随机抽取 12 名 20~40 岁发热
患者,试探讨体温与脉搏之间的伴随关系,数据见表 10-4。 表 10-4 12 名发热患者的体温(℃)与脉搏(次/分)
x 1 2 3 4 5 6 7 8 9 10 11 12 41 37.5 40.7 38.4 38.8 40 38 39 39.5 39.8 40.8 39.6 y 135 85 134 108 120 124 106 117 125 130 138 135
H0: =0 H1: ≠0
0.05
同样地, rs 是样本相关系数,仅为总体相关系数 s 的一个点估计,还应做总 体相关系数 s 是否为 0 的假设检验,其无效假设与备择假设分别为:
H0: s 0 H1: s ≠0
Stata 数据如下: i
1 2 3 4 5 6 7 8 9 10 11 12 13
x
1 1 1 1 1 2 2 2 2 3 3 3 3
Stata 命令:
pwcorr y x,sig
结果:
| y x -------------+-----------------y | | | x | | 1.0000
0.9173 0.0000
1.0000
P<0.0001,体温与脉搏存在线性相关关系。
例 10 - 3 某 医 生 研 究 新 生 儿 缺 氧 缺 血 性 脑 病 ( hypoxic-ischemic encephalopathy, HIE)临床分度与其血浆 MDA 含量(出生后第 7 天)的关系, 获得了如下资料,试分析 HIE 临床分度(1 轻度,2 中度,3 重度)与血浆 MDA 含量的相关方向及相关程度。
spearman 变量 1 变量 2
例 10-1
为了研究血清胆固醇含量与舒张压之间是否存在依存关系,2006
年在郑州某大学随机抽取 10 名成年男性, 测得他们的血清胆固醇(mg/dL)含量和 舒张压( mmHg)如表 10-1,请作统计分析。 表 10-1 10 名成人的血清胆固醇(mg/dL)含量和舒张压( mmHg)
y
7.4 7 6.7 6.3 8.1 7.2 8.4 8.9 8.8 11.5 10.6 10.2 11
Stata 命令如下:
spearman y x
结果:
Number of obs = Spearman's rho = 13 0.8910
Test of Ho: y and x are independent Prob > |t| = 0.0000
结果: x 307 259 341 237 254 416 267 320 374 316 y 80 75 90 70 75 105 70 85 88 78 yhat 81.23 72.69 87.27 68.78 71.8 100.61 74.11 83.54 93.14 82.83 stdp 1.19 1.63 1.39 1.99 1.7 2.64 1.51 1.22 1.86 1.2 stdf 3.96 4.11 4.02 4.27 4.14 4.61 4.07 3.97 4.21 3.96 clm1 78.4 68.84 84 64.08 67.77 94.37 70.54 80.66 88.74 79.98 clm2 84.05 76.53 90.55 73.48 75.83 106.86 77.69 86.42 97.55 85.67 clp1 71.86 62.97 77.76 58.69 62 89.72 64.49 74.16 83.19 73.46 clp2 90.59 82.41 96.78 78.87 81.59 111.51 83.73 92.92 103.1 92.2
P<0.0001,HIE 临床分度(1 轻度,2 中度,3 重度)与血浆 MDA 含量存在 Spearman 相关关系。
X
Y
Stata 数据
给定 X=X 0 时, Y 的总体均数的点估计,例 10 给定 X=X 0
-1 中, 当自变量 X 取值为 307 mg/dL 时。 个体 Y 值的容许区间估计
值时,估计总体中个体 Y 值的波动范围,以例 10-1 中第一个样本点的数据 (307,80)为例。 Stata 命令:
predict yhat predict stdp, stdp predict stdf, stdf generate clm1 = yhat - invttail(7,0.025)*stdp generate clm2 = yhat + invttail(7,0.025)*stdp generate clp1 = yhat - invttail(7,0.025)*stdf generate clp2 = yhat + invttail(7,0.025)*stdf twoway (lfitci y x, level(95)) (scatter y x) (line clm1 clm2 clp1 clp2 x, pstyle(p2 p2 p3 p3) sort)
指标 胆固醇 X 舒张压 Y 编 号 1 307 80 2 259 75 3 341 90 4 237 70 5 254 75 6 416 105 7 267 70 8 320 85 9 374 88 10 316 78
H 0 :总体回归方程不成立( 0 )
H 1 :总体回归方程成立( 0 )
t=8.07 ,P值<0.001(Stata输出值0.000), 构建直线回归方程 式(10-2),可知,
将 a 和 b 代入
ˆ 26.62 0.178 X Y
本例中, b 的统计学意义为:血清胆固醇含量每增加 1mg/dL,总体中舒张 压平均增加 0.178mmHg。
总体均数 Y X 的区间估计
Prob > F = 0.0000 R-squared = 0.8906 Adj R-squared = 0.8769 Root MSE = 3.7759
பைடு நூலகம்
-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | .177864 .0220419 8.07 0.000 .1270352 .2286927 _cons | 26.62225 6.916995 3.85 0.005 10.67163 42.57287 ------------------------------------------------------------------------------
HIE 临床分度 MDA(umol/L) 1 7.4 1 7.0 1 6.7 1 6.3 1 8.1 2 7.2 2 8.4 2 8.9 2 8.8 3 11.5 3 10.6 3 10.2 3 11.0
本例目的在于分析 HIE 临床分度与血浆 MDA 含量的关系, 从数据特征上看, HIE 临床分度是等级资料,血浆 MDA 含量是连续性变量,因此应计算 Spearman 等级相关系数 rs 。
=0.05
Stata 数据: x 1 2 3 4 5 6 7 8 9 10
307 259 341 237 254 416 267 320 374 316
y
80 75 90 70 75 105 70 85 88 78
Stata 命令为:
reg y x
结果:
Source | SS df MS -------------+-----------------------------Model | 928.343132 1 928.343132 Residual | 114.056868 8 14.2571086 -------------+-----------------------------Total | 1042.4 9 115.822222 Number of obs = F( 1, 8) = 10 65.11
第十章
直线回归和相关的 Stata 实现
本章使用的 Stata 命令为:
直线回归 残差计算 Pearson 相关 Spearman 相关 regress 应变量 自变量
在执行 regress 命令后,执行下列命令: predict 变量名,residual pwcorr 变量 1 … 变量 n, sig
60
70
80
90
100
110
250
300 95% CI y clp1/clp2
350 x
400 Fitted values clm1/clm2
450
例 10-2
某发热门诊医生根据患者就诊顺序随机抽取 12 名 20~40 岁发热
患者,试探讨体温与脉搏之间的伴随关系,数据见表 10-4。 表 10-4 12 名发热患者的体温(℃)与脉搏(次/分)
x 1 2 3 4 5 6 7 8 9 10 11 12 41 37.5 40.7 38.4 38.8 40 38 39 39.5 39.8 40.8 39.6 y 135 85 134 108 120 124 106 117 125 130 138 135
H0: =0 H1: ≠0
0.05
同样地, rs 是样本相关系数,仅为总体相关系数 s 的一个点估计,还应做总 体相关系数 s 是否为 0 的假设检验,其无效假设与备择假设分别为:
H0: s 0 H1: s ≠0
Stata 数据如下: i
1 2 3 4 5 6 7 8 9 10 11 12 13
x
1 1 1 1 1 2 2 2 2 3 3 3 3
Stata 命令:
pwcorr y x,sig
结果:
| y x -------------+-----------------y | | | x | | 1.0000
0.9173 0.0000
1.0000
P<0.0001,体温与脉搏存在线性相关关系。
例 10 - 3 某 医 生 研 究 新 生 儿 缺 氧 缺 血 性 脑 病 ( hypoxic-ischemic encephalopathy, HIE)临床分度与其血浆 MDA 含量(出生后第 7 天)的关系, 获得了如下资料,试分析 HIE 临床分度(1 轻度,2 中度,3 重度)与血浆 MDA 含量的相关方向及相关程度。
spearman 变量 1 变量 2
例 10-1
为了研究血清胆固醇含量与舒张压之间是否存在依存关系,2006
年在郑州某大学随机抽取 10 名成年男性, 测得他们的血清胆固醇(mg/dL)含量和 舒张压( mmHg)如表 10-1,请作统计分析。 表 10-1 10 名成人的血清胆固醇(mg/dL)含量和舒张压( mmHg)
y
7.4 7 6.7 6.3 8.1 7.2 8.4 8.9 8.8 11.5 10.6 10.2 11
Stata 命令如下:
spearman y x
结果:
Number of obs = Spearman's rho = 13 0.8910
Test of Ho: y and x are independent Prob > |t| = 0.0000
结果: x 307 259 341 237 254 416 267 320 374 316 y 80 75 90 70 75 105 70 85 88 78 yhat 81.23 72.69 87.27 68.78 71.8 100.61 74.11 83.54 93.14 82.83 stdp 1.19 1.63 1.39 1.99 1.7 2.64 1.51 1.22 1.86 1.2 stdf 3.96 4.11 4.02 4.27 4.14 4.61 4.07 3.97 4.21 3.96 clm1 78.4 68.84 84 64.08 67.77 94.37 70.54 80.66 88.74 79.98 clm2 84.05 76.53 90.55 73.48 75.83 106.86 77.69 86.42 97.55 85.67 clp1 71.86 62.97 77.76 58.69 62 89.72 64.49 74.16 83.19 73.46 clp2 90.59 82.41 96.78 78.87 81.59 111.51 83.73 92.92 103.1 92.2
P<0.0001,HIE 临床分度(1 轻度,2 中度,3 重度)与血浆 MDA 含量存在 Spearman 相关关系。