相关回归案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四次案例分析----相关回归分析

案例1 对某地的12个乡镇的饮水氟含量及中老年人群的骨关节炎患病情况作了调查,数据如下表10-12,初步发现不同乡镇的骨关节炎的患病率高低与本地区饮水的氟含量有关。于是把氟含量视为变量X,把骨关节炎患病率视为Y,计算出Pearson积矩相关系数,得r=0.827,经检验P<0.01,据此认为骨关节炎的患病率与饮水的氟含量之间有正相关关系。

表10-12 某地12个乡镇饮水氟含量与骨关节炎患病率

序号

氟含量患病率(mg/L))(%)

1 1.20 7.5

2 0.35 8.9

3 2.50 9.0

4 3.18 12.6

5 0.75 8.2

6 5.92 15.4

7 7.97 20.3

8 2.06 10.1

9 7.05 30.3

10 5.30 24.2

11 3.52 7.5

12 1.50 10.3

讨论:(1)作者以上结论是否正确?原因是什么?

(2)线性相关分析的适用条件是什么?如何验证其适用条件?

(3)应如何进行分析?本分析方法的适用条件是什么?

案例2回顾第八章例8-3,用三种不同药物治疗慢性支气管炎,治疗结果见表10-13所示。

表10-13 三种不同药物治疗慢性支气管炎的疗效

第八章曾做过2χ检验,得232.736,0.005

p

χ=<,按0.05水准,可以认为三种药物治疗效果有效的总体概率有差别。研究者认为,既然不同药物组有不同的治疗效果,则治疗效果与不同的药物治疗方法必定有关联;其关联的程度可用列联系数来描述:

r===

0.493

讨论:

(1)该推理和计算是否正确?

(2)应当如何研究治疗效果和药物种类的关联性?

案例3现有一份170例某病患者的治疗效果资料,按年龄和疗效两种属性交叉分类,结果见表10-14.

ν=,拒绝两种属性分类相互作者进行了独立性2χ检验,得到2χ=23.582,4

r==,结论独立的零假设;进一步计算Pearson列联系数r为0.35

是疗效和年龄间存在关联性。

请问:(1)上述分析方法及结论是否正确?为什么?

(2)2χ检验的用途是什么?2χ检验用于关联性分析其适用条件是什么?

2

χ检验用于差异性检验与关联性分析基本思想的异同点是什么?

(3)双向有序资料可以进行哪些分析?

案例4某医生收集了29例二型糖尿病患者的体重指数BMI(kg/m2)和病程(年),结果见表10-16。为探讨两变量间有无关系,对此数据计算了pearson相关系数,得到相关系数r=0.285(P=0.133),故认为两变量间无关系。

后来有人建议按照每个观测值是否大于两变量各自的均数,分别将这两个变量转化为分类变量,

即按照BMI是否大于其均数24.7分为Y1=1(<24.7)和Y1=2;

病程(年)是否大于其均数6.94分为Y2=1(<6.94)和Y2=2;

这样就把原始变量BMI和病程(年)转换成新的两个分类变量Y1和Y2,

χ==,故对Y1和Y2整理成四格表数据进行关联性检验,得到27.535(0.006)

p

此时认为两变量事实上存在高度相关。

问题:请对以上统计分析方法及结论做出评价,您认为应如何分析解释结果。

表10-16 29例二型糖尿病患者的体重指数BMI与病程

BMI Y1(BMI分类)病程(年)Y2(病程分类)

19.03114 1 15.0 2

19.03114 1 2.9 1

19.48696 1 4.0 1

20.81165 1 4.0 1

21.10727 1 4.0 1

22.85714 1 2.0 1

23.32342 1 5.0 1

23.37473 1 6.0 1

23.38869 1 3.0 1

23.80869 1 6.0 1

24.13960 1 5.0 1

24.22145 1 10.0 2

24.22145 1 3.0 1

24.33748 1 2.0 1

24.38237 1 6.0 1

24.48980 1 12.0 2

25.22137 2 2.3 1

25.71166 2 7.0 2

25.92593 2 8.0 2

26.39580 2 9.0 2

26.44628 2 7.0 2

26.98962 2 12.0 2

27.21730 2 3.0 1

27.45865 2 16.0 2

27.99036 2 10.0 2

28.40550 2 20.0 2

28.40816 2 4.0 1

28.72738 2 10.0 2

29.38776 2 3.0 1

=19.87X—463.73,通过方程预测当气温某作者经计算求得线性回归方程:y

为28时,产卵数为92个。计算得r=0.864,R2=0.746,故这个线性回归模型中温度解释了74.6%产卵数的变化。

对以上结论请讨论:

(1)该作者的结论是否正确?原因是什么?

(2)你的计算结果是什么?

(3)如何判断拟合的回归方程何者更优?该方法的用途与意义?

(4)试比较一下作者拟合的回归方程与你拟合的回归方程何者更优?

案例6 为了探索胎儿身长与胎龄之间的关系,某研究者调查了某妇产科医院某时期140例因自然流产死亡的胎儿,测量了胎儿身长等数据;接着按胎龄分成7个组(4~10个月),计算每组胎儿身长均数(表11-6);并得到胎儿身长与胎龄之间有线性正相关的关系,相关系数为0.98,p<0.001;胎儿身长均数Y关于胎龄X的线性回归方程为ˆ9.32 4.37

=+。结论是:胎儿身长与胎龄之间高度

Y X

相关,该回归方程可用来预测胎儿身长。

请讨论:

(1)该研究的线性相关分析结果是否准确?用线性相关分析来表达胎儿身长与胎龄之间的关系是否合理?

(2)该研究用线性回归方程来表达胎龄与胎儿身长之间的数量变化关系是否合理?若不合理,应如何做?

(3)该研究实际使用的是胎龄均数与胎儿身长均数进行的统计分析,这样做是否合理?

案例7 某研究者调查了某单位某年76例25~60岁的健康男性,检测了每人的血清胆固醇和血清甘油三酯数据,并绘制了散点图,经相关分析,得r=0.302,p<0.01,认为血清胆固醇Y与血清甘油三酯X非常显著地呈正相关,同此建立了线性回归模型:ˆ 3.8860.376.

=+得出结论可以根据回归方程

Y X

用血清甘油三酯含量推测血清胆固醇含量。

相关文档
最新文档