回归分析及独立性检验规律小结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、本章知识结构

二、知识要点与联系

1.已知回归直线的斜率估计值为k ,样本点的中心为(m, n),则回归直线方程为 。 2.相关指数R 2= ,R 2越 表示回归效果越好。 3.建立回归模型基本步骤: 第一步: 第二步: 第三步: 第四步: 第五步:

4.三维柱形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。 5.二维条形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。 6.精确判断两个分类变量是否有关系的具体做法是 。 7.考查某种针剂的预防效果进行试验数据如下:

注射针剂的串病12例,未患病48例,未注射针剂的患病22例,未患病35例,则认为针剂无效的可能性约为 。

三、综合型问题剖析

使用年限x 2 3 4 5 6 维修费用y

2.2

3.8

5.5

6.5

7.0

若由资料知,y 对x 呈线性相关关系。试求:线性回归方程$

$y bx a =+$的回归系数$,a b $;

统计案例

回归分析

独立性检验

解:由已知数据制成表格。

4;5;x y ==5

5

21

1

90;112.3.i

i i i i x x y ====∑∑

所以有ˆˆ1.23,0.08.b

a ==ˆ 1.230.08.y x ∴=+ 评注:

例2.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:

(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2. 解:(1)散点图如右所示

(2)由散点图看出样本点分布在一条指数函数2

1C x y C e =的周围,于是令Z=lny,则

x 1 2 3 4 5 6 Z

1.79

2.48

3.22

3.89

4.55

5.25

由计数器算得µ0.69 1.112Z

X =+,则有0.69x 1.112

ˆy =e +

$y 6.06 12.09 24.09 48.04 95.77 190.9 $y

6

12

25

49

95

190

n

22

i

i=1

1

ˆˆe

() 3.1643,n

i i i y y

==-=∑∑n

2

22i

1

i=1

()y

ny 25553.3.n

i

i y y =-=-=∑∑

2 3.1643

10.9999.25553.3

R ∴=-

=

即解释变量天数对预报变量繁殖细菌得个数解释了99.99%. 评注:

例3.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系.

(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?

解:根据题目所给数据得到如下列联表:

(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.

(2)根据题中的数据,得到2

1437(214597175451)3891048665772

k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .

因此有 99 %的把握认为“秃顶与患心脏病有关” . 评注:

例4.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:

由表中数据计算得2

K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.

解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:

分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例a

a b

+与女生中喜欢数学课的人数比例c c d +应该相差很多,

即|

|||()()

a c ad bc

a b c d a b c d --=++++ 应很大.

,

然后平方得22

()()()()()

n ad bc K a b c d a c b d -=++++,

其中n a b c d =+++.因此2

K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.

另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2

K ≥3.

K≥3. 841)≈0.05, 因此事件A 是一个小概率事件.而由样本数据841}的概率为P (2

K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课计算得2

之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.

评注:

四、规律总结

1.作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可失控变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第二种情况。

2.一元线性回归分析是回归分析中最简单,也是最基本的一种类型,它类似于代数方程理论中的一元一次方程。

3.求回归直线方程和相关系数通常是用计算器完成的,列出相应的表格可便于求出回归直线方程中的系数和相关系数。

4.对两个变量的线性相关性进行检验,有几种彼此等价的方法,相关系数检验法只是其中一种。

5.用随机变量K2的值作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,为此,在选取样本容量时,一定要注意这一点。

6.独立性检验的基本思想类似于反证法。要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理。根据随机变量K2的含义,可以通过概率评价假设不合理的程度。

五、反思感悟

相关文档
最新文档