回归分析及独立性检验规律小结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、本章知识结构
二、知识要点与联系
1.已知回归直线的斜率估计值为k ,样本点的中心为(m, n),则回归直线方程为 。 2.相关指数R 2= ,R 2越 表示回归效果越好。 3.建立回归模型基本步骤: 第一步: 第二步: 第三步: 第四步: 第五步:
4.三维柱形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。 5.二维条形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。 6.精确判断两个分类变量是否有关系的具体做法是 。 7.考查某种针剂的预防效果进行试验数据如下:
注射针剂的串病12例,未患病48例,未注射针剂的患病22例,未患病35例,则认为针剂无效的可能性约为 。
三、综合型问题剖析
使用年限x 2 3 4 5 6 维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知,y 对x 呈线性相关关系。试求:线性回归方程$
$y bx a =+$的回归系数$,a b $;
统计案例
回归分析
独立性检验
解:由已知数据制成表格。
4;5;x y ==5
5
21
1
90;112.3.i
i i i i x x y ====∑∑
所以有ˆˆ1.23,0.08.b
a ==ˆ 1.230.08.y x ∴=+ 评注:
例2.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2. 解:(1)散点图如右所示
(2)由散点图看出样本点分布在一条指数函数2
1C x y C e =的周围,于是令Z=lny,则
x 1 2 3 4 5 6 Z
1.79
2.48
3.22
3.89
4.55
5.25
由计数器算得µ0.69 1.112Z
X =+,则有0.69x 1.112
ˆy =e +
$y 6.06 12.09 24.09 48.04 95.77 190.9 $y
6
12
25
49
95
190
n
22
i
i=1
1
ˆˆe
() 3.1643,n
i i i y y
==-=∑∑n
2
22i
1
i=1
()y
ny 25553.3.n
i
i y y =-=-=∑∑
2 3.1643
10.9999.25553.3
R ∴=-
=
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%. 评注:
例3.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?
解:根据题目所给数据得到如下列联表:
(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.
(2)根据题中的数据,得到2
1437(214597175451)3891048665772
k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .
因此有 99 %的把握认为“秃顶与患心脏病有关” . 评注:
例4.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
由表中数据计算得2
K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.
解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:
分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例a
a b
+与女生中喜欢数学课的人数比例c c d +应该相差很多,
即|
|||()()
a c ad bc
a b c d a b c d --=++++ 应很大.
,
然后平方得22
()()()()()
n ad bc K a b c d a c b d -=++++,
其中n a b c d =+++.因此2
K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.
另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2
K ≥3.
K≥3. 841)≈0.05, 因此事件A 是一个小概率事件.而由样本数据841}的概率为P (2
K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课计算得2
之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.
评注:
四、规律总结
1.作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可失控变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第二种情况。
2.一元线性回归分析是回归分析中最简单,也是最基本的一种类型,它类似于代数方程理论中的一元一次方程。
3.求回归直线方程和相关系数通常是用计算器完成的,列出相应的表格可便于求出回归直线方程中的系数和相关系数。
4.对两个变量的线性相关性进行检验,有几种彼此等价的方法,相关系数检验法只是其中一种。
5.用随机变量K2的值作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,为此,在选取样本容量时,一定要注意这一点。
6.独立性检验的基本思想类似于反证法。要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理。根据随机变量K2的含义,可以通过概率评价假设不合理的程度。
五、反思感悟