高中数学 第一章 统计案例 1.2 独立性检验的基本思想

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

为你深度剖析独立性检验的基本思想
吃透独立性检验的基本思想,对于广大出学者来说都是首先要解决的一个问题.但这一问题并不是通过一段文字就能说明白的,也不是通过几个数据就能解决的.下面我们就从几个方面加以剖析、说明.
一. 列联表相关的概念:
1.分类变量:
变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.
2.列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两
⨯. 如右图吸烟与患
个值,这样的列联表称为22 Array肺癌的列联表:
由列联表可以粗略估计出吸烟者和不吸烟者
患肺癌的可能性存在差异.
二. 独立性检验的基本思想:
1.独立性检验的必要性(为什么不能只凭列
联表的数据和图形下结论?):
列联表中的数据是样本数据,它只是总体的代
表,具有随机性,故需要用列联表检验的方法确认
所得结论在多大程度上适用于总体.关于这一点在下面的例题中还要进一步说明.
2.独立性检验的步骤及原理(与反证法类似):
3.独立性检验的案例展示
案例.某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817 人,调查结果是:吸烟的2148 人中49人患肺癌,2099人不患肺癌;不吸烟的7817人中42人患肺癌,7775人不患肺癌.
根据这些数据能否断定:患肺癌与吸烟有关?
从问题“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表,柱形图,和条形图的展示,使学生直观感觉到吸烟和患肺癌可能会有关系.
在不吸烟者中患肺癌的比重是0.54% ;在吸烟者中患肺癌的比重是 2.28% .
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大. 通过数据和图表分析,得到结论是:吸烟与患肺癌有关.
但这种结论能否推广到总体呢?要回答这个问题,就必须借助于统计理论来分析. 独立性检验就是检验两个分类变量是否有关的一种统计方法:
用字母表示吸烟与患肺癌的列联表: 不患肺癌 患肺癌 合计 不吸烟 a b a+b 吸烟 c d c+d 合计
a+c
b+d
a+b+c+d
样本容量 d c b a n +++=
假设H 0 :吸烟与患肺癌没有关系。

则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:
()()0≈-⇒+≈+⇒+≈+bc ad b a c d c a d
c c
b a a 因此,b
c a
d -越小,说明吸烟与患肺癌之间关系越弱.
构造随机变量 ()()()()()
d b c a d c b a bc ad n k ++++-=2
2
其中d c b a n +++=
作为检验在多大程度上可以认为“两个变量有关系”的标准 . 若 H 成立,则2
k 应该很小.把表中数据代入公式得:
()632.5691
98742148781720994249777599652
2
≈⨯⨯⨯⨯-⨯=k 在 H 成立的情况下,统计学家估算出如下概率:(
)
01.0635.62
≈≥k P . 即在 H 成立的情况下,2
k 的值大于6.635的概率非常小. 因此,我们有99%的把握认为“吸烟与患肺癌有关”. 总结一:解题步骤总结:
第一步:提出假设检验问题H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系
第二步:选择检验的指标2
2
()K ()()()()
n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸
烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大.
第三步:由下表查表得出结论
总结二:结论的归纳总结:要确认“两个分类变量有关系”这一结论成立的可信度,首先假设该结论不成立,即假设 “两个分类变量没有关系”成立,在该假设下构造随机变量
2K 应该很小.而如果由观测数据计算得到的2K 的观测值很大,则在一定可信程度上就说明
了假设不成立.根据随机变量2K 的含义,可以通过概率{
}
≈≥ K K P 2
的小概率事件值的大小来评价该假设不合理的程度有多大,从而也可说明”这两个分类变量有关系”这一结论成立的可信程度有多大.即有(
){}
%10012
⨯≥- K K P 的把握.。

相关文档
最新文档