20知识讲解 独立性检验的基本思想及其初步应用(文、理)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独立性检验的基本思想及其初步应用

【学习目标】

1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用

2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量

有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释:

(1)对分类变量的理解。

这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。

(2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。

要点二、2×2列联表

1. 列联表

用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表

对于两个事件A ,B ,列出两个事件在两种状态下的数据,如下表所示:

这样的表格称为2×2列联表。 要点三:卡方统计量公式

为了研究分类变量X 与Y 的关系,经调查得到一张2×2列联表,如下表所示

统计中有一个有用的(读做“卡方”)统计量,它的表达式是:

22

()()()()()

n ad bc K a b c d a c b d -=++++(n a b c d =+++为样本容量)。

要点四、独立性检验

1. 独立性检验

通过2×2列联表,再通过卡方统计量公式计算2K 的值,利用随机变量2K 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断

通过对2K 统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:

①如果2K ≤3.841时,认为事件A 与B 是无关的。

②如果2K >3.841时,有95%的把握说事件A 与事件B 有关; ③如果2

K >6.635时,有99%的把握说事件A 与事件B 有关; 要点诠释:

(1)独立性检验一般是指通过计算2K 统计量的大小对两个事件是否有关进行判断;

(2)独立性检验的基本思想类似于反证法。即在H 0:事件A 与B 无关的统计假设下,利用2K 统计量的大小来决定在多大程度上拒绝原来的统计假设H 0,即拒绝“事件A 与B 无关”,从而认为事件A 与B 有关。独立性检验为假设检验的特例。

(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用

独立性检验的步骤:

要推断“A 与B 是否有关”,可按下面步骤进行: (1)提出统计假设H 0:事件A 与B 无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表;

(4)根据2×2列联表,利用公式:22

()()()()()

n ad bc K a c b d a b c d -=++++,计算出2

K 的值;

(5)统计推断:当2

K >3.841时,有95%的把握说事件A 与B 有关;

当2

K >6.635时,有99%的把握说事件A 与B 有关; 当2K >10.828时,有99.9%的把握说事件A 与B 有关; 当2K ≤3.841时,认为事件A 与B 是无关的.

要点诠释:

① 使用2

K 统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.

② 一定要弄清2

K 的表达式2

2

()()()()()

n ad bc a c b d a b c d χ-=++++中各个量的含义.

③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,

首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值很大,则在一定程度上说明假设不合理.根据随机变量2K 的含义,由实际计算的2K >6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2K ≤3.841时,认为两个分类变量是无关的.

【典型例题】

类型一、利用2×2列联表计算卡方

例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,

得到如下列联表:

根据表中的数据,计算K 【思路点拨】利用2K 公式计算

【解析】得到2

2

50(1320107) 4.84423272030

K ⨯⨯-⨯=

≈⨯⨯⨯ 【思路点拨】在利用22⨯列联表计算2

χ统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。

举一反三:

【变式1】研究两个事件A ,B 之间的关系时,根据数据信息列出如下的2×2列联表:

则以下2

χ计算公式正确的是( )

A .22

112212211212()n n n n n n n n n χ++++-= B .22

112211122122

()n n n n n n n n n χ++++-=

C .22

111221221212()n n n n n n n n n χ++++-= D .22

112112221212()n n n n n n n n n χ++++

-=

【答案】A

【变式2】由列联表

则随机变量2

χ≈ 。(精确到0.001) 【答案】由2K 公式计算得:7.469 类型二、独立性检验

例2. 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:

问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.

【思路点拨】 这是一个22⨯列联表的独立性检验问题,根据列联表的数据求解判断。 【解析】 提出假设H 0:新防护服对预防工人患职业性皮肤炎无效.

将表中数据代入22

()()()()()

n ad bc K a c b d a b c d -=++++,得213.826K ≈,查表可知:P (2

K ≥10.828)

≈0.001,而13.826>10.828,故有99.9%的把握认为新防护服对预防这种职业性皮肤炎有效. 【总结升华】 在掌握了独立性检验的基本思想后我们一般通过计算2

K 的值,然后比较2

K 的值与临界值的大小来精确地给出“两个分类变量”的相关程度.

举一反三:

【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论? 【答案】由已知数据得到下表

相关文档
最新文档