独立性检验-PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)通过图形直观判断两个分类变量是否相关:
三维柱形图
8000 7000 6000 5000 4000 3000 2000 1000 0 不患肺癌 患肺癌
不吸烟 吸烟 吸烟 不吸烟
2)通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
二维条形图
3)通过图形直观判断两个分类变量是否相关: 等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
患肺癌 比例
患肺癌 不患肺癌
不患肺癌 比例
上面我们通过分析数据和图形,得到的直观印象是吸 烟和患肺癌有关,那么事实是否真的如此呢?这需要 用统计观点来考察这个问题. 现在想要知道能够以多大的把握认为“吸烟与患肺癌 有关”,为此先假设: H0:吸烟与患肺癌没有关系
如是否吸烟、宗教信仰、是否患肺癌、国籍等等. 在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等.
为调查吸烟是否对患肺癌有影响,某肿 瘤研究所随机地调查了9965人,得到如下 结果:其中吸烟者2148人,不吸烟者7817 人,吸烟的2148人中49人患肺癌, 2099不患肺癌;不吸烟的7817人中42人 患肺癌, 7775人不患肺癌。 根据这些数据能否断定:患肺癌与吸烟有 关吗?
永昌一中
赵珊
学习目标展示:
• 理解独立性检验的基本思想;(难点) • 理解随机变量 K 2 的含义; • 掌握独立性检验的步骤 ,并能够对两个分类变 量进行独立性检验。(重点)
定量变量百度文库
变量 分类变量
定量变量的取值一定是实数,它们的取值大小有特定
的含义,不同取值之间的运算也有特定的含义. 如身高、体重、考试成绩、温度等等. 例如身高、体重、考试成绩等,张明的身高是 180cm ,
a b c d
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量
2 2
n ( a d b c ) ( 1) K ( a cb ) ( da ) ( bc ) ( d )
把数字用字母代替,得到如下用字母表示的列联表: 不吸烟 吸烟 总计
不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
吸烟与患肺癌的列联表: 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d 以A表示不吸烟,B表示不患肺癌,则a表示事件AB 发生的频数;a+b和a+c恰好分别为事件A和B发生的 频数. 如果“吸烟与患肺癌没有关系”,则在吸烟者中不患 肺癌的比例应该与不吸烟者中相应的比例应差不多, c 即 a a ( c dc ) ( a b ) a d b c 0
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:
K
2
a b c d a c b d
na b c d
P(χ≥x0) 0.50 0.40 0.25 0.15 x0
2×2列联 为了研究这个问题,我们将上述问题用下表表示: 表
不患肺癌
不吸烟 吸烟 总计 7775 2099 9874
患肺癌
42 49 91
总计
7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
上述结论能说明吸烟与患肺癌有关吗?能有多大把握 认为吸烟与患肺癌有关呢?
2
其中 n a b c d
第四步:查对临界值表,作出判断。(不可信度表)
P(≥x0) x0 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
李立的身高是 175cm ,说明张明比李立高 180-175=5
(cm). 两个定量变量的相关关系分析:回归分析(画散点图、 相关系数r、相关指数R2、残差分析)
对于性别变量,其取值为男和女两种,这种变量的不 同“值”表示个体所属的不同类别,像这样的变量称 为分类变量.
分类变量也称为属性变量或定性变量,它们的取值一 定是离散的,而且不同的取值仅表示个体所属的类别, 如性别变量,只取男、女两个值,商品的等级变量只 取一级、二级、三级等等.
在H0成立的情况下,统计学家估算出如下的概率:
P ( K 6 . 6 3 5 ) 0 . 0 1
2
也就是说,在H0成立的情况下,对随机变量K2进行多次
观测,观测值超过6.635的频率约为0.01,是一个小概
率事件.现在K2的观测值
关系”
,远远大于 6.635, k 5 6 . 6 3 2
所以有理由断定 H0 不成立,即认为“吸烟与患肺癌有
其中n=a+b+c+d为样本容量.
若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小. 由列联表中数据,利用公式(1)计算得K2的观测值为:
2 9 9 6 5 ( 7 7 7 5 4 9 4 2 2 0 9 9 ) k 5 6 . 6 3 2 . 7 8 1 7 2 1 4 8 9 8 7 4 9 1
但这种判断会犯错误,犯错误的概率不会超过 0.01,即 我们有99%的把握认为“吸烟与患肺癌有关系”.
独立性检验:
利用随机变量 K2 来确定在多大程度上可以认为“两个
分类变量有关系”的方法称为两个分类变量的独立性
检验.
独立性检验
用K2统计量研究这 类问题的方法 步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关 结论的可靠 程度如何?