群体间的差异比较卡方检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

拟合问题————样本率与已知总 •体对率于的连比续较变量,我们可以使用单样本的 t 检验考
察样本所在总体的均值与已知值是否存在显著差 异,即样本均值与已知值的差异。
• 对于分类变量,则可以使用卡方检验比较样本比 率与已知值的差异。
• 什么是拟合问题?
– 假设一个总体中,某个变量的可能取值有n个水平;某 一已知样本中,该变量的取值也是这n个水平。
– 现在需要从样本的分类数据出发,来判断总体各取值水 平出现的概率是否与已知概率相符,即该样本是否的确 来自已知的总体分布。
– 即单样本率与总体率的比较,被称之为拟合问题。
拟合问题————样本率与已知总 体例1率:的有比奖有较息储蓄摇奖的办法一般采取刻有数码0-9的编
号球投入摇奖机,然后按一定规则,把摇出的数码组合成兑 奖号码。南京市自开办有奖有息储蓄以来,13期中奖号码中 各数码出现的频次见“数据摇奖.sav”。试判断摇奖机工作 是否正常?
16
8.3 独立性检验 ——两个(多个)变量的相关问题
独立性检验——两个(多个)变量的相关问题
• 卡方检验可以非常容易地推广到两样本或多样ຫໍສະໝຸດ Baidu 比较的问题,即应用卡方检验总体中两个特性有 无相关性,这种检验也叫独立性检验。
例:在电视收视率调查中,得到性别与收视习惯的列联表如 下。试建立数据文件并分析性别与收视习惯的相关联系。
观测频数
期望频数
输出残差 标准化残差
独立性检验——两个(多个)变量的相关问题
Pearson卡方 统计量
双侧近似概率
双侧精确概率
对数似然比计 算的卡方
线性相关的卡方值, 检验行列变量是否线 性相关,多用于定序
Fisher’s确切 概率法
21
8.4 卡方检验的局限性及补救办法
卡方检验的局限性及补救办法
第8章
群体间的差异比较—— 卡方检验
内容提要
8.1 卡方检验原理 8.2 拟合问题——样本率和已知总体率的比较 8.3 独立性检验——两个(多个)变量的相关 8.4 卡方检验的局限性及补救办法
3
8.1 卡方检验原理
卡方检验
连续变量 变 量
分类变量
T 检验、方差分析
有序分类变量 秩和检验
无序分类变量 卡方检验
卡方检验原理
例:许多儿童都喜欢看卡通片,有的人认为只要是卡通片儿童 都爱看,而不管其类型;另一些人认为儿童对不同类型的卡通 片有不同的偏好。为此,他们提供了6种类型的卡通片,让 300名经常看电视的儿童观看,然后说出喜欢看哪一个,得到 如下表所示的数据。
• 原假设H0:每一个卡通片被选择为喜欢的可能性 是相同的。即假定所研究的总体服从均匀分布, 因此每一个卡通片被选择的概率π都应该是1/6。
• 如果为真,300名儿童挑选每种卡通片的可能性应
该是相等的,则选择每种卡通片的期望频次应该

是:fe=nπ
构造卡方统计量: 2=
f0
- fe fe
2
卡方检验原理
300名儿童对不同类型卡通片的偏好分布
卡通片 观测频次 概率π 期望频次 偏差 偏差平方
加权结果
编号 f0
(H0为真) fe=nπ
f0-fe ( f0-fe )2 ( f0-fe )2/fe
• 卡方检验的局限性:
– 卡方值随分类的不同而改变。如对教育程度、收入水平的 分类,因此分类时最好有理论或实践依据,或者统计依据 (中位数、四分位数等)
• 卡方检验的原假设H0是:观测频数与期望频数没有差 别。
• 卡方检验的基本思想是:首先假设H0成立,基于此前 提计算出χ2值,它表示观测值与理论值之间的偏离程 度。根据χ2分布, χ2统计量,以及自由度可以确定在 假设H0成立的情况下获得当前统计量及更极端情况的
8
8.2 拟合问题 ——样本率与已知总体率的比较
残差值
卡方值
P值小于5%, 可以拒绝原假 设。认为摇奖
拟合问题————样本率与已知总 体例2率:的美比国某较小汽车经营商根据去年销售的小汽车颜色的百分
率,认为今年顾客选择各种颜色的数目仍将不变,即20%的 人选择黄色,30%选择红色,10%选择绿色,10%选择蓝色, 30%选择白色。他随机抽取了150名顾客,询问他们所喜好 的颜色。结果见color.sav。问是否应拒绝该经营商的假设?
1
85
1/6
50
35
1225
2
80
1/6
50
30
900
3
55
1/6
50
5
25
4
10
1/6
50
-40
1600
5
40
1/6
50
-10
100
6
30
1/6
50
-20
400
合计 300
1
300
0
24.5 18 0.5 32 2 8 χ2=85 P<0.001
(二)非参数检验
• 卡方检验是以卡方分布为基础的一种常用假设检验方 法,主要用于分类变量,根据样本数据推断总体的分 布与期望分布是否有显著差异,或推断两个分类变量 是否相互关联或相互独立。
• 由于卡方检验简单直观,而且交互分析表又能提供 非常丰富的信息,因此在各种调查统计中这种交互 分析(列联表加卡方检验)的应用十分广泛。
• 在实际应用中,不但定类变量采用此方法,对定序 甚至定距变量也粗略地划分成几类后做成列联表。 这可以从某种意义上简化数据,但这种交互分析也 存在其局限性。
卡方检验的局限性及补救办法
• 原假设H0 :顾客今年的颜色偏好与去年无显著差 异。
• Analyze——Nonparametric Tests——ChiSquare
拟合问题————样本率与已知总 体率的比较
依次输入期 望的类别比 例。
拟合问题————样本率与已知总 体率的比较
P值小于5%, 可以拒绝原假 设。顾客今年 的颜色偏好与 去年相比存在
• 原假设H0 :摇奖机工作正常,则每个号码出现的 概率为1/10。
• 注意:原始数据在分析时,首先进行加权!!
• Analyze——Nonparametric Tests——ChiSquare
拟合问题————样本率与已知总 体率的比较
所有类别 比例相等
自定义类 别比例
拟合问题————样本率与已知总 体率的比较


几乎天天看
38
24
偶尔看
31
7
独立性检验——两个(多个)变量的相关问题
• Analyze——Descriptive Statistics——Crosstabs
进行卡方检验
独立性检验——两个(多个)变量的相关问题
• Analyze——Descriptive Statistics——Crosstabs
相关文档
最新文档