第7章 分类变量的推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 独立性检验
(例题分析)
第2步:计算期望频数和2统计量
(34 29.76) 2 (38 42.24) 2 (28 32.24) 2 (50 45.76) 2 29.76 42.24 32.24 45.76 1.98
2
2 独立性检验
(例题分析)
什么是拟合优度检验?
(goodness of fit test)
1.
利用Pearson-2 统计量来判断某个分类变量各 类别的观察频数分布与某一理论分布或期望分 布是否一致的检验方法
比如,各月份的产品销售量是否符合均匀分布 不同地区的离婚率是否有显著差异
2.
也称为一致性检验(test of homogeneity)
拟合优度检验
(期望频数不等)
第1步:提出假设 H0:该城市居民对房屋价格的评价频数 与全 国的评价频数无显著差异 H1 :该城市居民对房屋价格的评价频数 与全 国的评价频数有显著差异 2 2) ( fo f 第2步:计算期望频数和e 统计量 2
fe
自由度df=类别个 数-1
应用2检验应注意的问题
两个分类变量的相关性度量
用SPSS进行2检验
性别与是否逃课有关系吗?
读完四年大学,一次课也没有逃过,这样的学生恐 怕不多 2004年5月,中国人民大学财政金融学院的3名学生 就逃课问题做了一次调查。调查的对象是财政金融 学院的大一,大二,大三本科生。样本的抽取方式 是分层抽样与简单随机抽样结合,先根据年级划分 层次,然后对各个班级简单随机抽样,共抽取150名 学生组成一个样本,并对每个学生采用问卷调查。 问卷内容包括每周逃课次数、所逃课程的类型(选修 课、专业课等等)和逃课原因等。调查得到的男女学 生逃课情况的汇总表如下
1.
2.
对列联表中的两个分类变量进行分析,通常是 判断两个变量是否独立 该检验的原假设是:两个变量独立(无关)
如果原假设被拒绝,则表明两个变量不独立,或
者说两个变量相关
3.
独立性检验的统计量为
( fo fe )2 2 fe
自由度df=(r-1)(c-1)
2 独立性检验
(例题分析)
2.
3.
这种由两个或两个以上分类变量交叉分类的频数分布表 称为列联表(contingency table) 一个由r行和c列组成的列联表也称为rc列联表
例如,本章开头的案例中,行变量“逃课情况”有两个类别, 列变量“性别”也有两个类别,这就是一个22列联表
什么是独立性检验?
(test of independence)
从2统计量的公式可以看出,期望频数在公式的分母上,如果某 个单元格的期望频数过小,统计量的值就会变大,从而导致拒 绝原假设
2.
应用2检验时对单元格的期望频数有以下要求
如果仅有两个单元格,单元格的最小期望频数不应小于5。否则 不能进行2检验 单元格在两个以上时,期望频数小于5的单元格不能超过总格子 数的20%,否则不能进行2检验
性别与是否逃课有关系吗?
这里涉及到两个分类变量,一个是逃课情况,一个是 性别 根据上面的数据,你认为性别与逃课与否有关系吗? 如何来检验两个分类变量之间是否存在关系呢? 学完本章内容就很容易解决这样的问题
第 7 章 分类变量的推断
7.1 一个分类变量的拟合优度检验
7.1.1 期望频数相等 7.1.2 期望频数不等
如果出现期望频数小于5的单元格超过20%,可以采取合并类别的
办法来解决这一问题
第 7 章 分类变量的推断
7.3 两个分类变量的相关性度量
7.3.1 系数和Cramer’s V系数 7.3.2 列联系数
7.3 两个分类变量的相关性测量
7.3.1
系数和Cramer’s V系
数
系数
3.
该检验也可用于判断各类别的观察频数分 布是否符合泊松分布或正态分布等
7.1 一个分类变量的拟合优度检验
7.1.1 期望频数相等
拟合优度检验
(期望频数相等)
【例7-1】为研究消费者对不同品牌的牛奶是否有明显偏好, 一家调查公司抽样调查了500个消费者对4个品牌的偏好情况, 得到的结果如下表所示。检验消费者对牛奶品牌的偏好是否 有显著差异(=0.05)
用SPSS进行检验
拟合优度检验
(使用SPSS)
近似的显著 性 水 平 (Asymp. Sig.) 即 为 P 值。由于P 值接近于0 。拒绝原假 设,表明消 费者对牛奶 品牌的偏好 有显著差异
7.1 一个分类变量的拟合优度检验
7.1.2 期望频数不等
拟合优度检验
(期望频数不等)
【例7-2】一项针对全国的房地产价格调查表明,城镇居民对房价表 示非常不满意的占15%,不满意的占45%,一般的占25%,满意的 占9%,非常满意的占6%。为研究一线大城市的居民对房地产价格 的满意程度,一家研究机构在某城市抽样调查300人,其中的一个 问题是:“您对目前的住房价格是否满意?”调查共设非常不满意、 不满意、一般、满意、非常满意5个选项。调查结果的频数分布如 下表所示。检验该城市居民对房屋价格满意度评价的频数与全国的 调查频数是否一致
统 计 学 数据分析
(方法与案例)
统计名言
我们是无知的,所以让我们学习吧!
——Karl Pearson
第 7 章 分类变量的推断
7.1 一个分类变量的拟合优度检验 7.2 两个分类变量的独立性检验 7.3 两个分类变量的相关性度量
学习目标
一个分类变量的拟合优度检验
两个分类变量的独立性检验
拟合优度检验
(使用SPSS—期望频数相等)
第1步:先指定“频数”变量 点击【Data】→【Weight-Cases】,选择 【Weight cases by】,将“频数”(本例为人数) 选入【Frequency Variable】,点击【OK】
第2步:选择菜单:【Analyze】→【Nonparametric Test】→【Chi Square】,进入主对话框 第3步:将频数变量选入(本例为人数)【Test Variable List】。点击【OK】
拟合优度检验
(期望频数相等)
第1步:提出假设 H0:观察频数与期望频数无显著 差 异(无明显偏好) H1 :观察频数与期望频数有显 著差 异(有明显偏好) 2 ( fo fe ) 2 自由度df=类别个 第2步:计算2统计量 fe 数-1
拟合优度检验
(期望频数相等)
拟合优度检验
(期望频数不等)
期望频数计算表
拟合优度检验
(期望频数不等)
2 统计量计算表
拟合优度检验
(期望频数不等)
第3步:做出决策 由 于 自 由 度 =5-1=4 , 利 用 Excel 的 【CHIDIST】 函 数 计 算 的 统 计 量 的 P 值 (右尾概率)为0.102662 ,由于P>0.05。 不拒绝原假设,没有证据表明该城市居 民对房屋价格满意度的评价与全国有显 著差异
拟合优度检验
(使用SPSS—期望频数不等)
第1步:先指定“频数”变量 第 2 步 : 选 择 菜 单 : 【Analyze】→ 【Nonparametric Test】→【Chi Square】,进入主对话框 第3步:将频数变量选入【Test Variable List】 第 4 步 : 在 【Expected Values】 下 选 择 【Values】, 并将相应的期望比例(本例为全国的调查 比例) 依次输入到框内并点击【Add】(每次只能 输 用SPSS进行检验 入1个,并点击【Add】,然后在输入另一 个,再点击【Add】…)。点击【OK】
【例7-3】利用本章开头关于学生逃课情 况调查的数据,如下表所示。检验性别与 逃课情况是否独立
2 独立性检验
(例题分析)
第1步:提出假设 H0:性别与是否逃课独立 H1 :性别与是否逃课不独立 第2步:计算期望频数和2统计量 RT为给定单元格所
RT fe n
在行的合计频数; CT n CT为给定单元格所 n 在列的合计频数;n 为样本量
7.3 两个分类变量的相关性测量
7.3.2
列联系数
列联系数
(contingency coefficient)
1. 2.
主要用于大于22列联表的相关性测量,用C表示 计算公式为
C
2 n
2
3.
联系数不可能大于1。当两个变量独立时,C=0, 但即使两个变量完全相关,列联系数也不可能等 于1,因此,对列联系数含义的解释就不够方便
第3步:做出决策 由 于 自 由 度 =(2-1)(2-1)=1 , 利 用 Excel的【CHIDIST】函数计算的统计量 的 P 值(右 尾概率 )为 0.159372 , 由于 P>0.05。不拒绝原假设,可以认为性别 与逃课情况独立
2 独立性检验
(使用SPSS)
拟合优度检验
(使用SPSS P 值 。由于P>0.05 。不拒绝原假 设,没有证据 表明该城市居 民对房屋价格 满意度的评价 与全国有显著 差异
第 7 章 分类变量的推断
7.2 两个分类变量的独立性检验
7.2.1 列联表与2独立性检验 7.2.2 应用2检验应注意的问题
2 独立性检验
(使用SPSS)
近似的显著 性 水 平 (Asymp. Sig.) 即 为 P 值 。 由 于 P>0.05 。 不 拒绝原假设 ,可以认为 性别与逃课 情况独立
7.2 两个分类变量的独立性检验
7.2.2
应用2检验应注意的问 题
应用2检验应注意的问题
1.
在应用2检验时,要求样本量应足够大,特别是每个单元 格的期望频数不能太小,否则应用应检验可能会得出错误 的结论
1.
由Cramer提出,计算公式为
2 V n min[( r 1), (c 1)]
2.
Cramer’s V系数的取值范围总是在0~1之间
当两个变量独立时,V=0;当两个变量完全相关时,
V=1 如果列联表的行数或列数中有一个为2,Cramer’s V 系数就等于 系数 例如,根据例7—3的计算结果,得到的性别与逃课情 况两个变量之间的Cramer’s V系数与 系数一致
2 统计量计算表
拟合优度检验
(期望频数相等)
第3步:做出决策 由 于 自 由 度 =4-1=3 , 利 用 Excel 的 【CHIDIST】 函 数 计 算 的 统 计 量 的 P 值 (右尾概率)为6.22366E-12,由于P值接 近于0。拒绝原假设,表明消费者对牛奶 品牌的偏好有显著差异
7.2 两个分类变量的独立性检验
7.2.1 列联表与2独立性检验
什么是独立性检验?
(test of independence)
1.
研究两个分类变量时,每个变量有多个类别,通常将两 个变量多个类别的频数用交叉表的形式表示出来
一个变量放在行(row)的位置,称为行变量,其类别数(行数) 用r表示 另一个变量放在列(column)的位置,称为列变量,其类别数 (列数)用c表示
@ 将列联表中的数据转换为原始数据形式 第1步:选择【Analyze】→【Descriptive StatisticsCrosstabs】,进入主对话框 第2步:将行变量(本例为“逃课情况”)选入【Row(s)】, 将列变 量 (本例为“性别”)选入【Column(s)】(行列可以 互换) 第3步:点击【Statistics】并选中【Chi-square】;点击 【Continue】返回主对话框 点击【Cells】,在【Counts】下选中 【Expected】, 用SPSS进行检验 点击【Continue】返回主对话框。点击【OK】
( coefficient )
1. 2.
主要用于22列联表的相关性测量 计算公式为
2 n
3.
例7—3的计算结果,得到的性别与逃课情况两个 变量之间的系数为0.114891。由于 很小,表明 性别与逃课情况不存在相关关系。这与独立性检 验的结论是一致的
Cramer’s V系数
(Cramer’s V coefficient )