Chi-Square Applications
实习四5.11-chi-square test
1.数据库的结构与建立 1.2 整理数据格式:
area=1 表“亚洲” area=2 表“欧洲” area=3 表“北美洲” type=1 表“A型” type=2 表“B 型” type=3 表“AB型” type=4 表“O 型”
22
23
2.SPSS中的分析步骤:
24
25
卡 方 检 验
Chi-Square Test
0.5 0.4 0.3
Ý ß ×·
×Ó ¶ £ 1 ÔÉȽ
0.2 0.1 0.0 0 3 6 9 12 ¿ ·Ö ¨½ µ
×Ó ¶ £ 2 ÔÉȽ ×Ó ¶ £ 3 ÔÉȽ ×Ó ¶ £ 6 ÔÉȽ
潘岳松
公共卫生与家庭医学学院 流行病学与卫生统计学系
2.行×列χ2检验 3.配对χ2检验
要求: 1.数据库的结构与建立
2.SPSS中的分析步骤 3.分析结果的解释
19
行×列χ2检验
数据库的结构与建立:与四格表χ2检验一样 (原始数据格式和整理格式),只是在result 变量的数值由两位变成多位。 2.SPSS中的分析步骤:与四格表χ2检验一样。
4
原始数据形式
表2 100例高血压患者治疗后临床记录 编号 年龄 性别 治疗组 舒张压
1 2 3 4 … 100
体温 疗效
X5 37.5 37.0 36.5 37.8
37.6
X1 37 45 43 59
54
X2 男 女 男 女
男
X3 A B A B
B
X4 11.27 12.53 10.93 14.67
污染 23 14 3
基于BIG-WFCHI的微博信息关键特征选择方法
基于BIG-WFCHI 的微博信息关键特征选择方法①殷仕刚1, 安 洋1, 蔡欣华2, 屈小娥21(西安理工大学 信息化管理处, 西安 710048)2(西安理工大学 计算机科学与工程学院, 西安 710048)通讯作者: 殷仕刚摘 要: 特征选择是用机器学习方法提高转发预测精度和效率的关键步骤, 其前提是特征提取. 目前, 特征选择中常用的方法有信息增益(Information Gain, IG)、互信息和卡方检验(CHI-square test, CHI)等, 传统特征选择方法中出现低频词引起的信息增益和卡方检验的负相关、干扰计算等问题, 导致分类准确率不高. 本文首先针对低频词引起的信息增益和卡方检验的负相关、干扰计算等问题进行研究, 分别引入平衡因子和词频因子来提高算法的准确率; 其次, 根据微博信息传播的特点, 结合改进的IG 算法和CHI 算法, 提出了一种基于BIG-WFCHI (Balance Information Gain-Word Frequency CHI-square test) 的特征选择方法. 实验分析中, 本文采用基于最大熵模型、支持向量机、朴素贝叶斯分类器、KNN 和多层感知器5种分类器对两个异构数据集进行了测试. 实验结果表明, 本文提出的方法能有效消除无关特征和冗余特征, 提高分类精度, 并减少运算时间.关键词: 微博信息; 特征选择; 机器学习; 信息增益; 卡方检验引用格式: 殷仕刚,安洋,蔡欣华,屈小娥.基于BIG-WFCHI 的微博信息关键特征选择方法.计算机系统应用,2021,30(2):188–193. /1003-3254/7782.htmlKey Feature Selection Method for Weibo Information Based on BIG-WFCHIYIN Shi-Gang 1, AN Yang 1, CAI Xin-Hua 2, QU Xiao-E 21(Department of Information Management, Xi’an University of Technology, Xi’an 710048, China)2(School of Computer Science and Engineering, Xi’an University of Technology, Xi’an 710048, China)Abstract : Feature selection, whose premise is feature extraction, is a key step to improve the accuracy and efficiency in retweeting prediction through achine learning methods. Currently, the approaches commonly adopted in feature selection include Information Gain (IG), mutual information, and CHI-square test (CHI). In the traditional feature selection methods, such problems of IG and CHI as negative correlation and interference calculation elicited by low-frequency words lead to low classification accuracy. In view of these problems, we introduce a balance factor and a word frequency factor in this study to increase the algorithm accuracy. Then, according to the spread characteristics of Weibo information,combined with the improved IG and CHI algorithms, we propose the feature selection method based on Balance Information Gain-Word Frequency CHI-square test (BIG-WFCHI). Furthermore, we experimentally test the proposed method with five classifiers including maximum entropy model, support vector machine, naive Bayes classifier, K-nearest neighbor, and multi-layer perceptron on two heterogeneous data sets. The results show that our method can effectively eliminate both irrelevant and redundant features, increase the classification accuracy, and reduce the running time.Key words : Weibo information; feature selection; machine learning; Information Gain (IG); CHI-square test (CHI)计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(2):188−193 [doi: 10.15888/ki.csa.007782] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金(61672027)Foundation item: National Natural Science Foundation of China (61672027)收稿时间: 2020-06-15; 修改时间: 2020-07-14; 采用时间: 2020-07-27; csa 在线出版时间: 2021-01-27188目前, 作为现实社会网络的延伸, 微博平台已经成为网民表达意见、交流信息的热门网站平台. 据中国互联网络信息中心(CNNIC)第45次《中国互联网络发展状况统计报告》显示[1], 微博是我国三大社交应用之一. 在抗击新冠肺炎疫情过程中, 上亿用户通过微博关注最新疫情、获取防治服务、参与公益捐助. 截至2020年2月4日, 微博热搜榜上疫情相关话题的占比超过60%. 显然, 新兴媒体已经渗透到我们的生活中,给我们的信息获取和社会互动带来了巨大的变化. 然而, 由于缺乏对内容的即时审查, 虚假信息极易产生和迅速传播, 给社会带来负面影响. 因此, 准确、有效地预测微博的传播范围, 对于防止虚假信息传播具有重要意义.利用机器学习方法预测微博传播范围的前提是提取微博转发特征. 因此, 选择有效的特征是提高预测精度和效率的关键步骤, 通过选择有效的特征可以在不损失处理速度和性能的前提下消除不相关和冗余的特征.通过对文献[2,3]实验结果的分析, 发现: 1) IG 和CHI方法表现良好, 表明高频词有利于分类; 2)相反, MI有效性较差的原因在于其固有的低频词优势,这一缺陷导致了预测能力差和学习能力差[4]. 代六玲等[5]在研究中也发现将单一的方法进行组合应用可以提高特征选择的准确率, 并大幅度缩短分类训练时间. 李玉鑑等[6]将DF和CHI相结合不仅保留了CHI方法能够考虑特征词项与类别相关的优点, 而且利用文档频率DF值来去除掉低频词, 降低了CHI对低频特征词的权重, 增强了对关键特征的识别能力. Qian等[7]将信息理论与集合论理论相结合, 解决了特征选择中的不完全数据问题, 但分类数据与数值数据的共存却悬而未决问题. Wang等[8]进一步发现, 为了克服CHI的缺陷, CHI常常与词频等其他因素相结合. Guyon等[9]也发现IG受到冗余相关特征的影响.通过以上分析, 发现直接简单的将DF和CHI进行结合很难去除冗余特征. 相反, 它甚至可以忽略低频词的关键特征. 本文对传统IG和CHI特征选择方法进行了研究分析, 针对IG算法低频特征词对运算结果产生干扰的问题, 引入平衡因子进行调节; 针对CHI算法存在的负相关问题, 引入词频因子来提高算法准确率.在此基础上, 根据微博信息传播特点, 结合改进的IG 和CHI算法, 提出了一种基于BIG-WFCHI (Balance Information Gain-Word Frequency CHI-square test)的特征选择方法. 最后, 以2017年微博数据和Reddit社区数据, 测试BIG-WFCHI的性能. 实验结果表明BIG-WFCHI特征选择方法能够提高信息分类准确率, 且降低了运算时间和成本.1 BIG-WFCHI微博信息关键特征选择方法1.1 信息增益在信息论中, 熵表示信息中包含的平均信息量. 对于特征, 熵度量它们对分类的有用程度. 假设特征t有m个可能值, v={v1| v2 |…| v m}, p i(i=1,2, …, m)是v i的概率, 那么t的信息熵可以定义为:其中, 较低的熵表示更简单的分布. 注意, 熵为0意味着所有的样本都有相同的值. 相比之下, 熵越大表明无序分布越多. 当特征分布均匀时, 在log2m处达到最大熵.信息增益是根据系统的原始熵与系统具有固定特征的条件熵之差定义的, 它描述了特征的信息量. 一般来说, 一个特征越不确定, 它包含的信息就越多. 特征t的IG定义为式(2)[3,10].p(¯t)其中, p(c i)表示类别c i的出现概率, 对于特征t和类别集C={c i, i=1,2, …, n}, IG利用类别c i中t出现(p(t))和不出现()的概率来度量其在C上的信息增益, 因此, 较大的信息增益表示t对C的贡献较大, 这使得IG方法更有可能选择信息增益较大的特征到一个类别.1.2 卡方检验卡方检验(CHI-square test)[6]又称为χ2检验, 是检验特征是否服从某一理论分布或假设分布的假设检验之一, 属于自由分布的非参数检验.其基本思想是, 首先假设H0是真的, 然后基于H0计算χ2来描述观测值与期望值之间的差距. 利用χ2分布和自由度, 可以得到当前统计量在H0下的概率p.2021 年 第 30 卷 第 2 期计算机系统应用189卡方检验可以用来衡量特征t 和类别c i 之间的相关性. 假设t 和c i 服从单自由度的χ2分布. 其中, N 表示数据集的大小; B 表示c i 中具有特征t 的子集的大小;D 表示c i 中不具有特征t 的子集的大小; L 表示c i 中不具有特征t 的子集的大小, M 表示c i 中不具有特征t 的子集的大小. c i 中特征t 的χ2值为:当χ2(t , c i )=0时, 特征t 和c i 是独立的, χ2的值越大它们的相关性越强.对于多类问题, 首先计算t 和c i 的χ2值, 然后分别在整个数据集上测试特征t 的χ2值.其中, n 表示类别数. 式(4)是分类特征的平均χ2值,式(5)是最大值. 根据χ2值得到排序后的特征列表, 然后根据排序后的列表选择特征.1.3 基于BIG-WFCHI 的微博信息关键特征选择算法信息增益和χ2方法只计算整个数据集中每个特征的频率, 而不考虑特定类别的特征(转发/不转发). 这两种方法只关注具有一定特征的微博数量, 而不关注特定类别微博的频率. 这夸大了低频特征的作用, 导致分类精度下降[11].因此, 除了使用基于微博数量的统计方法外, 还需要考虑所有类别特征的概率分布, 本文引入词频因子E 作为标准度量, 它表示出现在一个类别中的特征的总频率.1≤k ≤n f ik (t )f i (t )设在微博数据集中, 属于类别C i 的微博是d 1, d 2, …,d n , 特征t 微博d k ()中出现的次数为, 特征t 在Ci 中出现的次数为. 词频因子E 为特征t 在某类C i 中出现的总词频, 如式(6)所示.除了上述导致结果不理想的原因外, 传统的信息增益方法更有可能选择在一个特定类别中出现较少而在其他类别中出现较多的特征, 而不是在一个特定类别中出现较多而在其他类别中出现较少的有价值特征.为了解决这个问题, 需要设置一个平衡因子, 以确保当一个特定类别的无关特征(或受影响较小的特征)发生时, 该参数变为负值或非常小的正值, 表明该特征具有负相关性或贡献较小. 平均值可以是一个简单有效的标准来衡量特征对类别的影响. 因此, 本文引入平衡因子F 为:d f i (t )d f i (t )d f i (t )=1n∑ni =1d f i (t )平衡因子F 为分类C i 中包含特征t 的微博数与各分类出现特征t 的微博平均数的差值, 如式(7)所示.其中, 为在分类C i 中包含特征t 的微博数; 为数据中各分类出现特征t 的微博平均数, , n 为数据集的分类个数.通过式(2)、式(6)和式(7)得出:因此, IG 避免忽略特定类别中的特征频率, 并选择在特定类别中出现较少但在其他类别中出现较多的特征.从式(3)可以看出, D 和L 变大, 而B 和M 变小.即DL >BM , 这意味着由于特定类别的频率较低, 特征的统计值被夸大. 因此, 这些非最优特征更有可能被选择. 这就是所谓的负相关[12]. 为了克服这个问题, 如式(9)所示, 对式(3)进行限定.基于上述对IG 和CHI 特征选择方法优缺点的分析, 结合两个引入的词频因子E 和平衡因子F , 提出一种基于BIG-WFCHI 特征选择算法. 其计算方法如式(10)所示.为了更加准确的描述BIG-WFCHI 算法, 引入以下两个定义: BIG-WFCHI 离散度和BIG-WFCHI 特征类间差值.定义1. BIG-WFCHI 离散度, 记为D p BIG-WFCHI ,计算机系统应用2021 年 第 30 卷 第 2 期190表示每个类别中特征BIG-WFCHI (以下简称IC )值的分散程度, 用式(11)中的D p 表示.IC i 其中, m 表示特征总数, n 表示类别数量, IC ij 表示第i 个特征在第j 个分类的BIG-WFCHI 值, 为第i 个特征在所有类中IC ij 的平均值.BIG-WFCHI 离散度可以用来测量特征的冗余度.具有较大BIG-WFCHI 离散度的特征具有较强的识别能力, 即它们对分类更具价值.定义2. BIG-WFCHI 特征类间差值, 记为D f 表示在类间最大IC 值与第二IC 值的差值, 如式(12)所示.max(IC i )max ′(IC i )其中, 表示第i 个特征在指定类中最大的BIG-WFCHI 值, 表示第i 个特征在指定类中第二大值. D f 值越大说明特征越特征在特定类别中的分布越密集. 也就是说, 这个特征对分类更为关键.利用D p 和D f 进一步分析特征的冗余度, 可以减少特征的维数, 去除冗余特征, 缩短运行时间.BIG-WFCHI 算法的主要步骤如算法1.算法1. BIG-WFCHI 算法输入: 原始数据集S (t 1, t 2,…, t n ), 阈值Ɛp 和Ɛf ;输出: 最优特征子集S best ;(1)将S 中各个特征数据进行规范化. 在处理多个特征数据时容易出现运算结果偏向数值较大的特征项, 导致计算结果出现偏置问题. 在本文各个特征值被规范在1–10之间以此来规避偏置问题;(2)初始化每个特征的IC (t )=0;(3)利用式(6)和式(7)计算E 和F 的值;BIG (t )(4)根据式(8)计算S 中各个特征(t 1, t 2,…, t n )的值;WFCHI (t ,C i )(5)根据式(9)计算出S 中特征项的值;BIG (t )WFCHI (t ,C i )BIG −WFCHI (6)根据值和计算出式(10)中值, 对应每个特征项按照降序进行排列放入特征集S 0;(7)根据定义1, 对S 0特征t i (i =1,2,…,n )计算离散度D p (IC ), 将S 0中D p (IC )<Ɛp 的特征项存入S 1特征子集中直到特征集t i 中为空;(8)根据定义2, 计算S 1特征子集中特征项的D f (IC )值, 将S 1特征子集中D f (IC )>Ɛf 的特征存入S best 特征子集中.在这里, 本文利用E 和F 来减少低频特征和负相关引起的干扰, 然后根据D p 和D f 选择特征. 不同的数据集需要不同的阈值Ɛp 和Ɛf , 其中极小的数据集不利于选择, 而较大的数据集去除了一些关键的分类特征. 本文分别以D p 和D f 的平均值作为阈值Ɛp 和Ɛf .2 实验分析2.1 数据集与实验环境本文采用2017年新浪微博数据为实验数据集, 并以Reddit 社区的“披萨随机行为”为样本1, 测试BIG-WFCHI 的通用性. 这两个数据集分别命名为WBdataset 和PZdataset. 它们的属性如表1所示.表1 实验数据集数据子集样本数量类别数转发成功率(%)PZdataset 5600211.76WBdataset40 000216.234由于WBdataset 和PZdataset 中只有两种状态:retweeted 和not retweeted, successful 和not successful,因此本文将预测视为二值分类. 通过分析WBdataset 和PZdataset 的数据记录, 分别提取了20个原始特征 [13].采用IG, CHI, BIG-WFCHI, TF-IDF [14,15]分别从这两个原始特征集中选择在每个方法中贡献大多数值的前10个特征作为主要特征.为了验证BIG-WFCHI 方法的有效性, 本文选取了LIBSVM(SVM)[16]、MaxEnt(ME)[17]、Naive-Bayes 分类器(NBC)、K 近邻(KNN)和多层感知器(MLP)5种分类器. 这些分类器通常用于机器学习, 它们的分类结果在效果上有所不同[17–20]. 在此, 本文简要说明了这些方法的主要参数选择. 考虑到数据集是稀疏矩阵,本文选择SMO [19]作为优化算法, 在LIBSVM 中选择RBF 作为核函数, 使得数据集有更好的性能. 在KNN 中, k 的值是通过交叉验证确定的, 得到的最佳结果介于100到150之间. 由于一个分类模型的精度不是本文研究的重点, 所以在MLP 中只设置了一个隐藏层.2.2 实验结果与分析实验中采用10倍交叉验证. 对于每个特征选择方法、分类器和数据集, 我们执行10次运行, 然后报告结果的平均值、标准差和弗里德曼检验.表2显示了4种特征选择方法的精度. 最高的分类精度用粗体加下划线和突出显示. 从表2可以看出,本文提出的方法在支持向量机、KNN 、NBC 和MLP 上达到了最佳的精度. 该方法在基于ME 的PZdataset 和WBdataset 上分别取得了最佳精度和次优精度.在10倍交叉验证中, 由于每次运行时都会更改训练数据集和测试数据集, 因此分类精度会有所不同. 为了显示精度之间的差异, 表3中执行了10次运行的标准差. 结果表明, 在两个数据集上, 基于BIG-WFCHI 的2021 年 第 30 卷 第 2 期计算机系统应用191分类精度标准差在KNN中是最小的. 在其他分类器中, 基于BIG-WFCHI的标准差也是小的有理数.表2 IG、CHI、BIG-WFCHI和TF-IDF的分类精度(%)分类器数据集IG CHI BIG-WFCHI TF-IDFME PZdataset80.8681.0184. 3081.09 WBdataset93.9992.5993.3491.80SVM PZdataset79.9480.1681.7578.87 WBdataset90.1591.3293.5591.25KNN PZdataset75.5175.1075.5675.18 WBdataset86.8886.9988.6583.26NBC PZdataset75.0674.5275.2775.14 WBdataset85.3886.3887.9283.98MLP PZdataset65.0862.8969.9163.70 WBdataset70.3272.0581.2869.13表3 IG、CHI、BIG-WFCHI和TF-IDF的标准偏差分类器数据集IG CHI BIG-WFCHI TF-IDFME PZdataset0.00510.00460.00290.1054 WBdataset0.04070.04620.04590.0412SVM PZdataset0.12880.10110.10150.1120 WBdataset0.05690.05750.05270.0547KNN PZdataset0.00320.00290.00040.0010 WBdataset0.14280.12040.11990.1378NBC PZdataset0.00030.00070.00270.0027 WBdataset0.13950.13320.12240.1396MLP PZdataset0.00680.24930.03990.0081 WBdataset0.04830.05080.05140.0509进一步探讨10次运行结果之间是否存在显著差异, 本文对这些分类结果进行了Friedman检验. 在所有的测试中, 选择变量无显著性差异作为零假设, 0.05作为置信水平. 由于篇幅的限制, 本文在只表4中显示WBdataset上的测试结果. 所有的精确都大于0.05, 这意味着我们接受了零假设. 10次10倍交叉验证没有显著性差异. 因此, 预测结果的均值是可靠的. 在PZdataset 上的测试结果显示了相同的结论.表5显示了基于IG、CHI、BIG-WFCHI和TF-IDF 选择的特征的不同分类器分类结果的AUC值. 从这些AUC值可以很容易地看出BIG-WFCHI优于其他3种选择方法.图1和图2显示基于IG、CHI、BIG-WFCHI和TF-IDF选择的特征的不同分类器分类结果的ROC曲线. 可以看出, 在4种分类器中, BIG-WFCHI选择的特征具有最好的分类效果.实验结果表明, 在不同的数据集或分类器下, 基于BIG-WFCHI选择的特征子集, 分类精度可以提高或至少保持在同一个数量级. 通过以上讨论, BIG-WFCHI 方法可以更有效地选择信息量更大的特征, 实现特征选择具有实际意义.表4 WBdataset中IG、CHI、BIG-WFCHI和TF-IDF的Friedman检验特征选择方法检验统计量ME SVM KNN NBC MLP IGχ28.287 5.36812.3318.914 2.953p0.5060.8010.1950.5150.906 CHIχ212.2268.17217.58012.096 5.562p0.2010.5180.1320.2170.786 BIG-WFCHIχ2 3.941 2.217 6.083 3.742 1.104p0.9150.9250.6710.9210.949 TF-IDFχ29.027 5.83813.9468.591 2.237p0.4350.7780.1730.4840.917表5 IG、CHI、BIG-WFCHI和TF-IDF的AUC值分类器数据集IG CHI BIG-WFCHI TF-IDF MEPZdataset0.85830.83730.88990.7361WBdataset0.85930.85110.87660.8458 SVMPZdataset0.84630.82450.87260.7439WBdataset0.71180.70030.82740.6959 KNNPZdataset0.82240.80500.85320.7593WBdataset0.81870.81080.83490.805 NBCPZdataset0.83140.81090.85870.7494WBdataset0.69250.71080.80140.6601 MLPPZdataset0.85830.83730.88990.7361WBdataset0.85930.85110.87660.84581.00.90.80.70.60.50.40.30.21.00.90.80.70.60.50.40.30.21.00.90.80.70.60.50.40.30.2False positive rateBIG-WFCHI IG CHI TF-IDF00.20.40.60.8 1.0False positive rate00.20.40.60.8 1.01.00.90.80.70.60.50.40.30.2False positive rate00.20.40.60.8 1.0False positive rate00.20.40.60.8 1.0(a) ME 分类器(b) SVM 分类器(c) NBC 分类(d) MLP 分类器图1 基于WBdataset相关选择特征的不同分类器的ROC曲线3 结论本文以转发预测为例, 讨论了信息增益、互信息和卡方检验等方法在特征选择中的应用, 但这些方法存在负相关和可能对计算结果产生干扰等缺陷. 本文计算机系统应用2021 年 第 30 卷 第 2 期192引入平衡因子和词频因子来提高算法准确率; 其次, 提出了一种BIG-WFCHI特征选择方法. 实验结果表明,该方法克服了上述缺陷, 消除了冗余贡献, 提高了ME、支持向量机、NBC、KNN和MLP等分类器的效率.随着网络数据复杂度和规模的迅速增加, 特征选择变得越来越重要. BIG-WFCHI特征选择方法能去除冗余特征, 有助于减少计算时间, 节省存储空间, 提高机器学习效率. 因此, 为特征选择提供了一种有效的方法.1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.21.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.21.00.90.80.70.60.50.40.30.2False positive rate00.20.40.60.8 1.0False positive rate00.20.40.60.8 1.01.00.90.80.70.60.50.40.30.2False positive rate00.20.40.60.8 1.0False positive rate00.20.40.60.8 1.0(a) ME 分类器(b) SVM 分类器(c) NBC 分类(d) MLP 分类器BIG-WFCHI IG CHI TF-IDF图2 基于PZdataset相关选择特征的不同分类器的ROC曲线参考文献于朝晖. CNNIC发布《第45次中国互联网络发展状况统计报告》. 网信军民融合, 2020, (5): 26–27.1Yang YM, Pedersen JO. A comparative study on feature selection in text categorization. Proceedings of the 14th International Conference on Machine Learning. Nashville, TN, USA. 1997. 412–420.2Yin CX, Zhang HJ, Zhang R, et al. Feature selection by computing mutual information based on partitions. IEICE Transactions on Information and Systems, 2018, E101-D(2): 437–446. [doi: 10.1587/transinf.2017EDP7250]3Doquire G, Verleysen M. Mutual information-based feature selection for multilabel classification. Neurocomputing, 2013, 122: 148–155. [doi: 10.1016/j.neucom.2013.06.035]4代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究. 中文信息学报, 2004, 18(1): 26–32. [doi: 10.3969/ j.issn.1003-0077.2004.01.005]5李玉鑑, 周兰珍, 操卫平. 基于DF和CHI的联合特征提取6方法及其应用. 北京工业大学学报, 2008, 34(9): 995–1000.Qian WB, Shu WH. Mutual information criterion for feature selection from incomplete data. Neurocomputing, 2015, 168: 210–220. [doi: 10.1016/j.neucom.2015.05.105]7王皓, 孙宏斌, 张伯明. PG-HMI: 一种基于互信息的特征选择方法. 模式识别与人工智能, 2007, 20(1): 55–63. [doi:10.3969/j.issn.1003-6059.2007.01.009]8Guyon I, Elisseeff A. An introduction to variable and feature selection. The Journal of Machine Learning Research, 2002, 3: 1157–1182.9Huang NT, Li RQ, Lin L, et al. Low redundancy feature selection of short term solar irradiance prediction using conditional mutual information and Gauss process regression. Sustainability, 2018, 10(8): 2889. [doi: 10.3390/ su10082889]10Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 2004, 5: 1205–1224.11王宏威, 李国和. 基于属性相似度的连续型特征选择方法.渤海大学学报(自然科学版), 2014, 35(4): 350–355.12李勇军, 尹超, 于会, 等. 基于最大熵模型的微博传播网络中的链路预测. 物理学报, 2016, 65(2): 020501. [doi: 10.7498/aps.65.020501]13Sharma N, Kaur G, Verma A. Survey on text classification (Spam) using machine learning. International Journal of Computer Science and Information Technologies, 2014, 5(4): 5098–5102.14Forman G. BNS feature scaling: An improved representation over TF-IDF for SVM text classification. Proceedings of the 17th ACM Conference on Information and Knowledge Management. Napa Valley, CA, USA. 2008. 263–270.15Chang CC, Lin CJ. LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.16Tan SB, Cheng XQ, Wang YF, et al. Adapting naive Bayes to domain adaptation for sentiment analysis. Proceedings of the 31th European Conference on Information Retrieval.Toulouse, France. 2009. 337–349.17路永和, 何新宇. 基于维度索引表的改进KNN分类算法.情报理论与实践, 2014, 37(5): 102–106.18李飞, 李红莲. 支持向量机大规模样本快速训练算法. 北京信息科技大学学报(自然科学版), 2012, 27(2): 83–87.19Malouf R. A comparison of algorithms for maximum entropy parameter estimation. Proceedings of the 6th Conference on Natural Language Learning. Taipei, China. 2002. 1–7.202021 年 第 30 卷 第 2 期计算机系统应用193。
chi-square定理
chi-square定理
"chi-square"定理是指卡方检验(chi-square test),一种常用的统计假设检验方法。
该方法主要应用于计数资料的统计分析,通过比较观测值与期望值之间的差异来评估某一假设是否成立。
卡方检验的基本思想是,如果某一假设是正确的,那么基于这一假设的观测数据应该与期望数据一致或接近。
在进行卡方检验时,通常需要构建一个卡方统计量,其计算公式为:χ2=∑(Oi−Ei)2Ei\chi^2 = \sum \left( \frac{O_i - E_i}{E_i} \right)^2E_i(Oi−Ei)2。
其中,OiO_iOi是观测频数,EiE_iEi是期望频数。
然后,根据卡方统计量的大小,可以判断实际观测频数与期望频数之间的差异是否显著,从而决定是否接受原假设。
需要注意的是,卡方检验的前提假设是计数资料来自相互独立的随机样本,且期望频数不能太小。
同时,卡方检验的结果会受到样本量、样本分布、期望频数等因素的影响,因此在实际应用中需要综合考虑这些因素。
此外,卡方检验的结果通常会与临界值进行比较,以判断是否拒绝原假设。
常用的临界值有3.84、5.00、6.63等,对应的显著性水平分别为0.05、0.01、0.001。
如果卡方值大于临界值,则拒绝原假设;否则,接受原假设。
总之,"chi-square"定理是指卡方检验(chi-square test),一种
常用的统计假设检验方法,用于计数资料的统计分析。
数据的整编和分析
常用统计分析方法——SPSS应用General Method of Statistical AnalysisSPSS Application杜志渊编著前言《统计学》是一门计算科学,是自然科学在社会经济各领域中的应用学科,是许多学科的高校在校本科生的必修课程。
在统计学原理的学习和统计方法的实际应用中,经常需要进行大量的计算。
因此,统计分析软件问世使强大的计算机功能得到充分发挥,不仅能够减轻计算工作量,计算结果非常准确,而且还节省了统计分析时间。
因此,应用统计分析软件进行数据处理已经成为社会学家和科学工作者必不可少的工作内容。
为了使高校的学生能够更好的适应社会的发展和需求,学习和使用统计软件已经成为当前管理学、社会学、自然科学、生物医学、工程学、农业科学、运筹学等学科的本科生或研究生所面临的普遍问题。
为了使大学生和专业人员在掌握统计学原理的基础上能够正确地运用计算机做各种统计分析,掌握统计分析软件的操作是非常有必要的。
现将常用的SPSS统计分析软件处理数据和分析数据的基本方法编辑成册,供高校学生及对统计分析软件有兴趣的人员学习和参考,希望能够对学习者有所帮助。
本书以统计学原理为理论基础,以高等学校本科生学习的常用的统计方法为主要内容,重点介绍这些统计分析方法的SPSS 软件的应用。
为了便于理解,每一种方法结合一个例题解释SPSS软件的操作步骤和方法,并且对统计分析的输出结果进行相应的解释和分析。
同时也结合工业、农业、商业、医疗卫生、文化教育等实际问题,力求使学生对统计分析方法的应用有更深刻的认识和理解,以提高学生学习的兴趣和主动性。
另外,为了方便学习者的查询,将常用统计量的数学表达式作为附录1,SPSS 中所用的主要函数释义作为附录2,希望对学习者能够的所帮助。
编者目录第一章数据文件的建立及基本统计描述 (1)§1.1 SPSS的启动及数据库的建立 (1)§1.1.2 SPSS简介 (1)§1.1.2 启动SPSS软件包 (3)§1.1.3 数据文件的建立 (5)§1.2 数据的编辑与整理 (8)§1.2.1 数据窗口菜单栏功能操作 (8)§1.2.2 Date数据功能 (9)§1.2.3 Transform 变换及转换功能 (10)§1.2.4 数据的编辑 (12)§1.2.5 SPSS对变量的编辑 (20)§1.3 基本统计描述 (26)§1.3.1 描述统计分析过程 (26)§1.3.2 频数分析 (28)§1.4 交叉列联表分析 (44)§1.4.1 交叉列联表的形成 (44)§1.4.2 两变量关联性检验(Chi-square Test卡方检验) (47)第二章均值比较检验与方差分析 (54)§2.1 单个总体的t 检验(One-Sample T Test)分析 (55)§2.2 两个总体的t 检验 (58)§2.2.1 两个独立样本的t检验(Independent-sample T Test) (58)§2.2.2 两个有联系总体间的均值比较(Paired-Sample T Test) (61)§2.3 单因素方差分析 (64)§2.4 双因素方差(Univariate)分析过程 (69)第三章相关分析与回归模型的建立与分析 (80)§3.1 相关分析 (80)§3.1.1 简单相关分析 (81)§3.1.1.1 散点图 (81)§3.1.1.2 简单相关分析操作 (83)§3.1.2 偏相关分析 (85)§3.2 线性回归分析 (89)§3.3 曲线估计 (100)第四章时间序列分析 (111)§4.1 实验准备工作 (111)§4.1.1 根据时间数据定义时间序列 (111)§4.1.2 绘制时间序列线图和自相关图 (112)§4.2 季节变动分析 (118)§4.2.1 季节分析方法 (118)§4.2.2 进行季节调整 (121)第五章非参数检验 (125)§5.1 Chi-Square Test 卡方检验 (127)§5.2 一个样本的K-S检验 (131)§5.3 两个独立样本的检验(Test for Two Independent Sample) (135)§5.4 两个有联系样本检验(Test for Two related samples) (138)§5.6 多个样本的非参数检验(K Samples Test) (141)§5.6 游程检验(Runs Test) (148)附录1 部分常用统计量公式 (154)§6.1 数据的基本统计特征描述 (154)§6.2 总体均值检验统计量 (156)§6.3 方差分析中的统计量 (158)§6.4 回归分析模型 (161)§6.5 非参数检验 (168)附录2 SPSS函数 (175)第一章数据文件的建立及基本统计描述在社会各项经济活动和科学研究过程中,经常获得许多数据,而这些数据中包含着大量有用的信息。
卡方检验及SPSS分析82026
-[Display clustered bar charts 复选框]: 显示复式条 图
-[Suppress table复选框]: 不在输出结果中给出行×列
表。
16
.
Crosstabs过程祥解
❖ 界面说明
❖精确(Exact)子对话框: 针对2×2以上的行×列表 设计计算确切概率的方法。
❖统计量(Statistics)子对话框: 用于定义所需计算 的统计量
还是降序排列。
19
.
SPSS结果输出
group* effect 交叉制表
group 实验组 计数
期望的计数
对照组 计数
期望的计数
合计
计数
期望的计数
effect
有效
无效
99
5
90.5
13.5
75
21
83.5
12.5
174
26
174.0
26.0
合计 104
104.0 96
96.0 200
200.0
20
❖ 结合例7-1数据(chis01.sav)演示操作过程。
13
.
分类数据录入格式
频数格式: 用数据 加权个案(Weight Cases)过程 以指明反映频数的变量。
枚举格式:
14
.
交叉表(Crosstabs)过程
❖ Crosstabs过程用于对分类资料和有序分类资料进行 统计描述和统计推断。
❖该过程可以产生2维至n 维列联表, 并计算相应的百 分数指标。
28
.
检验步骤:
H 0 : B C H , 1 : B C , 0 .05
b c 12 2 14 40,用校正公式
chi-square test名词解释
概念解释:卡方检验(chi-square test)是一种用于比较观察值与期望值之间差异的统计方法。
它适用于分类数据的分析,可以帮助确定观察到的数据分布是否符合预期的理论分布。
卡方检验通常用于分析两个或多个分类变量之间的关系,例如性别和职业的关联性、不同教育水平对政治立场的影响等。
让我们来深入理解卡方检验的概念和原理。
卡方检验的基本原理是通过比较观察值和期望值之间的差异来判断两个或多个分类变量之间是否存在关联性。
在进行卡方检验之前,我们首先需要建立一个原假设,即假设观察到的数据分布与理论分布相符。
通过一系列计算和统计方法,我们可以得出卡方值,并以此来判断观察值与期望值之间的差异程度。
如果卡方值远大于预期值,我们就可以拒绝原假设,从而得出两个或多个分类变量之间存在显著关联的结论。
接下来,让我们从简单的示例开始,来看一下卡方检验的具体应用。
假设我们想要研究不同职业对投票倾向的影响,我们可以通过卡方检验来判断职业与政治立场之间是否存在关联。
我们收集了一份包括职业和政治立场的调查数据,然后我们可以利用卡方检验来分析这些数据,以确定职业与政治立场之间的关联性。
在分析完具体示例之后,让我们进一步探讨卡方检验的应用范围和局限性。
卡方检验适用于分类数据的分析,可以帮助我们判断不同变量之间是否存在关联性。
然而,卡方检验也有一定的局限性,例如对样本量和数据分布的要求比较严格,同时需要注意变量之间的独立性等。
在应用卡方检验时,我们需要综合考虑数据的特点和实际情况,以确保分析结果的准确性和可靠性。
总结回顾:通过本文的讨论,我们对卡方检验的概念和原理有了深入的理解。
我们了解到卡方检验是一种用于比较观察值和期望值之间差异的统计方法,适用于分类数据的分析。
在具体应用中,我们可以通过卡方检验来判断不同变量之间是否存在关联性,从而深入了解数据的特点和规律。
我们也意识到卡方检验在应用时需要注意一些局限性,需要综合考虑实际情况和数据特点。
等级资料常用检验方法
失败 6 4 1 11
SPSS软件操作环节:
1、建立数据库 1.1定义变量 group: 1 A型 2 B型 3 C型
result: 1成功 2进步 3失败 count: 例数 1.2录入数据 1.3权重频数
2、分析:
✓Analyze ——
✓
Nonparametric Tests ——
✓
K independent Samples ——
特点:观察成果具有等级差别。
等级资料划分旳两种情况:
❖按性质划分:如药物疗效分为痊愈、显效、好转 、无效;麻醉效果分为Ⅰ、Ⅱ、Ⅲ、Ⅳ级等。 ❖按数量分组:数据两端不能确切测定旳计量资料 。 如 抗 体 滴 度 分 为 >1:20,1:20,1:40,1:80,<1:80 ;年龄分为<10,10~, 20~,40~,≥60等。
❖ 单向有序行列表
在表旳两个方向上旳分类中,一种 方向(横向)无顺序和等级概念,另 一种方向(纵向)是有顺序旳分类, 称为单向有序行列表。
a. 两组独立样本等级资料比较旳MannWhitney秩和检验
以表1为例。将无效、有效、显效三个疗效等级数量化, 数值用平均秩号,然后比较各组平均秩号旳大小。
治疗组 对照组 合计 秩次范围 平均秩次
无效
6
14
20
1-20 10.5
有效 19
20
39 21-59 40
显效 35
24
59 60-118 89
合计 60
58
118
计算两组秩号并进行秩和检验
两组旳平均秩号分别为: 治疗组:R1= (6×10.5+19×40+35×89)/60 =65.6 对 照 组 : R2= ( 14×10.5+20×40+24×89 ) /58=53.1
卡方检验 (Chi-square)
卡方检验 (Chi-square)⏹参数与非参数检验⏹卡方匹配度检验⏹卡方独立性检验⏹卡方检验的前提和限制⏹卡方检验的应用参数与非参数检验⏹参数检验◆用于等比/等距型数据◆对参数的前提:正态分布和方差同质⏹非参数检验◆不用对参数进行假设◆对分布较少有要求,也叫distribution-free tests◆用于类目/顺序型数据◆没有参数检验敏感,效力低◆因此在二者都可用时,总是用参数检验卡方匹配度检验⏹用样本数据检验总体分布的形状或比率,以确定与假设的总体性质的匹配度⏹是对次数分布的检验⏹研究情境◆在医生职业中,男的多还是女的多?◆在三种咖啡中,哪种被国人最喜欢?◆在北京大学中,各国留学生的比例有代表性吗?卡方匹配度检验的公式⏹χ2=∑[(f0-f e)2/f e]⏹f e=p n⏹d f=C-1◆F0:观察次数◆f e:期望次数◆C:类目的个数◆Χ2:统计量卡方独立性检验⏹检验行和列的两个本来变量彼此有无关联卡方独立性检验的公式⏹χ2=∑[(f0-f e)2/f e]⏹f e=(r o w t o t a l)(c o l u m n t o t a l)/n,⏹d f=(R-1)(C-1)◆F0:观察次数◆f e:期望次数◆R:行类目的个数C:列类目的个数◆Χ2:统计量例:х2检验1.计算期望次数fe=(fc*fr)/n2.计算每个单位格的х2值22df=(R-1)(C-1)= (3-1)(2-1)=2,х2的临界值为5.99拒绝Ho,对手表显示的偏好程度与被试的年龄段有关。
《医学统计概论》第7章卡方检验Chi-square test
(3) 当n<40或有T<1时,用Fisher’s exact probability。
7.2 配对四格表资料的χ2检验
配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察 对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理; (3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子, 研究是否存在某种病因或危险因素。
表7-1 两组降低颅内压有效率的比较(P137)
组别
试验组 对照组 合计
有效
99 75 174
无效
5 21 26
合计
104 96 200
有效率(%)
95.20 (p1) 78.13 (p2) 87.00 (pc)
实际频数A (actual frequency) 理论频数T (theoretical frequency)
,
1
因为有一格1<T<5,且n>40时,所以应用连续性校
正χ2检验。
四、精确概率法(Fisher’s exact probability)
在无效假设成立的前提下且周边合计固定时,产生任意 一个四格表(i)的概率Pi 服从于超几何分布,其计算式为:
a b!c d !a c!b d !
Pi
a!b!c!d !n!
药物治疗组 164
18
182
外用膏药组 118
26
144
4.59
>0.0125 (NS)
合计
282
44
326
二、各实验组与同一对照组比 关键是检验水平的校正
'
2k 1
自学
7.6 双向有序分组资料的线性趋势检验
Ch13卡方分布应用
Goodness-of-Fit: An Example
# Vehicles 0 1 2 3+
[Oj– Ej ]2/ Ej 3.1296 0.0501 3.2910 0.3777 Sum = 6.8484 I. H0: p0 = 0.135, p1 = 0.337, p2 = 0.335, p3+ = 0.193 Vehicle-ownership distribution in this community is the same as it is in the nation as a whole. H1: At least one of the proportions does not equal the stated value. Vehicle-ownership distribution in this community is not the same as it is in the nation as a whole.
© 2002 The Wadsworth Group
Chi-Square Tests of Independence Between Two Variables
• The Question:
– Are the two variables independent? If the two variables of interest are independent, then
• Hypotheses: – H0: pi = values expected H1: pi values expected where p 1 . j © 2002 The Wadsworth Group
Goodness-of-Fit Tests
• Rejection Region:
应用统计学_卡方检验
Example: We test the null hypothesis that consumers in the target population have no preference for any of three colours of packaging.
Main display colour Observed N 26 37 27 90 Expected N 30.0 30.0 30.0 Residual -4.0 7.0 -3.0
(39 25) 2 3 25 2 3 12 . 08
2
(16 25)2 (20 25)2 (25 25)2 25 25 25
Obtain the critical value of chi square
Critical 23 = 7.82. Obtain the critical value at 5% significance level at 3 d.f., (Table E4, page 742, Berenson et.al. 2013)
Under the null hypothesis We expect 25 consumers to nominate glass, 25 to nominate plastic, 25 to nominate steel and 25 to nominate aluminium
These are the expected frequencies, Ei.
This week lecture will cover...
Analysing categorical data (nominal) Chi-square test of differences between proportions Chi-square test of independence
二、卡方检验
Bonferroni法:α'=α/m
• 为了避免增大犯第一类错误的概率,采用的是根据 比较的次数确定的修正检验水准。
多个样本率间多重比较
对比组
西药组 中药组
合计 中药组 中西药结合组
常用于定性资料的统计推断。 理论依据:
2分布( chi-square distribution)
拟合优度检验(goodness of fit test) 用途: 两个率或两个构成比之间的差别 多个率或多个构成比之间的差别
单样本频率分布拟合优度检验
推断两个变量或特征之间有无线性变化趋势
2分布
1. 建立检验假设并确定检验水准 H0:1=2 =3,即3种治疗方案的有效率相等
H1 :3种治疗方案的有效率不全相等 0.05
2. 计算检验统计量:
2 254( 512 492 352 452 592 152 -1)
100145 100109 80145 80109 74145 74109 254(0.1794 0.2203 0.1056 0.2322 0.3244 0.0279-1) 22.81
合计
72 126 198
表4 A、B两种培养基的培养结果
A培养基
B培养基
合计
+
-
+
24(b)
72
-
20(c)
126
合计
68
130
198
基本思想
变量 1
阳性 阴性 合计
表 9-8
两个变量阳性率比较的一般形式和符号
阳性
戴维商务统计学第7版英文版教学课件BSFC7e_CH11
χ
2 STAT
for
the 2 x c casehas (2 - 1)(c - 1) c - 1 degreesof
freedom
(Assumed: each cell in the contingency table has expected frequency of at least 1)
Chapter 11
Chi-Square Tests
Copyright © 2016, 2013, 2010 Pearson Education, Inc.
Chapter 11, Slide 1
Objectives
In this chapter, you learn:
▪ How and when to use the chi-square test for
Decision Rule
DCOVA
The χ S2TATtest statistic approximately follows a chisquared distribution with one degree of freedom
Decision Rule:
If
χ
2 STAT
χ
2 α
,
reject
▪ Suppose we examine a sample of 300 children
DCOVA
Copyright © 2016, 2013, 2010 Pearson Education, Inc.
Chapter 11, Slide 4
Contingency Table Example
(continued)
H0,
otherwise, do not reject
DEA数据包络分析
即有:
n
∑j=1j yrj ≥ yrj0
(r = 1,2,…,s)
n
∑j=1j xij ≤ E xij0
n
∑j=1j = 1
,j ≥0
(i = 1,2,…,m,E<1)
(j = 1,2,…,n)
11/29/20这23阐明 j0 决策单元不处于生产前沿面上。
15
基于上述事实,能够写出如下线性规划旳数学模型:
每个决策单元有相同旳 m 项投入(输入)(i = 1,2,…,m )
每个决策单元有相同旳 s 项产出(输出) (r = 1,2,…,s )
Xij ——第 j 决策单元旳第 i 项投入 yrj ——第 j 决策单元旳第 r 项产出 衡量第 j0 决策单元是否DEA有效
11/29/2023
8
决策单元
投1 入2 项… 目m
用,但是DEA措施显得更有效.
11/29/2023
6
数据包络分析(DEA)模型简介
• DEA是使用数学规划(涉及线性规划、多目旳规划、 具有锥形构造旳广义最优化、半无限规划、随机规划 等)模型,评价具有多种输入、尤其是多种输出旳 “部门”或“单位”(称为“决策单元”,简记DMU) 间旳相对有效性(称为DEA有效)。
• 因而,需采用一种全新旳措施进行绩效比较。这种措施就 是二十世纪七十年代末产生旳数据包络分析(DEA)。 DEA措施处理多输入,尤其是多输出旳问题旳能力是具有 绝对优势旳。
11/29/2023
3
数据包络分析(DEA)源起
1978年,著名运筹学家、美国德克萨斯大学教授 A.Charnes及W.W.Cooper和E.Rhodes刊登了一篇主要论 文:“Measuring the efficiency of decision making units”(决策单元旳有效性度量),刊登在权威旳“欧洲 运筹学杂志”上。正式提出了运筹学旳一种新领域:数据 包络分析,其模型简称 C2R 模型。该模型用以评价部门间 旳相对有效性(所以被称为DEA有效)。
第十二章TheChiSquareTest(卡方测定)
第十二章假設測定IV:卡方測定(The Chi Square Test)壹、本單元目標1、舉例說明卡方測定適用的情況。
2、解釋雙變項交叉表(bivariate table)的結構,以及如何將獨立性(independence)的概念應用到交叉表的期待次數(expected frequencies)與觀察次數(observed frequencies)之間的關係上。
3、說明如何將假設測定的邏輯運用在交叉表的分析上。
4、以五個假設測定的步驟說明卡方測定,以及正確的解釋測定的結果。
5、說明卡方測定的限制,以及統計顯著性與實質重要性的差異。
貳、簡介本章要介紹的Chi Square (χ2) test(卡方測定)大概是社會科學研究中,最常看到的一種假設測定方法。
這是因為此測定方法相當容易符合假設測定第一個步驟─基本假定設定─的要求。
此測定方法是兩個名目尺度變項間之假設測定的方法。
因此在level of measurement 的要求方面是最基本的nominal level of measurement。
這名目尺度變項不限於是二分的,也可適用在其他尺度測量的變項上。
而χ2 test也是一種無參數的測定,因此在基本假定部分,我們無須知道母群體之分配特性(distribution-free)。
χ2之抽樣分配是一種已知之理論分配,就叫χ2分配。
(所謂Chi Square是χ這個希臘字母的發音加上「平方(square)」的英文)。
這種可以相當容易符合基本假定要求的無參數測定方法,可以讓我們在做拒絕虛無假設的決策時,比較有信心。
這是因為做假設測定時,如果在基本假定設定(測定的第一個步驟)中的任一要求或虛無假設(測定的第二個步驟)是錯誤時,我們就可拒絕虛無假設。
但在無參數測定方法的情況下,我們比較容易符合基本假定的要求,因此可專注在判斷虛無假設是否為錯誤,決策的結果也比較有信心。
參、雙變項交叉表卡方測定的進行要用到雙變項交叉表。
计量经济学中英文词汇对照
Controlled experiments Conventional depth Convolution Corrected factor Corrected mean Correction coefficient Correctness Correlation coefficient Correlation index Correspondence Counting Counts Covaห้องสมุดไป่ตู้iance Covariant Cox Regression Criteria for fitting Criteria of least squares Critical ratio Critical region Critical value
Asymmetric distribution Asymptotic bias Asymptotic efficiency Asymptotic variance Attributable risk Attribute data Attribution Autocorrelation Autocorrelation of residuals Average Average confidence interval length Average growth rate BBB Bar chart Bar graph Base period Bayes' theorem Bell-shaped curve Bernoulli distribution Best-trim estimator Bias Binary logistic regression Binomial distribution Bisquare Bivariate Correlate Bivariate normal distribution Bivariate normal population Biweight interval Biweight M-estimator Block BMDP(Biomedical computer programs) Boxplots Breakdown bound CCC Canonical correlation Caption Case-control study Categorical variable Catenary Cauchy distribution Cause-and-effect relationship Cell Censoring
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[Oj– Ej ]2/ Ej 3.1296
1
35 33.7
0.0501
2
23 33.5
3.2910
3+
22 19.3
0.3777
Sum = 6.8484
I. H0: p0 = 0.135, p1 = 0.337, p2 = 0.335, p3+ = 0.193
Vehicle-ownership distribution in this community is the same as it is in the nation as a whole.
© 2002 The Wadsworth Group
Chapter 13 - Key Terms
• Observed versus expected frequencies • Number of parameters estimated, m • Number of categories used, k • Contingency table • Independent variables
If two variables are independent P(rowi and columnj) = P(rowi) • P(columnj)
© 2002 The Wadsworth Group
Chi-Square Tests of Independence
• Hypotheses:
– H0: The two variables are independent. – H1: The two variables are not independent.
CHAPTER 13 Chi-Square Applications
to accompany
Introduction to Business Statistics
fourth edition, by Ronald M. Weiers
Presentation by Priscilla Chaffe-Stengel Donald N. Stengel
© 2002 The Wadsworth Group
Goodness-of-Fit Tests
• The Question:
– Does the distribution of sample data resemble a specified probability distribution, such as: »the binomial, hypergeometric, or Poisson discrete distributions. »the uniform, normal, or exponential continuous distributions. »a predefined probability distribution.
© 2002 The Wadsworth Group
An Integrated Definition of Independence
• From basic probability:
If two events are independent P(A and B) = P(A) • P(B)
• In the Chi-Square Test of Independence:
© 2002 The Wadsworth Group
Chapter 13 - Learning Objectives
• Explain the nature of the chi-square distribution.
• Apply the chi-square distribution to:
© 2002 The Wadsworth Group
Goodness-of-Fit: An Example
II. Rejection Region:
a = 0.05
df = k – 1 – m = 4 – 1 – 0 = 3
III. Test Stati H
Chi-Square Tests of Independence Between Two Variables
• The Question:
– Are the two variables independent? If the two variables of interest are independent, then
© 2002 The Wadsworth Group
Goodness-of-Fit Tests
• Test Statistic:
c
2
(O
j
–
E
j)2
Ej
where Oj = Actual number observed in each class
Ej = Expected number, pj • n
• Rejection Region:
– Degrees of freedom = (r – 1) (k – 1)
• Test Statistic:
c2 (Oij – Eij)2
Eij
© 2002 The Wadsworth Group
Chi-Square Tests of Independence
0
0 .9 5
R eject H
0
c2 = 6.8484
c2 = 7.815
IV. Conclusion: Since the test statistic of c2 = 6.8484 falls
below the critical value of c2 = 7.815, we do not reject H0 with at least 95% confidence.
• Calculating expected values
Eij P(rowi and column j)×n P(rowi)×P(column j)×n
#
elements n
in
rowi
# ×
elements in n
column
j
×n
Cancelling two factors of n,
Eij
»the way elements are distributed across the various levels of one variable does not affect how they are distributed across the levels of the other.
»the probability of an element falling in any level of the second variable is unaffected by knowing its level on the first dimension.
# Vehicles Owned # Households
0
20
1
35
2
23
3 or more
22
© 2002 The Wadsworth Group
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
Goodness-of-Fit: An Example
# Vehicles Oj
Ej
0
20 13.5
»where k = # of categories, m = # of parameters
»Uniform Discrete: m = 0 so df = k – 1 »Binomial: m = 0 when p is known, so df = k – 1
m = 1 when p is unknown, so df = k – 2 »Poisson: m = 1 since µusually estimated, df = k – 2 »Normal: m = 2 when µand s estimated, df = k – 3 »Exponential: m = 1 since µusually estimated, df = k – 2
H1: At least one of the proportions does not equal the stated value. Vehicle-ownership distribution in this
community is not the same as it is in the nation as a whole.
(#
elements
in
rowi)
×(# n
elements
in
column
j)
© 2002 The Wadsworth Group
Chi-Square Tests of Independence
An Example, Problem 13.35: Researchers in a California community have asked a sample of 175 automobile owners to select their favorite from three popular automotive magazines. Of the 111 import owners in the sample, 54 selected Car and Driver, 25 selected Motor Trend, and 32 selected Road & Track. Of the 64 domestic-make owners in the sample, 19 selected Car and Driver, 22 selected Motor Trend, and 23 selected Road & Track. At the 0.05 level, is import/domestic ownership independent of magazine preference? Based on the chi-square table, what is the most accurate statement that can be made about the pvalue for the test?