非参数秩和检验中的mann-whitney法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非参数秩和检验中的mann-whitney法
什么是非参数秩和检验,为什么需要非参数秩和检验,mannwhitney法是什么,如何进行mannwhitney法检验。文章涵盖以下内容:
一、什么是非参数秩和检验?
二、为什么需要非参数秩和检验?
三、mannwhitney法是什么?
四、如何进行mannwhitney法检验?
五、mannwhitney法的优缺点。
六、mannwhitney法与t检验的比较。
七、结论。
一、什么是非参数秩和检验?
非参数检验是指检验一个或多个总体分布函数的位置、尺度、形状等统计特征差异的方法,它不依赖于总体分布的形态假设,仅利用经验分布函数的一些基本性
质,因此不需要对总体的参数进行估计。非参数检验可以解决正态性假设不成立的情况下的假设检验问题,对数据的偏态、峰度等分布形态不要求满足任何前提条件,适用范围广,因此非参数检验方法受到越来越广泛的应用。
秩和检验作为非参数检验的一种,它是一类无须或少须考虑总体分布的假设检验方案,主要用来检验两组(或多组)来自不同总体的样本是否具有显著差异。秩和检验是一种利用样本观测值的秩次(也称秩值)进行检验的方法,它不要求对样本来自的总体分布有任何假设。秩和检验是统计学中常用的一种方法,其中mannwhitney法是非参数秩和检验的主要方法之一。
二、为什么需要非参数秩和检验?
在利用参数检验进行数据分析,或进行假设检验时,通常要对数据的分布情况进行假设,比如要求其服从正态分布,才能进行有意义的假设检验。然而,实际上很多数据集并不服从正态分布,或者是以某种程度的偏态和峰度分布,这时使用参数检验方法就可能得出错误的结论,甚至完全被误导。
非参数检验与参数检验相比,不需要对总体分布进行任何假定或者估计,更加灵活和适用于不同形态的数据分布。因此,当数据不符合正态分布时,就需要考虑使用非参数检验方法。而秩和检验则是在非参数检验中更为简单和常用的方法之一。
三、mannwhitney法是什么?
mannwhitney法(曼-惠特尼检验)是一种比较两个样本的位置差异是否显著的非参数假设检验方法。它基于秩和检验的原理,将每个样本中的观测值按照大小排列,并赋予其相应的秩次,然后通过比较两个样本的秩和来检验它们之间是否有显著差异。
mannwhitney法又称Wilcoxon秩和检验,是一种经典的非参数统计方法。它广泛应用在医学、生物、社会科学、工程和管理等领域的数据处理和分析中。
四、如何进行mannwhitney法检验?
mannwhitney法的基本步骤如下:
1、将两个样本数据按大小进行排序,并且取出其排位(即秩次)。
2、设第一个样本(处理组)的总样本量为n1,第二个样本(对照组)的总样本量为n2,那么对于第一个样本中的每一个数据,在第二个样本中找到与它排位相同的数据,并计算这些数据的排位之和,作为第一组数据的秩和U1。
3、同理,在第二个样本中找到对于第一个样本中每一个数据的“同排”数据,并计算它们的排位之和,作为第二个数据集的秩和U2。
4、通过计算最小的秩和(U1或U2)来判断两个样本之间是否存在显著差异。即
①、如果U1 ②、如果U2 通常情况下,mannwhitney法的检验结果会同时给出U值和P值。P值表示检验结果显著与否,而U值则表示检验的结果显著水平,U值越小,则差异越显著。 Mann-Whitney方程 前提:mila\_list_precipitation是一个已记录的列表,其中包含了以下美国四种城市每个月的平均降雨量: fairbanks:[1.66,0.87,0.53,0.62,1.01,0.75,1.55,1.48,1.28,0.62,0.72,0.91] columbus:[3.93,2.3,4.1,6.31,4.97,4.13,3.32,2.55,2.82,2.89,3.54,3.1] reno:[1.06,2.79,2.15,1.52,1.41,0.79,0.50,0.52,0.51,1.2,1.36,1.94] charleston:[4.05,2.59,3.11,2.75,3.21,5.08,4.69,7.22,4.65,1.68,2.48,3.3] 要求:使用Python中的scipy库计算前两组城市之间的mannwhitney检验结果。 代码如下: from scipy.stats import mannwhitneyu fw = [1.66,0.87,0.53,0.62,1.01,0.75,1.55,1.48,1.28,0.62,0.72,0.91] cb = [3.93,2.3,4.1,6.31,4.97,4.13,3.32,2.55,2.82,2.89,3.54,3.1] stat, p = mannwhitneyu(fw, cb) print('Statistic=%.3f, p=%.5f' % (stat, p)) raw_output: Statistic=13.000, p=0.02409 五、mannwhitney法的优缺点 优点: 1、不要求数据分布满足正态分布假设,可以应用于任何类型的分布。 2、它不依赖于总体参数,可控制假阳性错误的概率。 3、可以用于小样本数据,且其检验效果与参数检验方法相当,有效避免了样本数过小时无法使用t 检验的问题。 4、P值的计算可以考虑连续后面文字区域(数据)的模式,有效地避免了方法中会出现的难以解释的离散征兆。 缺点: 1、对于一些研究问题,mannwhitney法并不是最佳的(例如,如果想要比较两个分布的平均值)。 2、样本量过多或过少,将导致效果不佳。