第四讲 两组计量资料平均水平的统计检验
第4讲两组平均水平的统计检验
Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)Stata数据输入结构操作如下:gen d=x1-x2 产生配对差值的变量dswilk d 正态性检验正态性检验结果如下:正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布α=0.05,由于正态性检验的P值=0.40189>>α,故可以认为资料近似服从正态分布。
ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05结果如下:P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。
即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:ttesti 样本量样本均数样本标准差 0本例为: ttesti 10 -0.66 1.65 0得到下列结果如下:结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:signrank 差值变量名=0假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则H0:差值的中位数=0(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗前的血红蛋白小于治疗后的血红蛋白的概率)H1:差值的中位数≠0α=0.05本例为signrank d=0P值=0.3583>>α,故没有足够的证据说明两个总体不同。
两样本计量资料统计检验
两组计量资料平均水平的统计检验一、配对设计的均数检验统计方法选择原则:A.如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t检验B.小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
(一)配对t检验配对t检验首先计算每对结果之差值,再将差值均数与0作比较。
如果两种处理的效应相同,则差值与0的差别无统计学意义。
检验假设H0:两种处理的效应相同,或总体差值均数为0Stata用于配对样本t检验的命令是:ttest 变量1=变量2例1:男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变Stata数据输入结构操作如下:gen d=x1-x2 /*产生配对差值的变量d(1)正态性检验sktest d /*正态性检验Sdtest x,by(group)方差齐性检验sktest x if group==0正态性检验stata结果如下:正态性检验的无效假设H0:资料正态分布备选假设H!:资料非正态分布α=0.05,由于正态性检验的P值=0.4885>>α,故可以认为资料近似服从正态分布。
(2)配对T检验ttest d=0 /*配对t检验: H0:μd=0 ,H1:μd≠0,α=0.05 结果如下:足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
(二)配对符号秩和检验如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test ,stata 命令为:signrank 变量1=变量2 或者 signrank 差值变量=0例:某研究者采用1:1配对方法将16例肝炎患者分别分在两种不同治疗方法组,测定其血中GPT 含量(iu/L ),资料如表9-6第(2)、(3)栏,问:用不同方法治疗的患者GPT 含量有无差别?表9-6 不同治疗方法的肝炎患者血中GPT 含量(iu/L )对子号 (1) 方法1 (2) 方法2 (3) 差值d (4)=(2)-(3)秩次(5) 1 2 3 4 5 6 7 8112 84 30 17 103 233 31 12438 75 30 62 26 30 69 7974 9 0 -45 77 203 -38 456 1 - -3.5 57 -2 3.5假设不满足正态分布条件,则用Wilcoxon 符号秩和检验(1) 建立检验假设,确定检验水准00=d M H :,差值的总体中位数为0 01≠d M H :,差值的总体中位数不为0 05.0=α(2)秩和检验signrank x1=x2 stata 分析结果:Wilcoxon signed-rank testtsign | obs sum ranks expected-------------+---------------------------------positive | 5 27.5 17.5negative | 2 7.5 17.5zero | 1 1 1-------------+---------------------------------all | 8 36 36unadjusted variance 51.00adjustment for ties -0.13adjustment for zeros -0.25----------adjusted variance 50.63Ho: x1 = x2z = 1.405Prob > |z| = 0.1599二、成组设计T检验统计方法选择原则:A.如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验;B.要多大?B. 如果资料不满足方差齐性或正态分布的条件,或者资料分布未知,或者数据一端或两端为不确定数据,可以用成组Wilcoxon秩和检验。
02.平均水平的统计描述
正偏态(右偏态)
峰向左偏移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
135 150
73.6
90.0 100.0
140名成年男子红细胞数
频数表的编制步骤
(1)求全距(range,R):即最大值与最小值之差; 本例极差: R=5.95-3.82=2.13 (2) 决定组数和组距:组数通常取10-15个组,组距为全距的十
分之一, 再略加调整;
本例 i= R /10=2.13/10=0.213≈0.20 (3) 列出组段:第一组段必须包括最小值,最后一个组段必须包 含最大值; (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段 的频数。
某地630名正常成年女性血清甘油三酯含量频数分布表
甘油三酯 (mg/dl) 频数 累计频数 累计频率
(1)
10~ 40~ 70~
(2)
27 169 167
(3)
27 196 363
(4)
4.3 31.1 57.6
x %n f L Px L fx
i x
100~
本章结构
频数分布表 频数分布图(直方图) 集中趋势的数字特征值(指标)
列表描述法 -频数分布表(frequency table)
频数(frequency)
在一批样本中,相同情形出现的次数称该情 形的频数。
频数表(frequency table)
统计检验的方法
统计检验的方法
统计检验是一种根据样本数据对总体做出推断的方法,是统计学中非常重要的一部分。
它主要用于检验样本数据是否符合某种假设,或者比较不同样本之间的差异是否显著。
下面将介绍一些常见的统计检验方法。
首先是T检验,这是一种用于比较两组数据或检验单个样本平均数与已知值之间的差异的方法。
T检验可以分为单样本T检验、双样本T检验和配对样本T检验。
其中,单样本T 检验用于检验单个样本的平均数是否与已知值存在显著差异;双样本T检验则用于比较两组独立样本的平均数差异;配对样本T检验则用于比较两组配对样本的平均数差异。
其次是卡方检验,这是一种用于比较实际观测频数与期望频数之间差异的统计方法。
卡方检验常用于检验分类变量,如比较两个分类变量之间的关联程度或检验分类变量的分布是否符合预期。
此外,还有F检验,它主要用于检验两个或两个以上总体的方差是否存在显著差异,或者用于回归分析中检验模型的显著性。
除了上述几种常见的统计检验方法外,还有Z检验、U检验、秩和检验等多种方法,它们各有特点和适用场景。
在实际应用中,需要根据具体的研究问题和数据类型选择合适的统计检验方法。
总之,统计检验是统计学中非常重要的一部分,它能够帮助我们根据样本数据对总体做出推断,从而得出科学的结论。
在实际应用中,需要掌握各种统计检验方法的原理和应用场景,并根据具体情况选择合适的方法进行数据分析。
计量资料和计数资料的统计方法
计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。
本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。
一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。
统计学中常用的计量资料分析方法有描述统计和推断统计。
1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。
常用的描述统计量有平均值、中位数、众数、标准差、方差等。
平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。
中位数和众数则可以反映数据的位置和分布情况。
标准差和方差则可以衡量数据的离散程度。
2. 推断统计推断统计是基于样本数据对总体进行推断的方法。
在推断统计中,常用的统计分析方法有假设检验和置信区间估计。
假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。
置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。
二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。
计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。
1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。
通过频数分布可以直观地了解数据的分布情况和特征。
2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。
通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。
列联表分析可以帮助我们判断两个变量之间是否存在相关性。
3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。
卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。
三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。
连续变量的两样本课件平均水平比较
•
我们这个世界,从不会给一个伤心的 落伍者 颁发奖 牌。。2 0.8.112 0.8.110 7:51:08 07:51:0 8Augus t 11, 2020
•
没有承受困难的能力,就没有希望了 。
•
在漫长的人生旅途中,有时要苦苦撑 持暗无 天日的 境遇; 有时却 风光绝 项,无 人能比 。。202 0年8月 11日上 午7时5 1分20. 8.1120. 8.11
•
一个成功的决策,等于90%的信息加 上10%的 直觉。 。2020 年8月1 1日星 期二7时 51分8 秒Tuesday, August 11, 2020
•
幸运之神会光顾世界上的每一个人, 但如果 她发现 这个人 并没有 准备好 要迎接 她时, 她就会 从大门 里走进 来,然 后从窗 子里飞 出去。 。20.8.1 12020 年8月11 日星期 二7时5 1分8秒 20.8.11
n1 n2 2
n1 n1
两样本进行t检验举例
❖ 两样本标准误
s X1 X2
与H0是否为真无关
❖ X1 X2 是两个总体均数之差的点估计,因此当
H0: µ1=µ2成立时,X1 X2 在大多数情况下非常小 或较小,故t检验统计量较小或比较小。
反之,当H1:µ1µ2,在大多数情况下 X1 X2 较大或很大,所以t检验统计量比较大或很大。
❖两样本 t 检验,其假设一般为:
H0:µ1=µ2,即两样本来自的总体均数相等, H1:µ1µ2,即两样本来自的总体均数不相等,
检验水准为0.05。
两样本进行t检验举例
❖ 两样本t检验统计量
两组等级资料的统计分析课件
THANKS FOR WATCHING
感谢您的观看
在撰写统计分析报告时,应保 持客观、中立的立场,避免主
观臆断和偏见。
05
等级资料分析的局限性 及改进方法
局限性
数据类型限制
等级资料通常只能用于描述性和 统计分析,无法进行更复杂的定
量分析。
比较困难
由于等级资料本身的特性,比较两 组或多组等级资料时,难以确定它 们之间的差异是否具有统计学上的 显著性。
加强数据解读与沟通
提高研究者和读者的数据解读能力,加强数据解读的培训和沟通, 以减少误读和误解。
06
等级资料分析的应用前 景与发展趋势
应用前景
ห้องสมุดไป่ตู้
医学研究
社会科学
等级资料分析在医学研究中应用广泛,如 临床试验、流行病学调查等,用于评估疾 病的发病率、死亡率等指标。
在社会科学领域,等级资料分析常用于研 究社会现象、人类行为等,如社会阶层、 教育程度等指标的统计分析。
范
性。
围
对数据要求较高,需要
步
满足正态分布等假设。
骤
适用于研究两个等级变
量之间的关系,如病情
优
严重程度与治疗效果之
点
间的关系。
能够揭示等级变量之间
缺
的内在联系。
点
等级回归分析
缺点
对数据要求较高,需要满足线性回归等假 设。
定义
等级回归分析是用于分析一个或多个自变 量对因变量的影响,其中因变量是等级资 料的一种统计方法。
跨学科融合发展
计量资料的统计方法
计量资料的统计方法计量资料那可是科研和实际工作中的常客呀!到底啥是计量资料呢?简单说就是用数字表示的资料,像身高、体重、血压啥的。
那计量资料的统计方法有哪些呢?首先就是参数检验啦!比如t 检验、方差分析。
这就好比在数字的海洋里找规律,t 检验就像是个小侦探,专门比较两组数据有没有差异。
咱想想,要是两组人的身高不一样,t 检验就能告诉咱这差异是真的不一样呢,还是只是偶然呢?方差分析呢,就更厉害了,能同时比较多组数据。
这就像一场数字大比拼,看看哪一组更厉害。
那做这些统计的时候有啥注意事项呢?可得注意数据的正态性和方差齐性。
要是数据不正态或者方差不齐,那可就麻烦啦!这就像盖房子,地基不牢可不行。
咱得先检查检查数据是不是符合要求,不然得出的结果可就不靠谱喽。
计量资料统计方法安全不?稳定不?那当然啦!只要咱按照正确的方法来,就像走在平坦的大路上,稳稳当当的。
这些方法都是经过无数科学家验证过的,放心用就行。
那计量资料统计方法都用在啥场景呢?那可多了去了。
比如医学研究中,比较不同药物的疗效;工程领域里,分析不同材料的性能。
这就像一把万能钥匙,能打开很多知识的大门。
优势也很明显呀,能给出精确的结果,让咱心里有数。
咱来举个实际案例吧!比如说研究两种减肥方法的效果,咱就可以用计量资料的统计方法。
测量一群人的体重,一部分人用方法A,一部分人用方法B,最后看看两组人的体重变化有没有差异。
哇塞,这多直观呀!结果一出来,咱就知道哪种方法更好啦。
所以说呀,计量资料的统计方法真的超棒!它就像一个神奇的魔法棒,能让我们从一堆数字中找到有用的信息。
咱可得好好掌握这些方法,让它们为我们的工作和研究服务。
第4讲两组平均水平的统计检验
Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本 )或大样本,则用配对t 检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例 1 10 例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL )如下:表 10 例男性矽肺患者血红蛋白值( g/dL )病例号 1 2 3 4 5 6 7 8 9 10治疗前11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3治疗后14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究 ( 但不提倡,因为对结果的解释可能会有问题 )Stata 数据输入结构X1X211.3141513.8151413.513.512.813.510121114.71211.41313.812.312操作如下:gen d=x1-x2 产生配对差值的变量 dswilk d 正态性检验正态性检验结果如下:. sktest dSkewness/Kurtosis tests for Normality------- joint ------Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2)-------------+-------------------------------------------------------d |0.2790.774 1.430.4885Prob>chi2正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布=0.05,由于正态性检验的P 值=0.40189>> ,故可以认为资料近似服从正态分布。
两组数据均值差异的统计学方法
两组数据均值差异的统计学方法说起来这两组数据均值差异的统计学方法啊,还真是个有意思的话题。
你别看它听起来枯燥,实际上它可是咱们生活中常用的工具,能帮咱们解决不少实际问题。
比如说,你想知道新推出的广告文案是不是比旧文案更有效,或者新版本的软件是不是比旧版本更稳定,这时候你就得用到这些方法了。
我记得那天,阳光正好,我跟小张坐在办公室里,正对着电脑上的两组数据发愁。
那是一组销售数据,咱们得看看新推出的产品和老产品的销售额均值差异到底大不大。
小张是个新手,对这些方法还不太熟悉,他看着我,眼神里满是疑惑:“刘老师,这两组数据到底该怎么比较啊?”我笑了笑,跟他说:“别着急,咱们先来个T检验。
”T检验啊,可是咱们统计学里的老朋友了。
它专门用来比较两组数据的均值是否存在显著差异。
我就给小张解释:“你看啊,咱们这组数据,样本容量不算大,总体标准差也不知道,这时候T检验就派上用场了。
它就像一把尺子,能衡量出两组数据均值之间的差异到底大不大。
”小张听了,眼睛一亮:“哦,原来是这样啊!那要是数据不服从正态分布呢?”我一拍大腿:“嘿,你小子还挺机灵!这时候咱们就得用上非参数检验了。
非参数检验不依赖于数据的具体分布形式,常用的有Wilcoxon秩和检验、Mann-Whitney U检验这些。
它们就像是万能钥匙,不管数据是什么形状,都能找到合适的锁孔。
”说着,我就给小张演示了一遍。
咱们把两组数据输入到统计软件里,选了个Wilcoxon秩和检验。
结果一出来,嘿,两组数据的均值差异还真挺大的。
小张一看,高兴得跳了起来:“刘老师,咱们的新产品果然受欢迎啊!”我看着他那兴奋的样子,心里也很高兴。
这不仅仅是因为咱们得出了想要的结果,更是因为咱们在这个过程中学到了新知识,解决了实际问题。
不过,我也得提醒小张:“咱们不能光看结果,还得结合实际情况来解释和推断。
比如说,这次销售额的提升,可能是因为新产品的品质好,也可能是因为咱们的营销策略得当。
第四讲 计量资料的统计描述 公开课课件
中位数
➢ 计算方法
直接法(适用于样本例数较小的资料)
将数据按从小到大的顺序排列 当n为奇数时,中位数就是位置居中的那个数值,即M=X(n+1)/2 当n为偶数时,M=(Xn/2+X(n+2)/2)/2 举例:例4.4
间接法
频数表法
软件法(最常用)
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
➢ 确定组段
组段的本质为区间,上限为U,下限为L L≤X<U 第一个组段的下限为最小值或稍小于最小值的数 最后一个组段应包括最大值或稍大于最大值的数 各组段中除了最后一组为闭区间外,其余各组均为半
开半闭区间
➢ 分组划记并统计频数 ➢ 列出频数分布表(表2-1,表2-2)
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
中位数
➢ 定义
将一组变量值从小到大按顺序排序,位次居中的那个变量值就是 中位数(median,M)
➢ 特点
位置代表值 既可以是原始数据中的某个具体值,也可以不是具体值 一半的数据比M大,一半的数据比M小 不受极端值的影响 代表性不好(未考虑样本中的所有数据)
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
四分位数
➢ 定义
将全部数据等分成四个部分,每一部分均包含了25% 的数据,25%、50%和75%分位点上的数值就是四分 位数(Quartile, Q)
25%位点上的数值称之为下四分位数,记作Q1 75%位点上的数值称之为上四分位数,记作Q3
组中值= (本组下限+下一组下限()/2适用所有闭口组)
或= 本组下限 本组组距 (适用上开口组) 2
计数资料的基本统计分析方法
×比例基数 ×比例基数
2019/12/24
9
(二)构成比 (percentage)
构成比(结构相对数、百分比):某现象内部各个构成部分所占的比 重或分布。
构成比=
某一构成部分的数量 各构成部分数量之和
100%
构成比常以100为基数,各构成部分构成比之和必须为100% 。
检验统计量 =7.5284,P=0.023<0.05,差异有统计学意义。
列联表分析-检验模型
H0 :1 2 3;
H1
:
1、
2、
不相等或不全相等。
3
0.05
H10 : 1 2 ; Ⅰ H11 : 1 2
0.05
H 20 : 1 3; Ⅱ H 21 : 1 3
2019/12/24
22
四格表实际频数与理论频数显示
实际频数
理论频数
检2 验结果
卡方值
P值 自由度
单侧确切概率值 双侧确切概率值
实例2 穿新旧两种防护服工人的皮肤炎患病率比较
防护服种类 新 旧 合计
阳性例数 1 10 11
阴性例数 14 18 32
患病率(%) 6.7 35.7 25.6
2019/12/24
合计
78
33
111 70.27
2019/12/24
21
运用四格表的条件
1、当N>40 且T>5 ,运用专用公式,即Pearson Chi-Square;
2、有一理论频数为1<T<5且N>40时需用校正公式计算χ2值,即 ntinuity Correlation; 3、当T<1或N<40时,需用确切概率计算法,即Fisher’s Exact Test。
两组资料均数的比较教学课件
Ⅰ型错误和Ⅱ型错误
由样本推断的结果
真实结果
拒绝H0
H0成立 Ⅰ型错误 a
不拒绝H0
推断正确(1-a )
H0不成立 推断正确(1-b) Ⅱ型错误b
(1-b)即把握度(power of a test):两总
体确有差别,被检出有差别的能力 (1-a)即可信度(confidence level):重复 抽样时,样本区间包含总体参数(m)的百分数
样(如1000次)时,样本(如n=5)区间包含 总体参数(m)的百分数。常用100(1-α)%或
(1-α)表示, α值一般取0.05或0.01。
可信度实验
2. 总体均数的可信区间
3. 两总体均数差的可信区间
4. 大样本总体均数的可信区间(1)
4. 大样本总体均数的可信区间(2)
三、可信区间的解释
通常情况下Ⅱ型错误未知
对于一般的假设检验,
a 定 为 0.05 ( 或 0.01 ) , b 的 大 小 取决于H1。通常情况下,比较总体间有 无差异并不知道,即H1不明确, b值的
大小无法确定,也就是说,对于一般的 假设检验,我们并不知道犯Ⅱ型错误的
概率b有多大。
a 与 b 间的关系
减少(增加)I型错误,将会 增加(减少)II型错误
检验水准(level of a test):α=0.05(双侧) 2、选定方法和计算统计量:
根据统计推断目的、设计、资料组数、样本含量、等
选择方法。如两组小样本比较用t检验、大样本比较u 检验、方差齐性检验用F检验。
3、确定P值,作出判断
P≤α(0.05) 样本差别有统计学意义; P >α(0.05) 样本差别无统计学意义
t检验,亦称student t检验(Student’s t
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stata软件基本操作和数据分析入门
第四讲两组计量资料平均水平的统计检验
一、配对设计的平均水平检验
统计方法选择原则:
如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验
小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)
病例号12345678910
治疗前11.315.015.013.512.810.011.012.013.012.3
治疗后14.013.814.013.513.512.014.711.413.812.0
问:治疗前后的血红蛋白的平均水平有没有改变
这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)
Stata数据输入结构
操作如下:
gen d=x1-x2 产生配对差值的变量d
sktest d 正态性检验
正态性检验结果如下:
正态性检验的无效假设为:资料正态分布
相应的备选假设为:资料非正态分布
α=0.05,由于正态性检验的P值=0.4885>>α,故可以认为资料近似服从正态分布。
ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05
结果如下:
P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。
即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下。
设:已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:
ttesti 样本量样本均数样本标准差 0
本例为: ttesti 10 -0.66 1.65 0
得到下列结果如下:
结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:
signrank 差值变量名=0
假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则
H0:差值的中位数=0
(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗
前的血红蛋白小于治疗后的血红蛋白的概率)
H1:差值的中位数≠0
α=0.05
本例为signrank d=0
P值=0.3583>>α,故没有足够的证据说明两个总体不同。
二、平行对照设计的两组资料平均水平统计检验
统计方法选择原则:
如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。
例2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其
子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。
问噪声对纺织女工子代智能有无影响?(接触组group=0,不接触组group=1)
资料及其结果如下:
方差齐性检验
H0:σ1=σ2vs H1:σ1≠σ2
α=0.1
两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x,by(group)
P值=0.8389>>α,因此可以认为两组方差齐性的。
正态性检验:H0:资料服从正态分布vs H1:资料偏态分布α=0.05
每一组资料正态性检验
P值均大于α,因此可以认为两组资料都服从正态分布
H0:μ1=μ2vs H1:μ1≠μ2
α=0.05
ttest x,by(group)
P值(<0.0001)<α,并且由μ0-μ1的95%可信区间为(-17.73557,-7.144429)可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并且差别有统计学意义。
如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验
ttesti 样本量1 样本均数1 样本标准差1 样本量2 样本均数2 样本标准差2
例如:本例第1组n1=25 均数1=89.08 标准差1=9.115
第2组 n2=25 均数2=101.52 标准差2=9.505
则ttesti 25 89.08 9.115 25 101.52 9.505
结果解释同上。
对方差不齐的情况,(小样本时,资料正态分布)还可以用t’检验
命令:ttest 观察变量名,by(分组变量名) unequal
立即命令为ttesti 样本量1 均数1 标准差1 样本量2 均数2 标准差2,unequal
假定本例的资料方差不齐(实际为方差不齐的),则要用t’检验如下ttest x,by(group) unequal
结果解释同上。
t’检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t’自由度为47.9159)。
由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比 1。
(注意:两个样本方差之差很小,仍可能方差不齐。
如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。
故用方差齐性检验的结果如下:
方差齐性的立即命令为 sdtesti 样本量1 . 标准差1 样本量2 . 标准差2
sdtesti 100 . 0.1 100 . 0.01
P值<0.0001,因此认为两组的方差不齐。
故方差齐性是考察两个样本方差之比是否接近1。
如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例介绍成组秩和检验),则用秩和检验(Wilcoxon Ranksum test)。
H0:两组资料所在总体相同
H1:两组资料所在总体不同
=0.05
命令:ranksum 观察变量名,by(分组变量)
本例为ranksum x,by(group)
P值<0.0001< ,故认为两个总体不同
45。