分类资料统计描述

合集下载

分类资料的统计描述

分类资料的统计描述

第六章 分类资料的统计描述一、教学大纲要求(一)掌握内容 1. 绝对数。

2. 相对数常用指标:率、构成比、比。

3. 应用相对数的注意事项。

4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。

(二)熟悉内容1. 标准化率的计算。

2. 动态数列及其分析指标。

二、教学内容精要(一) 绝对数绝对数是各分类结果的合计频数,反映总量和规模。

如某地的人口数、发病人数、死亡人数等。

绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。

(二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。

常用相对数的意义及计算见表6-1。

表6-1 常用相对数的意义及计算常用相对数概念表示方式 计算公式 举例率(rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率(‰)等单位时间内的发病率、患病率,如年(季)发病率、时点患病率等构成比(proportion )又称构成指标,说明某一事物内部各组成部分所占的比重或分布 百分数疾病或死亡的顺位、位次或所占比重比(ratio )又称相对比,是A 、B 两个有关指标之比,说明A 是B 的若干倍或百分之几倍数或分数①对比指标,如男:女=106.04:100 ②关系指标,如医护人员:病床数=1.64③计划完成指标,如完成计划的130.5%%100⨯=单位总数可能发生某现象的观察数发生某现象的观察单位率%100⨯=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比(三) 应用相对数时应注意的问题1. 计算相对数的分母一般不宜过小。

2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。

分类资料的统计分析

分类资料的统计分析

分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。

常见的分类资料有性别(男、女)、学历(小学、初中、高中、大学)、职业(医生、教师、律师等)。

分类资料中每个分类称为一类或一组,根据组别统计频数或百分比可以揭示不同分类间的差异和关系。

二、方法1.频数与频率分析:通过统计每个类别的个数,得到各类别的频数和频率(频次比),并绘制柱状图、饼图等图表,直观地展示不同类别的占比情况。

2.极差分析:对于有序分类资料,比如学历,可以计算最高和最低值的差距,该差距称为极差。

极差分析衡量了不同类别之间的距离,有助于比较不同类别在一些变量上的差异。

3.交叉分析:用于分析两个或多个分类资料之间的关系。

通过交叉表格(列联表)和卡方检验,可以计算出各类别之间的关联度,判断不同分类是否相互关联。

4.分类资料的描述性统计分析:主要包括计算百分比、计算平均数、计算方差等统计指标。

通过这些指标,可以对不同类别的分布情况进行综合分析。

三、实践应用1.人口统计学:年龄、性别、婚姻状况等是人口统计学中常见的分类资料。

通过对这些资料的统计分析,可以了解人口结构、人口变动趋势等,为制定人口政策提供参考。

2.市场调研:对于市场调研中收集到的消费者分类资料,可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为,帮助企业制定更加精准的销售策略。

3.教育评估:对学生的学历、家庭背景等进行统计分析,可以了解学生群体的整体素质水平、教育资源配置情况等,为教育政策制定和学校招生计划提供依据。

4.健康管理:对医疗数据中患者的病种、治疗效果等分类资料进行统计分析,可以评估不同病种的流行趋势、治疗效果、药物副作用等,为医疗决策提供参考。

总之,分类资料的统计分析是统计学中的重要内容,通过对分类资料的频数、频率、交叉分析等方法进行利用,可以揭示分类之间的差异、关系和趋势,为各个领域的决策者和研究者提供参考依据。

分类资料的统计描述

分类资料的统计描述

本卷须知
1.标准不同得到的标化值不同 2.内部各小组比较时,可不标化 3.标化后的数值不再反映实际水平。
2024/10/29
22
第四节 动态数列(自学)
• 概念:按照一定的时间顺序,将某事物的统计指标依 次排列起来,以便于观察和比较该事物在时间上的开 展变化趋势。
• 常用指标: • 1.绝对增长量:说明事物在一定时期内所增长的绝对
1.选择标准:任意一组、两组之和、有代表性的人口 2.计算标准化率p' : 直接法: 标准组年龄别人口数时:p' = Ni pi /N 标准组年龄别人口构成时: p' = 〔Ni / N〕 pi 间接法: p' = P r / ni pi = P SMR
计算标准化率的符号
年龄组
1 2 3
标准组
人口数 死亡数 死亡率
标准化法(Standardization method)
标准化的原因: 当两组资料进行比较时,如果其内部不同小
组率有明显差异,而且各小组内部构成也明显不 同 ,直接比较不合理,需要进行标准化后再进行 比较。
标准化的方法: 按照统一标准进行校正,然后进行比较.
标准化率的计算 〔常用于人口年龄构成的标准化〕
概念:是指某种现象在一定条件下,实际发生的观察单位数 与可能发生该现象的总观察单位数之比,用以说明某种现 象发生的频率大小或强度。
计算公式: 发生某种现象的观察单位数 可能发生某种现象的观察单位数 100%〔1000‰…〕
例如:发病率、患病率、死亡率、病死率等。 注意:不受其它指标的影响;各率相互独立,其之和不为1
主要内容
第一节、相对数 第二节、应用相对数的本卷须知 第三节、标准化法 第四节、动态数列及其分析指标

分类资料统计描述

分类资料统计描述
被标化组 年龄组 人口数 1 2 3 ┇ I ┇ k 合计 n1 n2 n3 ┇ ni ┇ nk n 死亡数 r1 r2 r3 ┇ ri ┇ rk r 死亡率 p1 P2 p3 ┇ Pi ┇ pk p 人口数 N1 N2 N3 ┇ Ni ┇ Nk N 死亡数 R1 R2 R3 ┇ Ri ┇ Rk R 死亡率 P1 P2 P3 ┇ Pi ┇ Pk P 标准组
相对比
概念:简称比(ratio),是两个有关联的指标的比值,用以说明 一个指标是另一指标的几倍或几分之几。
甲指标 相对比 (或× 100%) 乙指标
• 分类: 关系指标:有关的非同类事物指标之比,如医护人员数与 病床数之比 对比指标:同类事物两个指标之比,如出生性别比
例5.4 为了解新生儿的锌的营养状况,分别测量某
34.4
N i p2i
(6)=(2) (5) 20 40
200(N )
60( Ni pi )
60( Ni pi )
新疗法组的标准化病死率 p1
60 100% 30.0% 200 60 100% 30.0% 200
一般疗法组的标准化病死率 p2
甲、乙两地各年龄组人口数和死亡率(‰)
用直接法计算标准化死亡率(‰)
年龄组 (岁) 0 5 20 40 60 合计 标准人口 构成比 (Ni/N) 0.141 0.188 0.543 0.104 0.024 1.0000 甲 地 原死亡率 pi 57.2 3.6 5.3 12.1 40.0 16.19 分配 死亡率 (Ni/N)pi 8.07 0.68 2.88 1.26 0.96 13.85 (p’) 乙 地 原死亡率 pi 72.9 4.6 7.2 14.2 46.0 13.90 分配 死亡率 (Ni/N)pi 10.28 0.86 3.91 1.48 1.10 17.63 (p’)

描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。

描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。

一、全距n。

平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。

它反映了各个变量在总体中所占的比例。

用公式表示为n=AV。

例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。

则该项调查结果的全距是2.5%。

全距愈小说明变量在总体中所占的比例愈大,代表性愈强。

二、方差 1。

方差又称离散系数或变异系数。

由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。

但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。

这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。

因此,方差就是各个单位的变异程度的一种度量。

方差的符号是σ,单位是标准差(SD)。

2。

标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。

式中SD表示标准差。

标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。

如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。

对于全距,方差,标准差,原因,方差是概率统计的专有名词。

在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。

当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。

8.5.1分类变量资料资料的统计描述

8.5.1分类变量资料资料的统计描述
用相对数时应注意的问题
♦ 1.计算相对数时分母不宜过小
例2:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。 请问该说法是否正确?
♦ 2.分析时不能以构成比代替率
♦ 3.注意资料的可以性
用率或构成比进行比较时,必须注 意资料的可比性,即除了要比较的因素 外,其他可能影响研究结果的因素(如 时间、年龄、职业、地区、民族、风俗 习惯、经济水平等内部构成)要尽可能 的相同。
一、常用相对数
例1:甲小学有534人,乙小学为313人, 经 检查发现, 甲学校患龋齿者57人, 乙学校 患龋齿人数33人。 问那所学校发现患龋齿的强度高?
相对数:是指两个有联系的指标之比。
常用的相对数有率、构成比和相对比。
(一)率(频率指标)
(二)构成比(构成指标)
(三)相对比(比)
比 A B
♦ 4.正确计算平均率
例3 某班有男生50人,女生20人,男生英语四级 通过率为80%,女生四级通过率为100%,请问该 班四级通过率为多少?
• 答案A:90%。 • 答案B:85.7%
♦ 5.样本率或构成比的比较应做假 设检验
样本率或构成比是抽样得到的,存 在抽样误差,进行比较时不能仅凭表面数 值大小直接下结论,应做假设检验

2-数值变量与分类变量的统计描述分析

2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。

变量值是定量的,有单位的,表示为数值的大小。

¾无序分类资料:又称为计数资料。

变量值是定性的,没有单位,表示为相互独立的类别。

¾有序分类资料:又称为等级资料。

变量值是定性的,没有单位,各类别具有程度上的差异。

注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。

一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。

一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。

离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。

反映了数据的离散程度或者变异程度。

一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。

常见近似正态分布。

偏态分布:集中位置偏向一侧,频数分布不对称。

正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。

负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。

一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。

医学统计学课件:分类资料的统计描述

医学统计学课件:分类资料的统计描述
交叉表
交叉表是一种更为复杂的表格形式 ,可以展示两个或多个分类变量之 间的关系,进一步分析变量之间的 关联。
分层资料的统计描述
分层平均数
对于分层资料,可以使用分层平 均数来描述各层内数据的平均水 平,通过比较不同层的平均数,
可以了解各层之间的差异。
层间方差
层间方差是用来衡量不同层次间 的变异程度,通过计算和比较层 间方差,可以了解各层次之间的
辅助决策制定
准确的分类资料统计描述 能够为决策制定提供有力 支持,帮助决策者了解情 况、制定合理方案。
分类资料统计描述的应用场景
临床研究
在临床研究中,分类资料 统计描述常用于分析患者 的疾病分布、治疗反应等 。
流行病学
流行病学中,分类资料统 计描述用于分析疾病的地 区分布、人群特征等。
公共卫生
公共卫生领域中,分类资 料统计描述用于监测和评 估公共卫生状况、健康问 题分布等。
动态数的计算与解读
动态数的计算
动态数是用来描述某一指标在不同时间点上的变化情况,通常通过将某一指标在 不同时间点的数值进行对比来计算。例如,某医院某年的治愈率与前一年的治愈 率之比。
动态数的解读
动态数的值越大,说明该指标的变化趋势越明显;反之,则越小。动态数可以用 来预测未来的发展趋势,以及评估政策或措施的效果。
相对数与动态数的应用场景
相对数在医学研究中应用广泛,如比较不同地区、不同时间 、不同人群的发病率、患病率、死亡率等指标,以了解疾病 在特定人群中的分布和发生情况。
动态数在医学监测和流行病学研究中应用较多,如监测某种 疾病的发病率、死亡率等指标的变化趋势,以及评估干预措 施的效果等。
04
统计图表在分类资料中的应用
在制作箱线图时,应将数据按照数值 大小进行排序,并使用合适的横轴和 纵轴尺度。

分类资料的统计描述

分类资料的统计描述

各种疟疾的构成情况
1955年 类别 发病人数 恶性疟 间日疟 三日疟 合计 68 12 17 97 % 70 12 18 100 发病人数 21 12 17 50 % 42 24 34 100 1956年
疾病统计中常用的相对数指标
发病率(incidence rate):表示在观察期间内,可能
分类资料的统计描述
主要内容
相对数

掌握相对数的概念、计算和应用;
率的标准化
掌握率的标准化的基本思想; 掌握直接法进行率的标准化的基本步骤。

案例

《600例小儿烧伤休克期治疗分析》

600例烧伤患儿,210例早期有休克症状,其中 3岁以下者110例,占52%,3岁以上者100例, 占48%,年龄越小,休克发生率越高。
观察期间某病的现患病 例数 患病率= K 该期间的平均人口数
疾病统计中常用的相对数指标
死亡率(mortality rate):在一定人群中,死于某病的
频率,可用于反映一个地区不同时期人群的健康状况和 卫生保健工作的水平。
观察期间某病的死亡人 数 死亡率= K 该期间的平均人口数
病死率(fatality rate):表示一定时期内,患某病的全
构成比(proportion)
它说明整体和部分之间的关系,即某一事物的内部各
组成部分所占的比重或分布。
事物内部某一部分的观 察单位数 构成比= K 事物内部各部分的的观 察单位总数 构成比与率比较,有以下特点: 同一事物内部各组成部分的构成比之和一定是100%,, 即各分子之和等于分母。 某一组成部分的构成比改变时,其它部分必然发生相应 的改变,但率不受影响。
P= 8 10 2.18% 370 456

分类资料的统计描述课件

分类资料的统计描述课件

峰态及其测度
峰态
描述数据分布的集中程度,可以通过计算峰态系数来衡量。
峰态系数的计算方法
利用数据分布的均值、标准差和四分位距,通过公式计算得出峰 态系数。
峰态系数的值域
正值表示尖峰分布,负值表示平峰分布。
偏态与峰态的图形描述
01
02
03
直方图
通过绘制直方图可以直观 地展示数据的分布情况, 从而观察偏态和峰态。
THANKS
感谢观看
Q-Q图
通过绘制Q-Q图可以比较 数据分布与正态分布的偏 离程度,从而判断偏态和 峰态。
P-P图
通过绘制P-P图可以比较 数据分布与正态分布的理 论概率,从而判断偏态和 峰态。
05
分类资料的统计图表
条形 图
总结词
直观展示不同类别数据的大小关系
详细描述
条形图通过长度相等的条形来代表各类别的数值,条形之间的横向距离表示数 值的大小。条形图能够直观地展示不同类别数据的大小关系,便于比较。
分类资料的统计描述课件
目 录
• 分类资料统计描述概述 • 分类资料的频数分布 • 分类资料的集中趋势与离散趋势 • 分类资料的偏态与峰态 • 分类资料的统计图表 • 分类资料统计描述的应用场景
contents
01
分类资料统计描述概述
定义与特点
定义
分类资料是指将观察单位按照某 种属性或类别进行分类的统计数 据,例如性别、婚姻状况、学历等。
医学数据分析
要点一
总结词
医学数据分析也是分类资料统计描述的一个重要应用场景, 通过对医学数据的统计描述,可以了解疾病分布、治疗效 果和药物反应等。
要点二
详细描述
医学研究是提高疾病防治水平和医疗服务质量的重要途径, 通过临床试验、流行病学调查等方式收集数据,然后利用 分类资料统计描述的方法对数据进行整理和分析,可以得 出疾病流行特征、治疗方案效果等方面的信息,为医生制 定治疗方案和开展医学研究提供依据。

分类变量资料的统计描述

分类变量资料的统计描述
25
(二)标准化率的计算 1、选择标准人口
✓ 代表性的、内部构成相对稳定的较大人群 ✓ 要比较的两组资料内部各相应小组的观察单位数
相加,作为共同的标准 ✓ 两组中任选一组的内部构成作为标准
26
2、计算预期发生数 预期发生数=标准人口数×原发生率
表4-6 甲、乙两地用“标准人口数”计算标准化死亡率(1/10万)
2. 标准化的目的是在两个(或多个)总体率 比较时,采用统一标准消除内部构成不同 的影响。
30
3. 计算资料标准化率时各比较组应选用同一 标准。选用的标准不用,算得的标准化率 也不同。标准化率只反映资料的相对水平, 不代表实际水平,仅在比较时使用,原率 才能反映某时某地某现象的实际水平。
4. 样本标准化率同样存在抽样误差,若要进 行比较,应进行假设检验。
18
例:某医师对本院某年收治的1907例麻疹患者做了年龄 的分布描述,资料如下。该医生认为,1岁儿童的麻疹发 病率高于其他各年龄组,年龄越大,发病率越低。
某医院某年收治的1907例麻疹儿童的年龄分布
1. 该医生的分析是否正确? 2. 由上述资料可以得出什么结论?
19
率和构成比的区别:
1. 二者在概念和计算方法上都不相同,所得结论也不同 2. 率是说明某现象发生的频率或强度的 3. 构成比可以说明某事物内部各组成部分的比重或分布 4. 不能以构成比代替率。
术前中性白细胞构成比
= 术前中性白细胞计数 术前白细胞总数
= 4156 5800
100 %=71.66%
术前中性白细胞构成比是71.66%。
构成比的特点:
①各组成部分的构成比之和为100 %或1。 ②事物内部某一部分的构成比发生变化,其它
部分的构成比也相应地发生变化。

分类变量资料的统计描述

分类变量资料的统计描述
定义:为频率指标,是某现象实际发生数与
可能发生某现象的总数之比。用以说明某现 象发生的频率或强度。
常用率: 发病率、患病率、死亡率、病死
率、治愈率等。
率的计算方法

现象实际发生例数 可能发生某现象的总数
k

A( ) A( ) A( )
k
k为比例基数,常取百分率(%)、千分率(‰)、 万分率(1/万)、十万分率(1/10万)等。
计算公式:
构成比(%)

事物内部某一部分的个体数 事物内部各构成部分的个体数总和
100%
构成比(%)
A
100%
A B C
设某事物个体数的合计由A1,A2,· · ·,Ak个
部分组成,构成比的计算为:
构成比1
A1 A1+A2 +Ak
100%
…..构…成…比…2……A…1+A…2+A…2 . + Ak 100%
返 回
计划完成指标
: 定义 说明计划完成的程度,常用实际数达到计划数的百分之
几或几倍表示。
计算公式:
举例:
某县原计划在一个伤寒疫区周围的人群对1500名居民接种伤寒疫苗, 而实际上接种了1958人,计划完成指标为: (1958÷1500)×100%=130.5%,即完成了计划的130.5%,也可用倍数表 示,即完成计划的1.305 倍。
原则:①保留1~2位整数 ②惯例
例如:患病率通常用100% 、婴儿死亡率用1000‰、 肿瘤死亡率以10万/10万表示。
例 某医院1998年在某城区随机调查了 8589例60岁及以上老人,体检发现高血 压患者为2823例。
高血压患病率为: 2823 / 8589 100% = 32.87% 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 确切概率法 ➢ 拟合优度检验
第2页/共58页
第一部分 四格表资料的χ2检验
➢χ2检验的基本思想及计算步骤
➢四格表专用公式 ➢连续性校正公式
➢四格表χ2检验的条件
第3页/共58页
一、 χ2检验的基本思想(及计算步骤)
(一) χ2分布
0.5
纵高
0.4 0.3 0.2 0.1 0.0
0
f
( 2)
1
第10页/共58页
由以上可知,理论频数计算公式为:
TRC
行合计 列合计 总例数
nRnC n
第11页/共58页
3、理论频数T的特征:(1)理论频数表的各行和各列 Nhomakorabea成比相同;
(2)各个格子上的︱A-T︳相等。
理论四格表内部构成相同(H0:π1=π2= Pc )
实际四格表(A)
理论四格表(T)
表T的行构成
(3)自由度趋向无穷大, χ2分布趋向正态分布。 2、当自由度确定时,χ2值愈大,P值愈小;反之,
χ2值愈小,P值愈大。
第5页/共58页
(二) χ2分布的基本思想(及步骤)
例9-2:某医师研究用兰芩口服液治疗慢性咽炎疗效有 无差别,结果如下:
慢性咽炎两种药物疗效资料
药物
有效
兰芩口服液 41(a) 银黄口服液 24(c)
第12页/共58页
当两样本率相等时,实际数A与理论数T的差值为0。 由此可见: ➢ 实际数A与理论数T之间的差别等价于两样本率的差
别; ➢ 检验假设H0:四格表的构成比相同,等价于H0:两
总体率相等; ➢ 对实际数A与理论数T之间差值的检验等价于两样本
率差值的假设检验。
第13页/共58页
4、 χ2检验的基本公式
表T的列构成
41
4 45 36.56 8.44 45 R1:0.8124 0.1876 1.000 C1:0.5625 C2:0.5625
24
11 35 28.44 6.56 35 R2:0.8124 0.1876 1.000
0.4375
0.4375
65 15 80 65 15 80
1.000
1.000
同理
(a c) T21 (a b c d ) (c d ) 28.44
T12
(1
a
ac bc
d
) (a
b)
(b d ) (a b) 8.44 (a b c d)
T22
(1
a
a b
c c
d
)
(c
d
)
(b d ) (c d ) 6.56 (a b c d)
36.56
8.44
28.44
6.565
ν=(2-1)×(2-1)=1 3、确定P值,做出结论。
χ2>3.84,P<0.05,按α水准拒绝H0,接受H1,故 可认为两总体有效率有差别。
第18页/共58页
二、四格表专用公式
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
P就很小,若P≤α,就怀疑假设,因而拒绝它;若 P >α,则尚无理由拒绝它。
第15页/共58页
从公式χ2 值的计算可知, χ2 值会随着格子 数的增加而变大,即χ2 分布与自由度有关。
当自由度为1时, χ2 =3.84时P=0.05; 当自由度为3时, χ2 =7.81时P=0.05。 自由度计算公式: ν=(行数-1)×(列数-1)=(R-1) × (C-1)
2(
/
2)
2
2
( / 21) e 2 / 2
自由度=1 自由度=2 自由度=3 自由度=6
P=0.05的临界值
3 3.84 6 7.81 9
1212.59 15
18
卡方值
图7-1 不同自由度第的4页χ/共25分8页布曲线图
χ2分布的特征:
1、 χ2分布是一种连续型分布:χ2分布曲线是一
簇曲线,其形状依赖自由度的大小: (1)当自由度小于2时,曲线呈L型; (2)随着自由度的增加,曲线趋向于对称;
2、理论频数T( theoretical frequency) 实际频数A :实际发生的阴性、阳性数。 理论频数T :假设H0:π1=π2= Pc 成立,理论上 应发生的阴性、阳性数。
P 65
ac
c 80 abcd 81.3%
T11
45
65 80
(a
(a b
c) c
d)
(a
b)
36.56
第9页/共58页
实际发生数A与理论频数T的差值服从χ2分布, 公式如下:
2 (A T )2 T
第14页/共58页
由公式可以看出, χ2 值是以理论数为基础的相对 误差,反映了实际数 A与理论数T的吻合程度。
在H0:π1= π2成立的条件下, ︱A-T︳是由于
抽样误差所致,故χ2值不会太大,出现大的χ2值的概率
第16页/共58页
(三)四格表χ2检验的步骤
1、建立假设,确定检验水准。 H0:π1= π2,即两总体有效率相等; H1:π1≠ π2 ,即两总体有效率不等; α=0.05
第17页/共58页
2、选择检验方法,计算检验统计量
2 (41 36.56)2 (4 8.44)2 (24 28.44)2 6.56
基本公式: 2 (A T )2 T
a
(a a
b)( b
a c
c) d
2
(a b)(a c)
b
(a a
b)(b bc
合计 65(a+c)
无效 合计 有效率(%)
4(b) 45(a+b) 11(d) 35(c+d) 15(b+d) 80(n)
91.1(p1) 68.6(p2) 81.3(Pc)
第6页/共58页
1、四格表(fourfold table)
上述表格中,
41 4
24 11 这四个格子的
数据是最基本的,其余数据都是由这四个数据
第九章 χ2检验
χ2检验(Chi-square test)是现代统计学的创始人 之一,英国人K . Pearson(1857-1936)于1900年提 出的一种具有广泛用途的统计方法,可用于两个或 多个率间的比较,计数资料的关联度分析,拟合优 度检验等等。
第1页/共58页
主要内容
➢ 四格表的χ2检验 ➢ 配对四格表的χ2检验 ➢ 行×列表的χ2检验
推算出来的,故称之为四格表。
第7页/共58页
检验两个样本率所代表的总体率是否有差异时, 若第一组发生数为a,未发生数为b,第二组发生数 为c,未发生数d,则组成这样一个表格:
四格表的表示符号
组别 发生数(+) 第一组 a 第二组 c 合计 a + c
未发生数(-) b d
b+d
第8页/共58页
合计 a+b c+d a+b+c+d
相关文档
最新文档