简介定性资料的统计分析-定性资料的统计分析
医学统计学-3-定性资料统计描述
解决办法
分层比较 率的标准化法 多元统计分析方法
相对数比较时应注意其可比性(二)
在同一地区不同时期资料的相对数比较时,还 应注意其条件有无变化。 例如,不同时期的发病率比较时,应注意不同 时期疾病的登记制度、诊断水平以及平均人口 数的变化。
5、样本率或构成比进行比较时应作假设检验 由于样本率或构成比是样本指标,同样存 在着抽样误差。 在实际工作中,不能根据样本率或构成比 等相对数的数值大小轻易作出结论,应进 行样本率或构成比差异比较的假设检验。
一、相对数的概念
Question:
通过调查得到某年甲地区的小学生中流脑 发病63例,乙地区的小学生中流脑发病35 例。能否认为甲地流脑的发病严重程度高 于乙地? 绝对数63例和35例表示甲地发病比乙地多 28例,能否说明两地发病的严重程度呢?
假设甲地有小学生50051人,乙地有小学生 14338人,求出两地的发病率: 甲地发病率: 63/50051=1.26‰ 乙地发病率: 35/14388=2.44‰ 乙地区的发病率是甲地区的两倍多。 以上两个发病率为通过绝对数求得的相对 数,用来表示事物出现的频率或强度,便 于比较。
分类资料的统计描述
用率、构成比和相对比等指标来对分类资 料进行统计描述。 由两个有联系的指标之比组成,统称为相 对数。 常用相对数包括率、构成比和相对比。
二、常用相对数
1、率(rate)
又称频率指标。 某现象实际发生数与可能发生总数之比。 说明某现象发生的频率与强度:
某时期内实际发生某现象的观察单位数 率= ×比例基数(K) 同时期可能发生该现象的观察单位总数
三、标准组的选择
标准组应选择有代表性的、较稳定的、来自数 量较大的人群的指标作为标准。
例如世界的、全国的、全省的、本地区的或本 单位历年累计的数据等;
定性资料的统计描述
(二)强度型指标
例:某企业2003年有2839名职工,该企业每年都对 职工进行体检,这一年新发生高血压病人5 例,2003年的高血压发病率为多少?
(三)相对比型指标
概念:任何两个相关联的指标A,B之比。 计算公式: 口学中的出生性别比例: 男性人口/女性人口= 19456/18340 = 1.06, 即每出生1个女婴,就有1.06个男婴出生。
分母的近似计算
假定当年每位去世者平均活了半年,每位出生 者也平均活了半年,则有: 当年全人口存活的总人年数=年初人口数×1年-去世 人数×0.5+出生人数×0.5 或 当年全人口存活的总人年数=年终人口数×1年 +去世人数×0.5—出生人数×0.5
上面两个等式相加,便有 当年全人口存活的总人年数=(年初人口数+年终人 口数)/2×1年=当年平均人口数×1年 或 当年全人口存活的总人年数=当年年中人口数 × 1年
构成比的特点
1、各构成部分的相对数之和为100%;
2、构成比的各构成部分之间存在着相互影响。
二、常用的相对数指标
用频率分布全面反映一个定性变量外,有时也可 用其他相对数指标从某个侧面来描述定性变量。 常用相对数指标大致有三种类型: 频率;强度;相对比
(一)频率型指标
频率型指标:最常见,表示某现象发生 的频率大小。 计算公式:
2、A、B也可以是相对数,如甲、乙两地的恶性肿瘤死亡率
分别是89.2/10万和65.1/10万,
则甲地恶性肿瘤死亡率是乙地的89.2/65.1=1.37(倍)。
3、A、B 可以是性质相同的两个指标,如上例甲、乙两地恶 性肿瘤死亡率相比,
也可以是性质不同的两个指标,如某医院每张病床配备的
医生人数: 368名医生/2800个床位=0.13
9-定性资料的统计分析(1)
二、配对四格表的确切概率法
在配对四格表资料中,当b+c≤20时,因配 对四格表2检验近似程度较差,易导致分析 的偏性。此时,同样需要用确切概率法来 计算。 方法与四格表确切概率法有区别,利用二 项分布原理。
例、用两种检验方法对某食品作沙门氏菌 检验,结果如下表,试用配对四格表的确 切概率法比较两种方法的阳性结果是否有 差别。
0 .0 0 2 0 5 6
0 .0 0 0 0 7 1
本例|A-T|等于1.9655。
H 0: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 相 等 ; H 1: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 不 等 。 = 0 .0 5
计 算 大 于 等 于 现 有 差 别 的 所 有 组 合 的 概 率 P:
长期来,对理论频数太小有三种处理办法:
1、最好增加样本例数以增大理论频数; 2、删去上述理论频数太小的行或列; 3、将太小理论频数所在行或列的实际频数与性 质相近的邻行或邻列的频数合并,使重新计算 的理论频数增大。
一般认为,后两种方法可能会损失信息, 也会损害样本的随机性,故不作为常规方 法。
部位 左半球 右半球 合计 良性 1 3 ( 1 1 .0 3 4 5 ) 7 ( 8 .9 6 5 5 ) 20 恶性 3 ( 4 .9 6 5 5 ) 6 ( 4 .0 3 4 5 ) 9 合计 16 13 29 恶 性 肿 瘤 占 百 分 比 (% ) 1 8 .7 5 4 6 .1 5
每个格子的|A-T|均等于1.9655
X
n1
n2
双 侧 u 0 .0 1 = 2 .5 8 , u > u 0 .0 1 , P < 0 .0 1 , 故 按 = 0 .0 5 水 准 拒 绝 H 0 , 接 受 H 1, 差 异 有 统 计 学 意 义 , 可 认 为 工 艺 改 革前后车间空气中粉尘浓度有差别,改革后粉尘浓度降低。
第五讲 定性资料的统计分析
行×列ቤተ መጻሕፍቲ ባይዱ资料的 χ 检验
2
四格表资料卡方检验
进行比较, 一定是两组进行比较,实验结果是两个对 立的结果。 四格表资料表格
_____________________________________ + 合计 _____________________________________ a b a+b 第一组 c d c+d _____________________________ a+b b+d a+b+c+d 合计 ______________________________________ 第二组
A χ = n(Σ −1) nRnC
2
2
ν = (行数−1)(列数−1)
配对设计资料的两样本检验
配对设计是医学研究中常用的设计方法之一, 配对设计是医学研究中常用的设计方法之一, 配对研究常用于比较两种检验方法 二分类结果资料的配对研究常用于比较两种检验方法、 二分类结果资料的配对研究常用于比较两种检验方法、 两种培养方法、两种提取方法等的差别。 两种培养方法、两种提取方法等的差别。 配对四格表资料表格 甲种属性
用药史 曾服该药 未服该药 合计 不敏感 180 73 253 敏感 215 106 321 合计 395 179 574 耐药率( ) 耐药率(%) 45.57 40.78 44.08
Public health school, Xuzhou medical college
建立数据文件
Dose 表示服该药情况 1 2 Sensi 表示敏感情况 1 2 Weight 表示相应的频数 表示不敏感 表示敏感 表示曾服该药 表示未曾服该药
医学统计学定性资料的统计分析-χ2检验
29 41
48.28 39.02
H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2
计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20
. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。
卫生统计学-潘海燕 卫统5 定性资料的统计描述
相对比 乙 甲指 指(或 标 标 10% 0 )
定性资料
22
常用的相对比指标有三种 对比指标:指两个同类事物某种指标(绝对数、两个率或其他同
类指标)的比, 如:性别比=男性/女性 表示意义:男性是女性人数的多少倍? 关系指标:指两个有关的、但非同类事物的数量的比,如: 医
事物内部各部分所占的比重。常以百分数表 示。
构成比 同一 某事 一物 组各 成组 部 观 成 分 察 部 数 观 单 分 察 位 的 单 1总 0% 位 0数
定性资料
18
常用相对数及其应用
【例5-4】某地2019年与2000年5种传染病新发病例数如 表5-2。计算各种疾病病例数所占的比重。
表5-2 某地1990年与2019年5种传染病的新发病例数
11
1、率(rate)
报道:糖尿病严重影响个人生活质量,目前 全球慢性病死亡率排行中糖尿病已经跃居第 二,1979年我国成年人患病率为0.6%,1994 年增为2.5%,2019年剧增至3.2%,目前我 国已经有糖尿病患者3000多万人。
定性资料
12
常用相对数及其应用
1.率( Rate)
指某现象实际发生数与可能发生某现象总 数之比,说明某种现象发生的频率或强度, 又称频率指标。
护人员/病床数 表示意义:一个医护人员可以管几张病床?或者说一张病床
对应多少医护人员? 计划完成指标:说明计划完成的程度
实际完成数/计划完成数,施工队工程完成数?
定性资料
23
常用相对数及其应用
例 对某大学学生吸烟状况进行调查,结果显示 该校男性大学生吸烟率为35.12%,女性大学生 吸烟率为1.58%,则该校男女学生吸烟率之比为 35.12%:1.58%=22.23
定性数据统计分析概要课件
通过降维技术,将行变量与列变量在同一低维空间中表示,以便直观揭示行变量 与列变量间的结构关系。
应用场景
适用于有多个分类变量且变量间存在关联性的情况,如市场调研中的品牌与消费 者特征关系分析、生物学中的物种与环境因子关系分析等。
多维尺度分析原理及应用场景
多维尺度分析原理
通过保持原始数据点间的距离关系,在低维空间中重新排列 数据点,以便揭示数据的潜在结构。
适用于研究公众意见、消费行 为、市场需求等领域。
文本分析法
优点
能够深入挖掘文本中的信息,发现其中的 规律和趋势,同时可以进行大规模的分析。
定义
文本分析法是通过对研究对象产生 的文本进行分析,了解其观点、态 度、情感等,收集相关数据和信息
的方法。
A
B
C
D
应用场景
适用于研究社交媒体言论、新闻报道、广 告文案等领域。
相对频率
计算交叉表中各单元格的相对频率, 以百分比形式表示,便于比较。
卡方检验原理及应用场景
卡方检验原理
基于实际观测频数与期望频数之间的差异,判断两个定性变量是否独立。
应用场景
适用于分析两个定性变量之间的关系,如不同性别对某品牌产品的偏好程度。
04
定性数据探索性统计分析 方法
对应分析原理及应用场景
定义:定性数据也称为分类数据 或品质数据,是说明事物性质、 规定事物类别的非数值型数据, 表现为互不相容的类别或属性。
数据的取值是离散的,且一般无 顺序。
数据之间具有独立性,一个数据 的取值不影响另一个数据的取值。
定性数据统计分析意义
了解数据的分布特征
通过统计定性数据的频数分布,可以了解不同类别或属性数据的 分布情况,从而对数据有一个整体的把握。
定性资料的统计描述
1. 直接法
选择人口数作标准
P' NiPi N
选择人口构成比作标准
P'
Ni N
Pi
Ni:标准年龄别 人口数
Pi:实际年龄别 ××率
N:标准人口总数
23
选择治疗人数之和作标准
直接法计算标准化治愈率(%)
病型
(1) 普通型 重型 合计
标准治 疗人数 (Ni) (2)
400 400 800(N)
38
6.已知男性的钩虫感染率高于女性。欲比较甲、乙两乡居 民的钩虫总感染率,但甲乡人口女多于男,而乙乡男多 于女,适当的比较方法是( )。
A.分性别进行比较 B.两个率比较的2检验 C.不具可比性,不能比较 D.对性别进行标准化后再比较 E.作两个总率差别的假设检验
39
7.要比较甲乙两厂某工种工人某种职业病患病率的高低, 采取标准化法的原理是( )。
p' 427 100% 53.4% 47.5% 800
24
2. 间接法(以死亡率为例)
选择年龄别死亡率作标准
P' P r P SMR n i Pi
P: 标准总死亡率 ΣniPi: 预期总死亡数
r: 实际总死亡数
r/ΣniPi (SMR) :
ni: 实际组别人口数 标准化死亡比(Standard
n i Pi
(6)=(2)(5) 51 145 115 42 353
27
原发性骨质疏松症标准化患病比SPR
城市
实际患病人数 预期患病人数
322 305
1.05
农村
实际患病人数 预期患病人数
335 353
0.95
原发性骨质疏松症标准化患病率 p’
定性资料的统计分析
按=0.05 水准,不拒绝 H0,差异无统计学意义。故尚不能
认为大脑两半球恶性肿瘤所占比例有差别。
8
二、配对四格表的确切概率法
在配对四格表资料中,当b+c≤20时,因配对
31
Thanks!
32
5(c) 48(d)
165
74
合计
186 53 239
10
分析思路
则在B+C=31不变的前提下,b和c的所有可能取值 为(0,31),(1,30),(2,29),(3,28),……, (28,3),(29,2),(30,1),(31,0),共32
种组合。此时,b和c服从n=31,=0.5的二项分
3、样本观察单位不同,或在有重复试验中, 重复次数不同时,应先将观察单位化成相 同的小单位,先求出以小单位为观察单位 的平均计数后再计算u值:
u |X1-X2 | X1 X2 n1 n2
X1 X1 / n1 X 2 X 2 / n2 n1、n2分别为两样本的观察单位数。当n1=
n2时,该公式与式2完全等价。
确切概率法 两事件数的比较 卡方检验应用的注意事项
2
第九节 确切概率法
3
一、四格表的确切概率法
对于普通四格表资料,当n<40或出现至少
有一个T<1时,因2检验近似程度较差,易 导致分析的偏性,2检验不再适用,应当用
四格表的确切概率法。
四格表的确切概率法本身不属于2检验范畴, 只是作为四格表2检验应用上的补充。
9-定性资料的统计分析1
计算公式
(( p − p ) − u
1 2
α
× s p1 − p2 , ( p1 − p2 ) + uα × s p1 − p2
)
其中, s p1 − p2 为率之差值的标准误
s p1 − p2 = p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2
第三节 Poisson分布简介
常用二项分布(binomial distribution)来描 述其概率分布。
概率的乘法法则:
几个独立事件同时发生的概率,等于各 独立事件的概率之积。
概率的加法法则:
互不相容事件和的概率等于各事件的概 率之和。
例、设小白鼠接受某种毒物一定剂量时, 其死亡率为π=80%,则对于每只小白鼠而 言,其死亡概率为π=0.8,生存概率为1π=0.2。若每组各用三只小白鼠(分别计为 甲、乙、丙),对每只鼠独立做实验,故 各鼠的实验结果(生存或死亡)是互不影 响的。观察每组小白鼠存亡情况,如果计 算生与死的顺序,则共有8种排列方式;如 果只计生存与死亡的数目,则只有4种组合 方式。
0 k
2、最少有k例阳性的概率:
P( X ≥ k ) = ∑ P( X ) = P(k ) + P(k + 1) + ... + P(n) = 1 − P( X ≤ k − 1)
k n
n− X π P ( X + 1) = × P( X ) X +1 1− π
例1、据以往经验,用某药治疗小儿上呼吸道感染、 支气管炎,有效率为85%,今有5个患者用该药 治疗,问:① 至少3人有效的概率为多少?② 最 多1人有效的概率为多少? 本例π =0.85,1-π =0.15,n =5 ,依题意, ①至少3人有效的概率: P(X≥3)=P(3)+P(4)+P(5) =0.138178125+0.391504688+ 0.443705313=0.973388126 ②最多1人有效的概率为: 1 P(X≤1) = P(0) + P(1) = 0.155 + C5 × (0.15)5−1 × 0.85 = 0.00223
定性资料的统计描述
某地居民年龄别癌肿患病情况统计
年龄组 (岁) (1) <30 30~ 40~ 50~ 60~ 总计 人口数 (2)
633000 570000 374000 143000 30250
1750250
癌肿病 人数 (3) 19 171 486 574 242 1492
×100%
QIU Yu-lan 上海交通大学医学院 QIU Yu-lan 上海交通大学医学院
例:
QIU Yu-lan 上海交通大学医学院 QIU Yu-lan 上海交通大学医学院
例:白细胞计数和分类构成比 构成比的两个特点: ⑴ 各组成部分的相对数之和为 100%; ⑵ 某一部分所占比重增大,其它部 分会相应地减少。
实际工作中,可用某一期间的平均 人口数来代表人口总数。当人口数 在一年中是均匀变动时,可用以下 两种计算方法:
年平均人口数 = 上年12月31 日人口数 + 本年12月31 日人口数 2
QIU Yu-lan 上海交通大学医学院 QIU Yu-lan 上海交通大学医学院
年中(7月1日零时)人口数代表全 年的平均人口数。
QIU Yu-lan 上海交通大学医学院 QIU Yu-lan 上海交通大学医学院
国际统一规定的统计人口数方法: ① 实际制——只统计标准时刻某地 实际存在的人口数(包括临时在 该地的人) ② 法定制——只统计某地的常住人 口数。
QIU Yu-lan 上海交通大学医学院 QIU Yu-lan 上海交通大学医学院
三、人口死亡统计
死亡统计资料是反映社会卫生状况和居 民健康水平的重要基础资料,也是制订 卫生工作计划、评价卫生服务效果的重 要依据。通过描述和分析不同地区、不 同人群(包括不同性别、不同年龄、不 同职业者)的死亡水平和各种死亡原因 的动态变化,反映社会经济、文化教 育、卫生服务对于居民健康的影响。
医学统计学定性资料的统计描述
卡方检验在医学领域应用
疾病与基因型关联分析
01
通过比较不同基因型在疾病组和对照组中的分布差异,判断基
因型与疾病是否有关联。
临床试验效果评价
02
比较不同治疗方法在患者中的疗效差异,如药物疗效、手术效
果等。
医学影像学诊断准确性评估
03
通过比较影像学诊断结果与金标准诊断结果的一致性,评估影
像学诊断方法的准确性。
非数值性
定性资料不以数值形式表示,而是用 文字、符号等描述。
类别性
定性资料通常按照不同的类别或属性 进行分类。
主观性
定性资料的收集和分析往往涉及主观 判断和解释。
常见定性资料类型
分类资料
按照某种特征或属性将数据分成不同的组别,如性别、 血型等。
顺序资料
除了分类外,还具有一定程度的顺序或等级关系,如 病情严重程度、治疗效果评价等。
数分布表。
图表展示技巧与规范
选择合适的图表类型
根据数据的性质和特点,选择合适的图表类 型,如直方图、条形图等。
数据点标识
在图表中标识出重要的数据点,如最大值、 最小值、平均值等。
图表标题和坐标轴标签
为图表添加标题和坐标轴标签,以便读者理 解图表内容。
图例和颜色使用
使用图例说明不同数据系列的含义,并合理 运用颜色以增强图表的可读性。
整性。
02
Fisher确切概率法计算
根据研究目的和假设,选择合适的统计软件或编程语言实现Fisher确切
概率法的计算过程。
03
结果解读与报告
对计算结果进行解读和分析,将结果以图表或文字形式呈现,并结合专
业知识对结果进行解释和讨论。同时,需要注意结果的可靠性和可重复
定性资料的统计描述
K:比例基数 选择K的原则:使算得的率至少保留 使算得的率至少保留1—2位整数。 位整数。 使算得的率至少保留 位整数
强度型指标:指一段时间内的平均概率。 (二)强度型指标:指一段时间内的平均概率 多用于大人群、长时间随访的资料。强度是单 单 位时间段内某现象发生的频率。 位时间段内
某事件发生的个体数 强度型指标= ×K ) 数 ∑(可能发生某事件的个体 ×时间
三、标准化法的注意事项 1. 注意标准化法的适用条件 1)欲比较的两个人群内部的年龄分布不同。 )欲比较的两个人群内部的年龄分布不同。 2)每个人群内部年龄别死亡率也各不相同, )每个人群内部年龄别死亡率也各不相同, 但前提条件是总率的比较。 但前提条件是总率的比较。 2. 标化后的标准化率已不再反映当地的实际 水平,只表示相互比较的几组资料间的相对水平。 水平,只表示相互比较的几组资料间的相对水平。 相对水平
K:比例基数 选择K的原则:使算得的率至少保留 使算得的率至少保留1—2位整数。 位整数。 使算得的率至少保留 位整数
例如 1个人患病10天,为 10个人日,10个人患病1 天也为10个人日。 例3-3 在某医院的院内感染调查中, 在某医院的院内感染调查中,5031个 个
病人共观察了127859人日(例均25.4日),其中 人日(例均 病人共观察了 人日 日),其中 人在医院发生感染, 有596人在医院发生感染,则 人在医院发生感染 院内感染率=596/127859=0.0047人/人日 人 人日 院内感染率 意味着平均每天有0.47%的病人将在医院获得感染。 的病人将在医院获得感染。 意味着平均每天有 的病人将在医院获得感染
注:在进行标准化率的计算时,标准组指标用大写 在进行标准化率的计算时, 字母表示,被标化组指标用小写字母表示。 字母表示,被标化组指标用小写字母表示。
定性资料的统计分析
A T 2
检验的自由度取决于可以自由取值的格子数目, 而不是样本含量n。四格表资料只有两行两列,ν =1, 即在周边合计数固定的情况下,4个基本数据当中只 有一个可以自由取值。
2 分布图形
0.5 0.4 0.3 0.2 0.1 0 0 2 4 6
1
f ( )
2
6
10
可通过 检验的基本公式来理解。
2
卡方分布: 若k个随机变量,z1,z2,…zk,相互独立且服从标
准正态分布,则随机变量x=z12+z22+…+zK2被称 为服从自由度为k的卡方分布,记作: x 2 (k )
2
( AT ) , (行数-1)(列数 1) T
2
H1:π1≠π2 即试验组与对照组降低颅内压的总体有效率不相等
α =0.05。
(2)求检验统计量值
T11 104 174/ 200 90.48 ,T12 104 90.48 13.52
T21 174 90.48 83.52 ,T22 26 13.52 12.48 。
表7-2 两组降低颅内压有效率的比较
组 别 试验组 对照组 合 计 有 效 99(90.48) a 75(83.52) c 174(a+c) 无 效 5(13.52) b 21(12.48) d 26(b+d) 合 计 104 (a+ b) 96 (c+d) 200 (n) 有效率(%) 95.20 78.13 87.00
( b c 1) 2 bc
, =1
本例检验步骤如下:
(1)建立检验假设
H0:总体B=C,即两种方法肝癌检出率相同
卫生统计学定性资料统计描述
45
第三节
动态数列及其应用
46
• 动态数列(dynamic series)是一系列按时间 顺序排列起来的统计指标,用以说明事物 在时间上的变化和发展趋势 • 常用动态数列分析指标有绝对增长量、发 展速度与增长速度、平均发展速度与平间的比较要具备可比性
– 注意观察对象是否同质,研究方法是否 相同,观察时间是否一致
– 在被比较的总体之间与研究指标有关的
其他因素是否一致或接近
36
【例】为研究某新补钙制剂的临床效果,观
察了200例儿童,其中100名用该新药,发
现有12人患佝偻病;另100名用钙片,发现
有20人患佝偻病。能否认为该新药比钙片
的临床效果好?为什么?
37
• 样本率或构成比比较时应作假设检验 由于样本率或构成比存在抽样误差,因此 不能根据样本率或构成比的差别作结论
38
应用相对数注意的事项
• 计算相对数分母不宜过小
• 不能以构成比代替率,不能以构成比的动态分
析代替率的动态分析
• 计算合计率时,不能简单地相加求平均
16.49
9.56 12.20 12.36 100.00
1143
542 767 875 5359
21.33
10.11 14.31 16.33 100.00
19
三、相对比
• 相对比是两个有关的指标之比,用以 描述两者的对比水平
A 相对比 B
– A与B可以是绝对数,也可是相对数
– A与B可以性质相同,也可不同
况较为严重? 甲村的钩虫感染率
110 100% 9.17% 1200
2.2定性资料的统计描述
3. 复合指标—相对比(ratio)
概念:是两个有关联的变量A与B之比,它 表示相对于B的一个(或十个、百个、千 个等)单位,A有多少个单位。表现为A是 B的若干倍或几分之几。
相对比 A B
• A和B可以是绝对数、平均数,也可以是相对数 • A和B的量纲可以相同,也可以不同 • A和B彼此分离,互不重叠或包含
1959 4.90
1991 5.99 1998 7.43
1964 3.54
1992 6.09 1999 7.63
1975 4.80
1993 6.15 2000 6.96
1978 4.80
1994 6.23
--
1982 4.91
1995 6.70
--
注:1982、1990、2000 年的数据是根据 1982 年、1990 年、2000 人口普查数据, 其余年份数据为人口变动情况抽样调查推算数
死亡疾病类别 死亡人数 百分比(%)
恶性肿瘤
50
33.33
呼吸系统疾病 30
20.00
消化系统疾病 20
13.33
循环系统疾病 40
26.67
传染病
10
6.67
合计
150
100.00
例:调查得,某年小学生中流脑发病: 甲地区63例,乙地区35例。
甲地区流脑流行比乙地区严重()
如已知小学生总人数:甲地区50051人,乙地 区14338人,可计算两个地区的流脑发病率: 甲地区:63/50051×1000‰= 1.26‰ 乙地区:35/14338×1000‰= 2.44‰
P1
x1 n1
, P2
x2 n2
,
P3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简介定性资料的统计分析:定性资料的统计分析第十二章简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。
§12.1定性变量数量化前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。
若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。
如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。
数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。
例如定性变量是性别,记为X,如此赋值:当性别为女⎧1,当性别为男⎧1,X=⎨或X=⎨⎩0,当性别为女⎩0,当性别为男如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。
例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:当天气晴⎧(0,0),⎪(X1,X2)=⎨(1,0),当天气阴⎪(0,1),当天气雨⎩例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1,X2,X3,X4)来表示,如此赋值:甲类地区⎧(0,0,0,0),⎪乙类地区⎪(1,0,0,0),⎪(X1,X2,X3,X4)=⎨(0,1,0,0),丙类地区⎪(0,0,1,0),丁类地区⎪⎪戊类地区⎩(0,0,0,1),综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:⎧(0,0,0,,0),第一类⎪第二类⎪(1,0,0,,0),⎪第三类⎪(0,1,0,,0),(X1,X2,,Xk-1)=⎨第四类⎪(0,0,1,,0),⎪⎪⎪第K类⎩(0,0,0,,1),以上K个类的次序可以交换。
对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:⎧(0,0,0,0),取甲类⎪取乙类⎪(1,0,0,0),(X1,X2,X3,X4)=⎨取丙类⎪(0,1,0,0),⎪(0,0,1,0),取丁类⎩易知,如此赋值将使X1+X2+X3+X4=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。
定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。
§12.2列联表主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。
1列联表的概念列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。
先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B 表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下:研讨患肺癌是否与吸烟有关?这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A 分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的(AiBj)取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。
一般2×2列联表形式如下:其中nij(i,j=1,2)表示第i行Ai和第j列Bj的样品出现的频数,一般nij可取任意非负整数。
这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为r⨯c 表(r和c可以不等)有如下形式:如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。
在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。
如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。
2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验:H0:pij=pi.p.j其中pij表示A为i、B为j的样品概率,pi.和p.j是相应的边缘概率,当独立性成立时,理论频数为:npij=npi.p.j其中n=22∑∑ni=1j=1ij实际频数为:nij运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。
用估计量nnˆ.j=.j代替pi.和p.j。
基实际频数与理论频数有差异,这时可用其差值的大小ˆi.=i.,ppnn来度量两个变量相关程度。
相差愈大,表明H0为真的可能性愈小,即A与B无关的可能性愈小。
相反差值愈小,即二愈接近,H0为真的可能性愈大,A与B之间相关的可能性愈小。
为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给2出皮尔逊的拟合优度x统计量为:2x=2∑∑i=1=∑∑i=12⎛nn⎫nij-ni.j.⎪2nn⎪⎝⎭nn.jj=1ni.nn2nn-nn2iji..jnnni..jj=12()它的极限分布是自由度为1的x2分布,根据给定的显著性水平a,查x2分布表得到临界值λa。
若x2≥λa则拒绝H0,表示A与B之间不独立,存在相关,若x2H0,表明A与B之间独立,不存在相关。
将前面的例子作x2检验:计算(106⨯60-63⨯92)2(106⨯32-43⨯92)2x=+106⨯63⨯92106⨯43⨯92(106⨯3-63⨯14)2(106⨯11-43⨯14)2++106⨯63⨯14106⨯43⨯14(6360-5796)2(3392-3956)2=+[1**********]6(318-882)2(1166-602)2++9349263812=0.75857+0.5775+4.98489+3.40239=9.663602取显著性水平a=0.05,自由度为1,查x2分布表,临界值λa=3.84。
显然x2=9.663603.84,表明在5%的显著性水平上,拒绝H0即说明吸烟与肺癌不独立,而是存在相关的。
如果列联表中变量间存在相关,那么如何度量变量间的相关程度?又如何从一个变量去预测另一变量呢?解决这类总是还有很多方法,已超出本书范围,不再详述,有兴趣的读者可查阅这方面的参考书。
§12.3对数线性模型如前所述,列联表能够反映定性变量之间的关系,但能否像定量变量那样建立起数学模型如方差分析模型、回归分析模型等以便进一步描述定性变量之间的复杂关系呢?对数线性模型和Logistic回归模型就是解决这一问题的极为有效的方法,它们从不同角度出发导出不同的处理方法。
对数线性模型,近十年来是国外实际工作者常用的方法,它的主要优点是可以把方差分析和线性模型的一些方法系数地移植过来,在概念和理解上均可进行对比,对数线性模型能够估计模型中各个参数,而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。
下面即将看到这些结论。
1模型对数线性模型又分为很多种类型,常用的模型有:饱和模型(当变量间相互不独立时),非饱和型(变量间相互独立),谱系模型(包含高阶效应)等。
下面从2×2的频数表与概率表出发,推导对数线性模型:(频数表)(概率表)将概率取对数后进行分解处理,使处理后的变量有较好的数学、统计的性质。
⎛pij⎫⎪μij=lnpij=lnpi.p.jpi.p.j⎪⎝⎭pij=lnpi.+lnp.j+lnpi.p.j记Ai=lnpi.,Bj=lnp.j,(AB)ij=ln由上式可写成pijpi.p.jμij=Ai+Bj+(AB)iji,j=1.2显然上式的结构类似于两因子有交互作用,各因子均为二水平的方差分析模型,于是令μi.=∑μij,μ.j=∑μij,μ=∑∑μijj=1i=1i=1j=12222然后再进行平均,对i,j=1,2i.=μi.,.j=μ.j..=μ..记121212αi=μi.-μ..βj=j.-..λij=μij-i.-.j+..则有关系式:⎧⎪⎪μij=..+αi+βj+λij⎪22⎪i,j=1,2⎨且αi=0,βj=0,j=1⎪i=1⎪22⎪λ=λ=0⎪i=1ijj=1ij⎩可见通过上边分解处理,可以完全化成与方差分析模型有同样的结构,因此借助于方差分析的术语,上式中μ..表示“总平均效益”,αi表示A属性的“主效应”,βj表示B属性∑∑的“主效应”,λij表示,A,B的“交互作用效应”,直观可以理解当交互作用效应为0,即等价于A、B独立。
上式模型称为对数线性模型的饱和模型,当λij=0时,称为非饱和模型。
n.jni.ˆp=,.j,这时就可以看nnn到对数线性模型是将列联表上每个单元的频数作为因变量,表上所有变量作为自变量,建立各个自变量的效应与每个单元频数的对应之间的函数关系。
因而可以用它分析列联表上的各个变量的关系。
主效应αi或βj若大于0,表明效应为正;若小于0,表明效应为负。
αi 是ˆij=在实际应用时概率可用其估计量代替,即pˆi.=,p第一个变量的第i个水平对总平均效应μ..的增减量;βj是第二个变量的第j个水平对总平均效应μ..的增减量,λij代表变量1和变量2在各自的第i个水平和第j个水平之间交互作用效应,是其交互作用对总平均效应的增减量。
若λijnij1i.=2∑1μij=2j=1n∑j=12(lnnijn)…第i行频数对数的平均1μ.j=∑1μij=2i=1nn∑i=12(lnnijn)…第j列频数对数的平均11μ..=μ..=44∑∑i=11μij=4j=12∑∑(lnij22nijn)…各个观测值对数的总平均即总平均效应对本章前面的例子,按上述模型估计各效应参数。
各单元的频数对数表:计算:α1=1.-..=2.5964-2.5141=0.0823α2=2.-..=2.4318-2.5141=-0.0823β1=.1-..=3.2800-2.5141=0.7659β2=.2-..=1.7482-2.5141=-0.7659主效应估计值:计算:λ12=μ12-1.-.2+..=1.0986-2.5964-1.7482+2.5141=3.6127-4.3426=-0.7319λ21=μ21-μ2.-μ.1+μ..=2.4657-2.4318-3.2800+2.5141=4.9798-5.7188=-0.7320λ11=μ11-1.-.1+..=4.0943-2.5964-3.2800+2.5141=6.6083-0.8319=0.8319λ22=μ22-2.-.2+..=2.3979-2.4318-1.7482+2.5141=4.9120.1800=0.7320变量间交互作用效应估计值:λ11=0.8319λ12=-0.7399λ22=0.7320λ21=-0.7317主效应大于0,表明效应为正,如α1=0.08320是因为患肺癌比未患肺癌的人多;主效应小于0,表明效应为负,如β2=-0.76599§12.4Logistic回归对数线性模型是将列联表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic回归模型是将概率比取对数后,再时行参数化而获得的。