分类资料的统计分析(doc 24页)

合集下载

分类变量资料的统计分析

56.01 30.22
14.51 32.26
卫生学（第7版） · 第十章分类变量资料的统计分析
18
间接法
适用情况：已知被标化组的死亡总数及年龄别人口数，但不知道各年龄组的实际死亡率。
P P r Ni Pi
标准化死亡比
卫生学（第7版） · 第十章分类变量资料的统计分析
19
标准化死亡比：被标化组实际死亡数与预期死亡
卫生学（第7版） · 第十章分类变量资料的统计分析
15
直接法
适用情况：已知被标化组各年龄组的实际率Pi，
用标准人口数或标准人口构成进行计算。
p'
N i pi Ni
或p'
Ci pi
其中 Ni 为第i 组标准人口数， Ni 为标准组总人数， pi 为第i 组的实际率，Ci 为第组标准人口构成。
4
相对数
• 相对数：是两个有关联的数值或指标之比。 • 常用的相对数有：
–率 –构成比 –相对比
卫生学（第7版） · 第十章分类变量资料的统计分析
5
率(rate)
率：是指在一定观察时间内，某现象实际发生数与
可能发生该现象的总数之比，用以说明某现象发生
的频率或强度。
率

实际发生某现象的观察单位数可能发生该现象的观察单位总数
图10-1 率的抽样分布图
卫生学（第7版） · 第十章分类变量资料的统计分析
27
率的抽样分布特征
1.为离散型分布；
2.当π =1-π时，呈对称分布； 3.当n增大时，逐渐逼近正态分布。
一般认为，当nπ和n(1-π)≥5时, 可近似看
作正态分布。
卫生学（第7版） · 第十章分类变量资料的统计分析

第11章-分类资料的统计分析

第十一章分类资料的统计分析
公共卫生学院
2013-6-14
1
第一节分类资料的统计描述
分类资料的频数分布表
常用相对数
2013-6-14
2
相对数的意义
例：农村蛲虫感染情况调查
甲地蛲虫感染156人,乙地蛲虫感染101人甲地调查244人,乙地调查158人甲地蛲虫感染率＝156/244×100％＝63.9％乙地蛲虫感染率＝101/158×100％＝63.9％甲、乙两地都用100做基数, 便于进一步分析比较。从计算结果来看，甲乙两地蛲虫感染的严重程度都是一样的。
构成比(%)
2013-6-14
A 100% A B C
9
构成比的特点
构成比有两个主要特点：
各部分构成比的合计等于100%或1,若由于四舍五入造成合计不等于100%时，应再进行调整,使其等于100%。
事物内部某一部分的构成比发生变化，其它部分的构成比也相应地发生变化。
构成比（constituent rate）
定义：表示事物内部某一构成成分在全部构成中所
占的比例或比重。常以100为比例基数，故又称为百分比（percentage）。用途：常用来表示疾病或死亡的顺位、位次或所占比重。计算公式：
事物内部某一部分的个体数构成比(%) 100% 事物内部各构成部分的个体数总和
标准化的基本思想：采用统一的“标准人口构成”，以消除人口
构成不同对各组总率的影响,使算得的标准化率具有可比性。
2013-6-14 20
选择标准的方法
选一个具有代表性的、内部构成相对稳定的
较大人群作为标准
将要比较的两组资料内部各相应小组的观察

分类资料的统计分析

分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。

常见的分类资料有性别（男、女）、学历（小学、初中、高中、大学）、职业（医生、教师、律师等）。

分类资料中每个分类称为一类或一组，根据组别统计频数或百分比可以揭示不同分类间的差异和关系。

二、方法1.频数与频率分析：通过统计每个类别的个数，得到各类别的频数和频率（频次比），并绘制柱状图、饼图等图表，直观地展示不同类别的占比情况。

2.极差分析：对于有序分类资料，比如学历，可以计算最高和最低值的差距，该差距称为极差。

极差分析衡量了不同类别之间的距离，有助于比较不同类别在一些变量上的差异。

3.交叉分析：用于分析两个或多个分类资料之间的关系。

通过交叉表格（列联表）和卡方检验，可以计算出各类别之间的关联度，判断不同分类是否相互关联。

4.分类资料的描述性统计分析：主要包括计算百分比、计算平均数、计算方差等统计指标。

通过这些指标，可以对不同类别的分布情况进行综合分析。

三、实践应用1.人口统计学：年龄、性别、婚姻状况等是人口统计学中常见的分类资料。

通过对这些资料的统计分析，可以了解人口结构、人口变动趋势等，为制定人口政策提供参考。

2.市场调研：对于市场调研中收集到的消费者分类资料，可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为，帮助企业制定更加精准的销售策略。

3.教育评估：对学生的学历、家庭背景等进行统计分析，可以了解学生群体的整体素质水平、教育资源配置情况等，为教育政策制定和学校招生计划提供依据。

4.健康管理：对医疗数据中患者的病种、治疗效果等分类资料进行统计分析，可以评估不同病种的流行趋势、治疗效果、药物副作用等，为医疗决策提供参考。

总之，分类资料的统计分析是统计学中的重要内容，通过对分类资料的频数、频率、交叉分析等方法进行利用，可以揭示分类之间的差异、关系和趋势，为各个领域的决策者和研究者提供参考依据。

分类资料统计分析

类型标准甲医院乙医院病人构成原治愈率分配治愈率原治愈率分配治愈率
普通型
重型爆发型合计
0.4
0.4 0.2 1.0
60.040 Biblioteka 0 20 .0 —24.0
16.0 4.0 44.0
65.0
45.0 25.0 —
26.0
18.0 5.0 49.0
注意：★标准化率不能反映率的实际水平，只能表明相互比较资料间的相对水平。 ★选定的标准构成不同，所得标化率也不同，因此仅限于采用共同标准构成的组间比较。
合计 56（a+c） 283（b+d）339（n） 16.5
四格表资料的x2检验
四格表资料：实际数：A 理论数： T T的计算公式：
TRC
nR nC n
吸烟者与不吸烟者慢性支气管炎患病率比较
分组患病人数未患人数
合计患病率（%）
吸烟者 43（33.86）162（171.14）205 21.0
45.0 25.0 45.0
标准化率的计算
①选定标准：标准组应根据研究目的选择有代表性的、稳定的、数量较大的人群一般可将相互比较的两组合并作为标准 ②计算 ∑Nipi 已知标准组年龄别人口数时：P’= N 已知标准组年龄别人口构成比时： ③比较得出结论
P’=∑（ Ni N ）pi
表7-14某市甲、乙两医院某传染病标准化治愈率
1.计算相对数时分母不宜过小 2.分析时不能以构成比代替率 3.观察单位不等的几个率，不能直接相加求其总率 4.比较相对数时应注意资料的可比性 5.对样本率的比较应随机抽样，并作假设检验
表7-11某地各年龄组妇女宫颈癌患病情况统计
年龄（岁）检查人数 <30 100000 患者数 3 患者构成比（%）患病率(1/万) 1.2 0.3

分类资料统计分析

吸烟者 43（a） 162（b） 205（a+b） 21.0 不吸者 13（c） 121（d） 134（c+d） 9.7 合计 56（a+c） 283（b+d）339（n） 16.5
四格表资料的x2检验
100000
3
1.2
0.3
30~
96667
29
11.2
3.0
40~
63000
82
31.8
13.0
50~
24000
96
37.2
40.0
60 ~

6000
58
18.6
80.0
合计
289667 258
100.0
8.9
率的标准化
标准化法：为了消除相比较组间因构成不同对所比较指标的影响，采用统一的标准构成，使相比较的各组在相同构成条件下进行比较。
相对数的概念
相对数（relative number）：是描述分类变量资料的统计指标用于分析比较
绝对数（absolute number）：分类变量资料整理后所得到的数据表示绝对水平
常用的相对数
1.率（rate）又称频率指标或强度指标，说明某现象发生的频率或强度。常以百分率（%）、千分率（‰）、万分率（1⁄万）、十万分率（1⁄10 万）等表示
500 225 45.0
标准化率的计算
①选定标准：
标准组应根据研究目的选择有代表性的、稳定的、数量较大的人群
一般可将相互比较的两组合并作为标准
②计算已知标准组年龄别人口数时： P’
∑Nipi
已知标准组年龄别人口构成比时= ： N
③比较得出结论
Ni
P’=∑ （

4统计-4分类资料统计分析

47
例某地随机抽取500名儿童，乙肝感染率为4.50%，估计该地儿童乙肝感染率的95%可信区间？
（p-usp，p+ usp） =（0.045-1.96×0.0093，
0.045+1.96×0.0093)=(2.68%，6.32% )
该地儿童95%乙肝患病率置信区间为（2.68%，
6.32%）。
5
第一节分类变量资料的统计描述
6
常用的相对数
比例率比
相对数应用的注意事项
率的标准化
7
计数资料
用定性的方法得到的资料称作分类变量资料
按某种属性分类，然后清点每类的数据
住院号年龄职业文化程度分娩方式妊娠结局
2025655
2025653 2025830 2025677 2025647 2025848 2019915
19
3、比（ratio）
定义：也称相对比，指两个有联系的指标之比，
常以百分数或倍数表示。计算公式：
甲指标相对比 (100%) 乙指标
两个指标可以性质相同，也可以性质不相同；可以是相对数、绝对数或平均数等。
20
21
4、动态数列（dynamic series）
概念：指一系列按时间顺序排列起来的统计指标(包括绝对数、相对数和平均数)，用以说明事物在时间上的变化和发展趋势。常用指标：有绝对增长量、发展速度和增
两样本率的比较除可用u检验，还可
采用2检验，且ν=1时，u2= 2 。
59
三、 2检验
60
用途：
推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率比较的分割

两个分类变量之间有无关联性

7有序分类资料的统计分析

两组等级资料的统计分析
Stata实现
tabi 17 70\25 13\27 37 expand pop
kwallis row,by(col) ranksum row,by(col)
成组等级秩和检验方法
H0:两组疗效的总体分布相同 H1:两组疗效的总体分布不相同 =0.05 7663 69 （189＋） 1 /2 ＝3.308 统计量 u＝ 69 120 （189＋1） 975330 （1－ 3 ） 12 189 －189
镇静等级 ± + ++ +++
人参组 4 1 2 1 12
对照组 11 0 1 0 0
讨论
3
例用A、B两种方法检查已确诊的乳腺癌患者140名，A法检出91名 (65%)，B法检出77名(55%)，A、B两法一致的检出56名(40%)，问哪种方法阳性检出率更高？
A法＋－合计 B法＋ 56 (a) 21 (c) 77 － 35 (b) 28 (d) 63 合计 91 49 140
n1n2 ( N 1) 12
当Ｈ0为真时服从N(0,1) ，即源自|u|>1.96，则拒绝Ｈ0。
两组等级资料的统计分析
表 10-3 两组药物治疗高甘油三酯血症的疗效疗效 (1) 无效有效显效合计人数按摩乐口山楂精降服液脂片 (2) (3) 17 25 27 69 70 13 37 120 合计 (4) 87 38 64 189 秩和秩次范围平均秩次按摩乐口山楂精降服液脂片 (5) (6) (7) (8) 1-87 88-125 126-189 44 106.5 157.5 748 2662.5 4252.5 7663 3080 1384.5 5827.5 10292

实习二分类资料的统计分析(教师参考.doc

实习二分类资料的统计分析
一．目的要求：
1、掌握率、构成比、相对比的概念及计算，应用注意事项；
2、掌握率的标准误、总体率可信区间估计方法；
3、熟悉率的u检验的适用条件和方法
4、掌握x2检验的基本思想，四格表资料、配对资料以及行列表资料x2检验的公式和应用条
件。

二．重点与难点：
1、率、构成比、相对比的概念，应用注意事项；
2、正态近似法估计总体率的可信区间的公式与应用条件；
3、四格表资料、配对资料以及行列表资料x2检验的用途、计算公式和应用条件。

三．练习题：
上交作业：10-7，
课外练习（不上交）：9-1，9-2，9-3，9-8
1。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十章分类资料的统计分析A型选择题1、下列指标不属于相对数的是（）A、率B、构成比C、相对比D、百分位数E、比2、表示某现象发生的频率或强度用A 构成比B 观察单位C 相对比D 率E 百分比3、下列哪种说法是错误的（）A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数B、分析大样本数据时可以构在比代替率C、应分别将分子和分母合计求合计率或平均率D、相对数的比较应注意其可比性E、样本率或构成比的比较应作假设检验4、以下哪项指标不属于相对数指标( )A．出生率B．某病发病率C．某病潜伏期的百分位数D．死因构成比E．女婴与男婴的性别比5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ).A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数E.年均人口数6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论E.以上均不对7、某地区某重疾病在某年的发病人数为0α，以后历年为1α,2α,…，n α，则该疾病发病人数的年平均增长速度为（）。

A.1...10+++n n αααB. 110+⨯⨯n n αααC.n n 0αα D.n n 0αα -1E.10-a a n8、按目前实际应用的计算公式，婴儿死亡率属于（）。

A. 相对比（比，ratio ） B. 构成比（比例，proportion ） C. 标准化率（standardized rate ） D. 率（rate ） E 、以上都不对9、某年某地乙肝发病人数占同年传染病人数的9．8%，这种指标是 A ．集中趋势 B ．时点患病率 C ．发病率 D ．构成比 E ．相对比 10、构成比：A.反映事物发生的强度B 、反映了某一事物内部各部分与全部构成的比重C 、既反映A 也反映BD 、表示两个同类指标的比E 、表示某一事物在时间顺序上的排列11、构成比之重要特点是各组成部分的百分比总和：A.必大于1B、必小于1C、必等于1D、随着资料的变化而变化E、随着各构成部分大小改变而变12、某日门诊各科的疾病分类统计资料，可以作为：A.计算死亡率的基础B、计算发病率的基础C、计算构成比的基础D、计算相对比基础13、计算率的平均值时：A.将各个率直接相加来求平均值B、以总的绝对数值为依据求平均值C、先标化，再按A法计算D、按求中位数的方法求平均值E、以上都不对14、分类资料的统计描述常用的指标是A．平均数B．标准化死亡率比C．变异系数D．相对数E．动态数列分析指标15、.动态数列分析中的定基比和环基比属于A．相对比B．率C．构成比D．平均数E．频数16、某地1971-1995年床位发展情况列于下表。

1971年与1975年比较，累计增长量为年份年份1971 14001972 21001973 22001974 23001975 2500A．(2500-1400)/1400B．2500/1400-1C．2500-1400D．(2500/1400)×100E． 2500/140017、甲地恶性肿瘤死亡率比乙地高，标化后甲地恶性肿瘤死亡率比乙地低，其原因可能是（）A．甲地的老年人的比例比乙地高B．甲地的老年人的比例比乙地低C．甲地的青年人的比例比乙地高D．甲地的诊断水平比乙地低E．甲地的诊断水平比乙地高18、甲丙两地计算标准化肺癌死亡率后作比较，可以消除（）A、不同年龄组肺癌死亡率差别的影响B、抽样误差C、总人数不同的影响D、性别、年龄构成不同的影响E、以上都不是19、标准化后的总死亡率（）A.仅仅作为比较的基础，它反映了一种相对水平B、它反映了实际水平C、它不随标准的选择变化而变化D、它可以作为任意两组资料比较的依据E、以上都不是20、在两地某病患病率的比较中，为消除年龄构成不同的影响，作直接法标准化的要求是-------A、两地人口年龄构成相仿B、要有标准的年龄别该病的患病率C、要有两地人口的年龄别该病的患病率D、要求两地人口数相仿E、以上都不对21、率的标准化法的主要目的是（）A.消除内部构成的差异，使率具有更好的可比性B、把率变成实际水平C、使大的率变小，小的率变大D、使率能够在任意两组资料中对比E、以上都不是22、欲比较两地死亡率，计算标准化率可以（）.A.消除两地总人口数不同的影响B.消除两地各年龄组死亡人数不同的影响C、消除两地各年龄组人口数不同的影响D、消除两地抽样误差不同的影响E、以上都不是23、经调查得知甲乙两地的冠心病粗死亡率为40/10万，按年龄构成标准化后，甲地冠心病标化死亡率为45/10万；乙地为38/10万，因此可以认为（）。

A、甲地年龄别人口构成较乙地年轻B.乙地年龄别人口构成较甲地年轻C、甲地冠心病的诊断较乙地准确D.甲地年轻人患冠心病较乙地多E、以上都不是24、为了研究粪管措施的效果，拟比较已经实行无害化处理的甲乡和尚未实行的乙乡的居民钩虫感染率，已知男性的钩虫感染率高于女性，甲乡人口女多于男，而乙乡男多于女，其正确比较的方法是（）A、两个率比较的u检验B、两个率比较的2检验C.不具可比性，不能比较D、对性别进行标准化后在做比较E、可以直接进行比较25、根据下述资料，则病情甲疗法乙疗法病人数治愈数治愈率（%）病人数治愈数治愈率（%）轻型40 36 90 60 53 88.33 重型60 42 70 40 27 67.50合计 100 78 78 100 80 80A. 乙疗法优于甲疗法B. 甲疗法优于乙疗法C. 甲疗法与乙疗法疗效相等D. 此资料应先求标化率再做假设检验E 、甲疗法与乙疗法疗效不相等 26、下列哪一项说法是正确的（）A 、若要比较各个年龄组的死亡率，则该做标准化B 、只有当要比较总体死亡情况，而且希望归因为人口分布不同之外的其他因素时，标准化才有意义C 、虽然人口分布不同，但各个年龄组的死亡率相同或相差不大时，没有必要做标准化D 、不同比较组的人口分布不同，各年龄的死亡率也不同，但有明显的交叉，此时不宜做标准化E 、以上都不对十章二节分类资料统计推断27、关于样本率p 的分布正确的说法是（）．A.当n 足够大，且p 和1-p 均不太小，p 的抽样分布逼近正态分布B.服从正态分布C.服从负偏态分布D.服从t 分布E.服从2χ分布28、率的标准误的计算公式是（）。

A.)p 1(p - B.n )p 1(p - C 、1n p - D 、n)p 1(p -E 、1n p - 29、某医生随机抽取100名儿童，检查粪便蛔虫卵阳性情况，得阳性率为20％，则此阳性率的标准误Sp 为 A ．4.0％B．0.4％C．0.04％D．1.6％E．0.2％30、关于率的标准误，正确的是（）A．反映由抽样造成的样本率和总体率间的差异B．反映的是有无抽样误差C．由率的方差除以根号n计算得到D．反映二项分类事件的的离散指标E．以上都不对31、我国人群HBSAg阳性率平均为10％，某地随机抽查150人，其中HBSAg阳性30人。

问该地HBSAg阳性率是否高于我国平均阳性率？应当选用下列何种假设检验方法？A．配对χ2检验B．成组χ2检验C．样本率与总体率比较的的Z检验D．样本平均数与总体平均数比较的的Z检验.E. 方差分析32、.我国人群HBSAg阳性率平均为10％。

为研究某地的HBSAg阳性率是否高于我国平均阳性率，随机抽查了100人，其中 HBSAg阳性20人。

若检验结果P<0.05，作何结论，两样本率相等A．接受HB．拒绝H，两样本率不等，两总体率不等C．接受HD．接受H，样本率与总体率相等，两总体率不等E．拒绝H33、以下说法正确的是（）。

A、两样本率比较可用u检验B.两样本率比较可用t检验χC、两样本率比较时，有u=2χD.两样本率比较时，有t2=2E、两样本率比较可用方差分析34、两个样本率差别的假设检验，其目的是( )A．推断两个样本率有无差别B ．推断两个总体率有无差别C ．推断两个样本率与两个总体率有无差别D ．推断样本率与总体率有无差别E ．推断两个总体分布是否相同35、反映观察频数与理论差距的最好指标是（） A 、∑（A －T ）2B 、()TT A 2-C 、T TA - D 、()∑-TT A 2E 、∑（A －T ）36、若2,05.02n x x '≥则（） A 、P ≥0．05 B 、P ≤0．05 C 、P ＜0．05 D 、P ＝0．05 E 、P ＞0．0537、x 2值的分布形状取于（） A 、自由度n ' B 、样本含量n C 、理论值TD 、观察值与理论值之差的平方（A －T ）2E 、()TT A 2-38、22χμ=的条件是2χ分布的自由度（） A 、大 B 、小 C 、1ν= D 、ν=∞E 、以上都不对39、对三行四列表资料作χ2 检验，自由度等于 A. 1 B. 2 C. 3 D.4E. 640、x 2检验中，自由度n '的计算为( ) A 、行×列（R ×C ） B 、样本含量n C 、n-1D 、（R －1）（C －1）E 、nn n C R41、以下关于2χ检验的自由度的说法，正确的是（）。

A 、拟合优度检验时，υ=n-2（n 为观察频数的个数） B 、对一个3⨯4表进行检验时，υ=11 C 、对四格表检验时，υ=4D 、若205,.0υχ＞2,05.0ηχ，则ηυ>E 、自由度等于行数×列数42、下列哪项检验不适用2χ检验（）。

A 、样本均数的比较Ｂ．两样本率的比较Ｃ．多个样本构成比的比较Ｄ．拟合优度检验Ｅ．以上都适合43、如样本来自某总体，x 2当值小于3．84时，样本为来自总体的概率（） A 、99％ B 、95％ C 、＜1．0％ D 、＞5．0％ E 、＜5．0％44、分析计数资料时，最常用的显著性检验方法是（）A、t检验法B、正态检验法C、秩和检验法D、x2检验法E、方差分析45、在卡方界值（x2）表中，当自由度一定时，x2值愈大，P值（）A、不变B、愈大C、愈小D、与x2值相等E、与x2值无关46、当四格表的周边合计不变时，如果某格子的实际频数有变化，则其理论频数（）A.增大B.减小C.不变D.不确定E、随该格子实际频数的增减而增减χ检验结47、从甲乙两篇论文中，查到同类的两个率比较的四格表资料以及2χ>2χ0。

01（1），乙论文2χ>2χ0.05(1)。

若甲乙两论文的样本量相同，果，甲论文2则可认为（）A、两论文结果有矛盾B、两论文结果基本一一致C、甲论文结果更可信D、甲论文结果不可信E、甲论文说明两总体的差别大48、.四格表中如有一个实际数为0，（）。

分类资料的统计分析(doc 24页)

分类变量资料的统计分析

第11章-分类资料的统计分析

分类资料的统计分析

分类资料统计分析

分类资料统计分析

4统计-4分类资料统计分析

7有序分类资料的统计分析

实习二 分类资料的统计分析(教师参考.doc

实习二分类资料的统计分析(教师参考.doc