计数资料的统计分析2013

合集下载

计数资料的基本统计方法

计数资料的基本统计方法

0.6520 0.0909 0.0934 0.0768 0.0534 0.0335 1.0000
0
0 1725819 0.6580
12
4.9 289298 0.1103
91 36.2 250480 0.0955
307 148.3 191204 0.0729
460 319.7
114355 0.0436
292 323.5
51670 0.0197
1162 43.12 2622826 1.0000
0 25 125 344 371 170 1035
0 8.6 49.9 179.9 324.4 329.0 39.46
(1)直接法:
•选择标准组的方法 1)大范围内的人口资料 2)两组年龄段人口合并 3)以其中一组为标准组,对另一组作标准化
小鼠存亡的组合方式 死亡数(x) 生存数(n-x)
排列方式 甲乙丙
每种组合的概率
0
3
1
2
2
1
3
0


生 0.2× 0.2× 0.2 =0.008


生 0.8 × 0.2 × 0.2


生 0.2 × 0.8 × 0.2


死 0.2 × 0.2 × 0.8 } = 0.096


生 0.8 × 0.8 × 0.2


死 0.8 × 0.2 × 0.8


死 0.2 × 0.8 × 0.8 } = 0.384


死 0.8 × 0.8 × 0.8 = 0.512
P = 1.000
(0.2 +0.8)3=(0.2)3 + 3(0.8)(0.2)2 + 3(0.8)2(0.2) + (0.8)3 三生 二生一死 一生二死 三死

excel在医学统计中的应用(五)

excel在医学统计中的应用(五)

EXCEL在医学统计学中的应用(五)倪关森单位:上海市第一人民医院分院1.对计数资料的统计分析,常采用卡方检验,其一般流程为A.求各行列的比例-求卡方值-求p值-求中间值B.求各行列的比例-求卡方值-求中间值-求p值C.求各行列的比例-求中间值-求卡方值-求p值D.求各行列的比例-求p值-求中间值-求卡方值2.EXCEL软件在编程时应注意可产生的问题A.配对数据的确保措施B.秩和检验中的多数据重复的校正C.以上均是D.以上均否3.用EXCEL 7.0编制的常用统计程序可在什么操作系统下运行A.Windows 95B.Windows 98C.Windows 2000D.以上均可4.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。

如题所得p=0.0277,那么以下结论正确的是A.该药对两型肺癌均有效B.该药对两型肺癌均无效C.该药对两型肺癌疗效有差异D.该药对两型肺癌疗效无差异5.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。

对题中的资料进行统计分析,可选用以下哪种统计方法A.t检验B.方差分析C.回归分析D.卡方检验6.在秩和检验的程序设计中,对语句D3=IF(F3<0,-1,IF(F3>0,1," "))的正确理解是A.用于计算差值B.用于计算秩次C.用于计算绝对值D.用于确定符号7.语句"ABS(M25)"的含义是A.M25的对数B.M25的倒数C.M25的绝对值D.M25的相对数8.秩和检验主要用于以下哪种类型资料的统计分析A.非参数资料B.计数资料C.计量资料D.以上均可9.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。

经有序数据的卡方检验结果显示( ),所以P值( ):A.χ2=5.84;P>0.05B.χ2=4.84;0.05>P≥0.01C.χ2=3.84;P=0.05D.χ2=2.84;P<0.0110.配对设计的秩和检验程序的流程图中,以下哪种最合理A.按绝对值升序排秩-计算差值-计算正负号秩次-确定T值B.计算差值-按绝对值升序排秩-计算正负号秩次-确定T值C.计算正负号秩次-计算差值-按绝对值升序排秩-确定T值D.确定T值-计算差值-按绝对值升序排秩-计算正负号秩次。

安全工程师-安全生产统计分析练习题及答案解析

安全工程师-安全生产统计分析练习题及答案解析

安全工程师-安全生产统计分析练习题及答案解析一、单项选择题1、将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数称为()资料。

A.技术B.计数C.等级D.计量2、系统误差具有()。

A.不确定性B.严重性C.累加性D.不可预知性3、统计描述的重要工具是()。

A.统计图B.圆图C.线图D.条图4、根据事故统计分析的目的,选择合适的统计图。

下列统计图适用于直观描述伤亡事故随时间变化趋势的是()。

A.条图B.圆图C.线图D.散点图5、(2010年真题)某地区开展了职工职业病统计和调查,取得大量数据。

对这些数据进行统计分析时,应包括()两项内容。

A.统计描述和统计推断B.统计抽样和统计分析C.统计抽样和统计推断D.统计抽样和参数估计6、依据统计图的一般选用原则,我们在比较分类资料各类别数值大小时,应采用()。

A.直方图B.百分条图C.线图D.条图7、(2010年真题)下列统计描述的分析方法中,属于计数资料类分析方法的是()。

A.算术平均数B.百分位数C.标准差D.构成比8、不属于计数资料的统计资料的是()。

A.比B.构成比C.方差D.率9、()表示在规定的观察时间内,某病患者中因该病而死亡的频率。

A.患病率B.发病率C.病死率D.粗死亡率10、(2009年真题)常用的职业卫生统计指标有发病(中毒)率、患病率、病死率和()。

A.职业病普查率B.疑似职业病发生率C.粗死亡率D.职业卫生合格率11、表示某时点检查时可能发生某病的一定人群中患有某病的病人频率称之为()。

A.病死率B.患病率C.发病率D.粗死亡率12、(2009年真题)依据《企业职工伤亡事故经济损失统计标准)}(GB6721--1986),直接经济损失是指生产经营活动中因事故造成的财产损失价值和处理事故所支出的费用合计。

下列损失或费用中,不能列入直接经济损失的是()。

A.人身伤亡及善后所支出的费用B.固定资产损失价值C.流动资产损失价值D.恢复生产所支出的费用13、(2009年真题)及时、准确的职业病统计信息是职业健康管理决策的重要依据。

计数资料的统计分析

计数资料的统计分析
第四节 分类资料的统计描述
计量资料(定量资料)
❖统计资料类型:
计数资料(定性资料)
❖计数资料:按某事物属性或类别分组,清点 各组观察单位数而得到的资料称为分类资料

一、常用的相对数
分类资料常采用相对数进行描述。 收集到的分类资料,表现为绝对数。
绝对数说明事物发生的实际水平,是进行 统计分析的基础,但不便于事物进行深入 分析比较。
、正确计算合计率(总率) 对观察单位数 不等的几个率,不能直接相加求平均率
正确的方法:总的发生数除以总的观 察单位数。
例: 用某疗法治疗肝炎,甲医院治疗人,
治愈人,治愈率为;乙医院治疗人,治愈 人,治愈率为。两个医院合计治愈率应该 是?
正确算法:[()()]× 错误算法:
或 ( ),
、注意资料的可比性
215
治愈率(%) 60.0 35.0 53.8
病人数 100 300 400
乙疗法 治愈数
65 125 190
治愈率(%) 65.0 41.7 47.5
2020/10/17
不能直接比较两医院总生存率 (应标化后再比)
一、标准化的意义和基本思想
❖ 与其合计的差别之所以大,是由于两疗法中 病人中病型构成不同。要正确比较甲、乙两 疗法的总治愈率,需按照统一标准进行校正, 然后进行比较。
❖ 即男性人口数是女性的倍。
表 某市某年各区急性传染病发生数及其相对数
年平均 急性传染 各区与Ⅰ 各区急性传染病发 各区急性传染病发生 市区
人口数 病发生数 区之比 生数构成(%) 率(1/10 万)






Ⅰ 636723 2433

18.9

计数资料的相关分析

计数资料的相关分析

计数资料的相关分析字体[大][中][小]对计数资料作相关分析的目的是推断两因素间有无相关关系,常用x2检验;必要时再进一步确定相关的密切程度,常用列联系数来说明。

分析时常按配对设计,将单一样本的每一观察单位同时按两种因素(如两种检验方法、两种治疗方法或两种特征等)的不同水平(如类别、等级、程度等)分组。

如甲因素有R个水平,乙因素有C个水平,分组后即得R×C 列联表。

如表1为R与C均等于2的2×2表,有a、b、c、d四个基本数据,特称为四格表。

表3为3×3表。

四格表资料的相关分析推断两因素间有无相关关系一般用x2检验,可按式(1)计算统计量x2值。

式中a、b、c、d为实际频数或对子数,n为样本含量或总对子数。

条目“两样本率比较”中,计算x2值的其他公式亦可选用。

算得x2值后,查x2界值表得P值,按所取检验水准作出推断结论。

当样本含量甚小时宜用四格表的确切概率法直接计算P值(见条目“四格表的确切概率法”)。

经假设检验推断两因素间有相关关系,若须进一步说明相关的密切程度,可按式(2)或式(3)计算相关系数(亦称列联系数) r或rn。

类似普通相关系数,其值在-1与+1之间。

绝对值愈大,相关程度愈高;等于1为完全正相关,等于-1为完全负相关,等于0为无相关。

式中a、b、c、d的意义同式(1)。

K. H. Ives和J. D. Gibbon提出用式中符号意义同式(1),(a+d)为反应相同的对子数,(b+c)为反应不同的对子数。

由式(3)可见:如例1,若所有对子两法结果全相同,即b、c均为零,则rn=1,为完全正相关;若所有对子两法结果全不同,即a、d均为零,则rn=-1,为完全负相关;若结果相同与结果不同的对子数各占1/2,即α+d=b+c,则rn=0,为无相关。

例1 就表1资料说明两种方法检查食品沙门菌的结果是否一致。

表1用两法检查同一批鸭样的结果荧光抗体法常规培养法合计+ -+ - 160(a)5(c)26(b)48(d)18653合计165 74 239(1) 推断相关关系:H0:两法无相关,H1:两法有相关。

2.spss应用(计数资料分析、非参数检验、统计图绘制)

2.spss应用(计数资料分析、非参数检验、统计图绘制)

配伍组设计的秩和检验:例题8-9(P143) Analyze→nonparametric tests →k related samples
→test variables:变量1、变→ok
三、统计图的绘制
1.直条图、误差条图 2.圆图
3.线图、半对数线图
配对四格表资料的2检验:例题7-3(P114)
Data→weight cases → weight cases by: frequency variable:f →ok analyze→descriptive statistics →crosstabs … : row: 法一 column:法二 statistics →选择McNemar →continue →ok
实例分析
P112 P114 P114 P116 P117 P119 P119 P120 例7-1 例7-2 例7-3 例7-4 例7-5 例7-6 例7-7 例7-8
二、非参数检验
配对设计的符号秩检验:例题8-1(P132)
Analyze→nonparametric tests
→2 related samples
例题7-1(P112)数据输入的格式: 组别:分组变量 1-试验组 2-对照组 疗效: 1-有效 0-无效 f:表示频数 组别 1 1 2 2 疗效 1 0 1 0 f 99 5 75 21
1 2 3 4
四格表资料的2检验:例题7-1(P112)
Data→weight cases → weight cases by: frequency variable:f →ok analyze →descriptive statistics →crosstabs … : row: 组别 column:疗效 statistics →选择chi-square →continue → ok

计数资料的数据分析

计数资料的数据分析

计数资料的数据分析1、四格表资料(1)简单四格表资料i.非配对的四格表资料例:比较A、B两种疗法治愈率,数据如下:分析目的:A、B疗法有效率是否有差异?数据如用通用符号表示:分析方法:Pearson 卡方检验其中,Oi 表示观察数,Ei表示理论期望数, n 格子数(这里等于4)Yates'连续性校正关联分析:计算A疗法有效率相对于B疗法的优势比Odds Ratio (比值比)= (a/b) / (b/d) = (ad)/(bc) = (20*14)/(16*10) = 1.75易侕统计软件输入界面:易侕统计软件输出结果:ii. 配对的四格表资料例:比较A、B两种疗法治愈率,配对设计,每个病人与另一个年龄、性别、病程等相同的病人配对,一个用 A疗法治疗,另一个病人用B疗法治疗,数据如下分析目的:A、B疗法有效率是否有差异?: H0:A、B疗法有效率相同,即p b=p c数据如用通用符号表示:McNemar 卡方检验Edwards 连续性校正:McNemar精确检验:总共有b+c (8+4=12)不一致的对子数,按H0,理论上b与c出现的概率相同,即b占(b+c)的比例为50%,相当于OR=b/c=1。

实际观察到的OR = b/c = 8/4 =2,计算出现8/4 或更极端的情况(9/3,10/2,11/1,12/0)的概率。

易侕统计软件输入界面:易侕统计软件输出结果:McNemar 配对四格表卡方检验(2)诊断试验四格表资料分析目的:分析试验结果与真实情况(金标准)的吻合程度。

金标准是指当前公认的诊断疾病最可靠的标准方法,可正确区分“有病”或“无病”。

数据如用通用符号表示:分析指标:1. 检测患病率(prevalence)是指被检测的全部对象中,检测出来的患者的比例。

即:检测患病率 = (a+b)/(a+b+c+d)2. 实际患病率(prevalence)是指被检测的全部对象中,真正患者的比例。

统计学计数资料

统计学计数资料
例:某地某病死亡率1949年为3.3/10万,1980年 为0.1/10万,计算这两年该病死亡率之比:
死亡率 1 1之 9 9年 年 8 4比 0 9死 死亡 亡 3 0..3 1率 率 3倍 3
(四)动态数列
按照一定的时间顺序,将某事物的统计指标依次排列起来, 便于观察和比较该事物在时间上的发展变化趋势。
3. 正确计算平均率(总率) 所有组分子之和除以所有组分母之和 例:P49表5.4
累计 逐年 (4) (5)
--
--
300 300
600 300
700 100
950 250
1120 170
1310 190
1580 270
1750 170
1800 50
发展速度(%)
定基比 环比
(6)
(7)
100.0 100.0
107.1 107.1
114.3 106.7
116.7 102.1
122.6 105.1
治愈率
治愈病人数 接受治疗人1数00%
(粗)死亡率 同 某年 年死 总亡 人总 口数 数 1000‰ 某病死亡率 同年 某死 年于 平某 均种 人疾 口 数 病 数 1的 00人 00/100万 同期因该病死亡人数 某病病死率 观察期间内某病患者1数00%
例:某地年平均人口数为1000000,计算下 表中各种传染病的发病率
126.7 103.3
131.2 103.6
137.6 104.9
141.7 102.9
142.9 100.8
增长速度(%)
定基比 环比
(8)
(9)
--
--
7.1 7.1
14.3 6.7
16.7 2.1

计数资料统计方法常见错误分析

计数资料统计方法常见错误分析

为5 X 1 0 5 +( 6 × 1 0 5 ) × 1 0 0 %= 6 2 . 5 %, 乙 地 区 的 参 保 概 率 应 为
7 x 1 0 5 + 1 0 6 × 1 0 0 %= 7 0 s %。 通 过 计算 , 乙区 域的 医 改水平 确 实 高
这 就 是将构 成比 与率相 互混 淆的 错误 , 也是 卫生 统计在 临床 科研 于 甲区域 。 在 计数 资料的 统计过 程 中, 只有 排 除了基 数 的影响 , 使
2 . 1 构成比和率混淆
在 计数 资料 的 统计工作 中, 构 成 比与 率是 两个不 同的概 念 ,
员数 量 为 5 × 1 0 5名, 乙 区域 企业 在职 职工 人数 为 1 0 6 名, 参
加医疗保 险的人 员数量 为 7 X 1 0 5名, 要 得 出 甲 区域 的 医 疗 制 但是, 一 些 统计工作 者经常会 将二者 混淆起 来 。 举例 说明 : 某 医师 度 改 革 是 否 低 于 乙 区域 的 医 疗 改 革 水 平。甲地 的 参 保 概 率 应 采集 了 1 2 0 例骶 骨的尾部 活检 标本 ’ 依据 其 中 4 4 例 畸形 、 3 例肿 块、 7 0 例肿 瘤的统 计结果 斯 定 肿瘤 的发病 概 率大于 畸形 的发病 概 率。
率 法等统 计方法 。
2计Байду номын сангаас数 资料 统计方 法常见 错误 分析
平均 率或 合计 律进 行计 算 , 哪怕 只 是一 个小 小 的失误 或偏 差 , 都
会造 成统 计结果 的极 大 区别 , 由此给 临床 或医疗 科研 的相 关工作
当比较 样 本大 于或 等于 1 0 0时 , 可 以 选用 u检 验 。 此 外计 数 资料 带来极 大的麻 烦 。

计数资料的统计分析

计数资料的统计分析
适用于已知某病死亡总数r、各年龄组人 口 p。数及标准组年龄别死亡率pi、总死亡率
例 已知甲县食管癌死亡总数为452人,乙县为353人,以及标准 死亡率pi、总死亡率p,两县人口资料如下,求两县标准化死亡 率(1/10万)。
标准化死亡率: 甲县 p’=79.8×452/418=86.2(1/10万) 乙县 p’=79.8×353/387=72.6(1/10万)
但绝对数不宜直接作出比较,如:
某人在某农牧区调查了40岁以上的1468人进行
老年性查人 数
560
白内障 例数
68
患病率 (%)
12.14
患病人数构成比 (%)
15.18
50-
441
129
29.25
28.79
60-
296
135
45.61
30.13
70-
149
97
65.10
如从某地抽查了300名成年人,其中: 男性100人,某病患病率为20%, 女性200人,患病率为14%, 则此地男女合计的患病率为: (20+28)/300=16%
4.资料的对比应注意可比性 5.对率的比较应作假设检验
四.率的标准化
1.标准化法的意义 消除混杂因素的影响.
例 甲、乙两县各年龄组人口数及食管癌死亡率 (1/10万)如下:
注1:可以用标准人口构成比计算标准化死亡率, 求出分配食管癌死亡率(Ni/N)pi 再求和比较 。 注2:标准人口的选取应选择有代表性的、稳定 的、数量较大的人群。如国际的、全国的、全 省的数据。也可选择要比较的人群之一或其合 计作为标准。不同的标准所计算出的标准化率 亦不同。 注3:两标化率的比较应作假设检验
三.应用相对数注意事项

计数资料统计方法

计数资料统计方法

计数资料统计方法
计数资料统计方法是指在数据收集过程中,对每个数据进行计数的一种统计方法。

计数资料一般是指属于某个类别的数据,如学生的性别、年级、班级等。

计数资料统计方法主要包括频数分布、百分比分布和列联表分析。

1. 频数分布:
- 将计数资料按照不同的类别进行分类,并统计每个类别的频数(出现的次数)。

然后将频数制成表格,称为频数分布表。

可以使用频数分布表直观地展示不同类别的计数资料的分布情况。

2. 百分比分布:
- 在频数分布的基础上,可以计算每个类别的频数占总样本数的百分比,用以描述每个类别在总体中的相对比例。

百分比分布可以更好地比较不同类别的计数资料之间的差异。

3. 列联表分析:
- 当有多个计数资料之间存在关联关系时,可以使用列联表分析来描述和分析这种关系。

列联表分析是通过将不同的计数资料构建成一个二维表格,并计算每个类别的频数和百分比,以便研究不同类别之间的关联性。

计数资料统计方法可以帮助研究者更好地理解和描述计数资料的分布情况和关
联关系,从而为进一步的数据分析提供基础。

安全工程师:第34讲第八章-安全生产统计分析

安全工程师:第34讲第八章-安全生产统计分析

第八章安全生产统计分析大纲要求:安全生产统计分析。

运用安全生产与职业卫生统计指标以及常用统计分析方法,分析生产安全事故、职业危害的特点与规律,制定防范对策措施。

内容讲解:第一节统计基础知识安全生产统计主要包括生产安全事故统计、职业卫生统计、安全生产行政执法统计。

一、统计工作的基本步骤完整的统计工作一般包括设计、收集资料(现场调查)、整理资料、统计分析4个基本步骤。

【2011.82】某企业为保持安全生产形势的持续稳定,对企业近二十年发生的各类伤亡事故进行统计分析,研究企业安全管理存在的问题,制订预防事故的安全生产措施。

采取的统计分析基本步骤包括()。

A.整理资料B.收集资料C.统计设计D.统计分析E.计量统计【答案】ABCD二、统计学基本知识㈠统计资料的类型统计资料(或称统计数据)有3种类型:计量资料、计数资料和等级资料(介于计量资料和计数资料之间)。

㈡统计学中的重要概念1.变量;2.变异;3.总体与样本;4.随机抽样;5.概率;6.误差【2011.68】在统计学中,由于仪器不准确、标准不规范等原因造成测试结果倾向性偏大或偏小,这种误差称为()误差。

A.随机测量B.人为C.系统D.随机抽样【答案】C三、统计图表的编制㈠统计表简单表:表格只有一个中心意思,即二维以下的表格。

复合表:表格有多个中心意思,即三维以上的表格。

㈡统计图【2015.65】为了有效降低高速公路的交通事故率,某省交通管理部门开展了高速公路交通流特性研究,该交通管理部门采用先进的数据采集和处理技术,获取了大量高速公路交通流的速度、流量和密度数据。

在进行交通流数据分析时,能够很好的反映出速度-密度、密度流量和速度流量二者之间关系的统计图是()。

A.直方图B.半对数线图C.条图D.散点图【答案】D四、统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。

统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。

计数资料的统计分析

计数资料的统计分析
OpLeabharlann ions… Desceipitve
(2) 用单样本K-S拟合优度检验(1-Sample K-S Test) 例题:例7-12,例02-01 建立数据文件:例7-12.sav:1列279行。例02-01.sav 过程:
Analyze Nonparametric test 1-Sample K-S …
Row(s): smoke Column(s): case_ctr Layer: gender
Statistics…
Chi-square Risk Cells… Row
5. 样本率与总体率比较 数据文件:“例06-04.sav”。例题6-4
数据格式:2列2行。1个分组变量“受孕” ,1个 频数变量“freq” 。
Analyze
Descriptive Statistics Crosstabs…
Row(s):免疫荧光 Collumn(s):乳胶凝集
Statistics… McNemar
3.多个样本率比较的2检验 例题:例7-6 数据文件:“例07-06.sav”
数据格式:3列6行。2个分类变量,“疗法”和 “疗效”,1个频数变量“freq”
3.多个样本率比较的2检验: Chi-Square (Descriptive Statistics Crosstabs)
4.分层资料的2检验 (Descriptive Statistics Crosstabs)
5. 样本率与总体率比较 (Nonparametric Tests Binomial)
Test Variable List: x
Test Distribution Normal
Poisson Options…
Desceipitve

计数资料和计量资料的统计方法

计数资料和计量资料的统计方法

计数资料和计量资料的统计方法一、引言统计学是应用数学的一门学科,它研究那些规律性现象和在自然和社会科学过程中数字数据的收集、分析、解释和推断的方法。

统计学是一门非常重要的学科,在现代科技、工程和商业领域中具有广泛的应用。

在统计学中,数据可以分为计数资料和计量资料两类。

计数资料是指数据只能计算某个特定事件发生的次数或频率,这种数据通常表现为分类变量的形式。

而计量资料是指这样的数据,可以通过数值结构来描述它们的数量或大小,这种数据通常表现为连续或离散变量的形式。

本文旨在介绍计数资料和计量资料的统计方法,以帮助读者更好地理解这两种类型的数据并能够正确应用其相关的统计方法。

二、计数资料计数资料又称分类资料。

计数资料的数据量统计通常以频数或百分比来进行。

频数是指某个特定事件在数据集中出现的次数,而百分比是指这些事件在数据集中的出现频率。

这些计数资料通常可以用柱状图或饼图来进行可视化呈现。

在计数资料的统计分析中,最常见的是用卡方检验来判断两个或多个分类变量是否存在显著关联。

通过比较两种不同的口罩在不同寿命期间的感染率,我们可以使用卡方检验来检验它们之间是否存在显著差异。

除了卡方检验外,在计数资料的统计分析中还有一些常用的量。

我们可以使用似然比比率来比较两个或多个不同的模型,以及使用警戒区分析来评估两个或多个分类变量之间的关系。

三、计量资料计量资料又称数值资料或连续资料。

计量资料的数据通常用平均值、标准差和相关系数等指标来进行描述。

这些指标可以帮助我们更好地了解数据的中心趋势和数据之间的变异情况。

计量资料通常可以用直方图或箱线图等图表来进行可视化呈现。

在计量资料的统计分析中,最常用的是使用t检验或ANOVA分析来比较组间或样本间的差异。

在医学试验中,我们可以使用t检验来比较用药组和对照组之间的差异。

线性回归和相关性分析也是常用的计量资料分析方法,可以用来探究变量之间的关系和相关性。

四、结论五、计数资料的实例计数资料的实例非常丰富。

计数资料的统计分析

计数资料的统计分析
➢检验步骤 ②选择检验方法,计算统计量
操作方式与上述相同 (1)加权频数 (2)交叉表
公共卫生学院
2.1 多个样本率的卡方检验
➢检验步骤 ②选择检验方法,计算统计量
公共卫生学院
2.1 多个样本率的卡方检验
③根据检验统计量的结果做出统计推断 三个地区60岁以上老年人高血压患病率分别 为25.2%,23.3%,21.2%,Pearson卡方 =6.293,P=0.043,按0.05的检验水准拒绝H0, 认为三个地区的60岁以上老年人高血压患病 率间的差异有统计学意义。
公共卫生学院
1.2 连续校正卡方检验
③根据检验统计量的结果做出统计推断
即冠心病初发后进行体育锻炼的人复发冠心 病的危险是不锻炼的0.169倍。
公共卫生学院
内容
2. R×C列无序列联表卡方检验
• 1.1 多个样本率的卡方检验 • 1.2 多个样本构成的卡方检验
公共卫生学院
应用条件
R×C列无序列联表卡方检验检
据题意,本题需分析两组的构成比例之间有无差异
①建立假设检验,确定检验水准
H0:三组的总体构成相同 H1:三组的总体构成不同或不全相同
α=0.05
公共卫生学院
2.2 多个样本构成的卡方检验
➢检验步骤 ②选择检验方法,计算统计量
公共卫生学院
2.2 多个样本构成的卡方检验
➢检验步骤 ②选择检验方法,计算统计量
公共卫生学院
内容
1. 四格表的卡方检验
• 1.1 一般四格表卡方检验 • 1.2 连续校正卡方检验
公共卫生学院
1.1 一般四格表卡方检验
➢卡方检验的零假设,假定比较样本来自 总体率(π)相等的总体,即H0:π1=π2.卡方 检验的统计量也称为Pearson’s卡方检验

计数资料的统计描述 (2)

计数资料的统计描述 (2)
计数资料的统计描述
Description of Enumeration Data
数据类型及赋值
数据(变量)类型 变量的表现
1.计量变量:
血压值:12.3kpa
2.分类(定性):
1)两分类: 疗效:有效=1,无效=0
性别:男=1,女=2
2)多分类(无序):血型:A,B,O,AB
3.等级(有序):
疗效:痊愈=4、显效=3、有效=2、无效=1
构成比 死亡率 (%) (1/10万)
(2)
(3)
(4)
(5)
356980
11
1.5
3.1
232505
22
3.0
9.5
205032
142
19.6
69.3
121882
443
61.1
363.5
20047
107
14.8
533.8
936446
725
100.0
77.4
解:
0~14
11 100000/10万 3.1/10万 356980
相对比 甲乙指指标标(倍数或百分数%)
例1:某医院出生性别比=男性婴儿数/女性婴儿数 =370/358=1.03(或103%)
医护比=医生人数/护士人数
对性质相同的资料,它可说明两者间的差别或比
例关系。如:出生性别比
对性质不同的资料,它表示一个量 A 相对与另
一个量 B 的对比数。如:每千人口的医生数
平,即实际发生的规模大小。 缺点:绝对数往往不便于互相比较。
例1:某乡两个村的调查结果为,甲村钩虫感 染有150人,乙村钩虫感染有100人。据此,我们 只能说甲村钩虫感染较乙村多50人,但不能肯定 甲村较乙村钩虫感染程度更为严重。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

发病率(incidence)
• 是指一定时间内某人群中新发病例的频率。
某时期某人群中发生某病的新病例数 发病率 K 同期该人群平均人口数
观察时间可为年、季、月,一般为年。 K可以为100%,1000‟,100000/10万 年发病率/月发病率/季发病率
• 计算发病率时,分子确定要注意:
1、95%可信区间(置信区间)
• 定义:有95%(1-0.05())的可能性,在所计 算得到可信区间包含了总体参数(不是总体参 数落在该范围的可能性为95%)(置信区间) • 可信区间由可信上限和可信下限构成:
95% 可信区间CI
95 个 包 含 总 体 均 数 CI *5 个 CI 不 包 含 总 体 均 数
因此,统计推断结果的表达:P值与可 信区间相结合,同时报告。
2、数值变量资料可信区间的分类
• 单个总体均数的估计 • 两个总体均数差值的估计:
– 基于两组比较t检验的可信区间
– 基于方差分析两两比较的可信区间
两两比较及计算效应量的95%可信区间
药物因素(不同药物):两两比较的q检 验及其均数差值的95%可信区间。
反映疾病严重程度及诊治水平,多用于急性病. 复发率 缓解率 有效率 治愈率
2、构成比 (proportion)
• 说明某一事物内部各组成部分所占的比重和分布, 常用百分数表示(0%-100%)。
结石 部位 胆囊 (%) 肝外胆管 (%) 肝内胆管 (%) 合计 胆固醇 70 59.3 12 16.0 2 7.0 84 结石类型 胆红素 16 13.6 39 52.0 20 69.0 75 其它 32 27.1 24 32.0 7 24.0 63 合计 118 100 75 100 29 100 222
3、应围绕研究本身全面考虑,再下 结论
从研究设计、抽样等全面评估结果。如样本代 表性,有无可能出现系统偏差等。
抽样误差
样本均数 x
系统误差
总体均数 ?
4、专业结论同样不能绝对化
• 因统计结论具有概率性质,专业结论同样不 要使用“肯定”、“一定”、“必定”等词 汇。
计数(分类变量)资料的统计分析
1
0%
50%
100%
一、计数资料的统计描述
(二)率、比 (构成比、相对比) rate, proportion, ratio
1、率 (rate, frequency)
率又包括频率指标(frequency)和强度指标 (rate),用来测量一定时期内,某人群特 定事件发生的频率或强度。
• 率=(发生某现象的观察单位数)/(某时间段 可能发生某现象的观察单位数)
一、计数资料的统计描述
(一)图表: 频数表,直条图,饼图
变量类型的识别
病例号
1
2 3
年龄 (岁)
35
44 26
性别

男 男
身高 血型 心电图 尿WBC (m)
1.65
1.74 1.80
职业
教师
工人 职员
RBC 1012/L
4.67
5.21 4.10
A
B O
正常
正常 正常

- +
4
5 6 7 8 9
• 比较两独立事件数量大小关系指标(独立指 互不包含):a/b
–是一个静态指标,反映一特定时间(time point) 的情况。 –无时间单位
计数资料的统计描述:率与比的综合应用
例 某地中毒与损伤汇总分析
年度 1993 1994 1995 1996 1997 1998 合计 发病人数 584 571 714 748 942 1095 病死人数 8 10 12 16 21 24 91 病死率 1.37 1.75 1.68 2.14 2.23 2.19 构成比 8.8 11.0 13.2 17.6 23.0 26.4 相对比 -1.28 1.23 1.56 1.63 1.60
可信区间估计的优劣取决两个方面: 准确度:1,即区间包含的理论概率大小,愈 接近1愈好。 精度:区间的宽度,区间愈窄愈好。 精度:可信上限与可信下限间的宽度; 与准确度、样本量、标准差大小有关。
可信区间(CI)能提供更多的推断信息:
区间范围是否包括总体参数(总体参数差 值),若不包括,表明差别无统计学意义; 同时能显示差别的程度及临床意义; 可信区间CI不能提供确切概率,假设检验提 供P值。
第二讲 计量资料的统计分析(补 )
一)假设检验:t检验,ANOVA ,秩和检验 二)参数及可信区间估计 • 参数估计是用样本统计量估计总体参数,是 假设检验的重要补充。
– 点估计:用样本统计量直接作为总体参数的 估计值,简单但未考虑抽样误差的大小。 – 区间估计:即按预先设定的概率(1-)确定 的包含未知总体参数的可能范围。
Based on observed means. *. The mean difference is significant at the .05 level.
三)统计推断结果的综合评价
1、应考虑统计推断的概率性
假设检验结论的概率性,应注意I/II型 错误;在报告结论时,最好列出检验统计量 的值,尽量写出具体的P值或P值的确切范围, 而不简单写成P﹤0.05,以便读者与同类研究 比较或进行Meta分析之用。
第三讲
计数资料的分类
• 无序分类: 二项或二分类:对立、不相容的两类。 如疗效:病死与未愈等。 多项或多分类:互不相容的多类。 如血型、疾病分型、种族等 • 有序分类:类间不相容且有程度差别。 如疗效:痊愈、显效、好转、无效。 特点:无度量衡单位;定性测量
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOS) • 计量资料转化而来:
• 也称患病率或流行率,指某特定时间某人群中 某病现患人数所占比重或比例。
特定时间某病现存病例数 现患率 K 被调查(或检查)的人数
• 计算现患率时应注意: – 分子包括新、老病例,只要调查时正处于患病 状态,均计算在内。 – 分母不考虑“暴露人口”
可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间
Multiple Comparisons Dependent Variable: 肉 重 瘤 量 Bonferroni Mean Difference (I-J) .1800 .3000* -.1800 .1200 -.3000* -.1200
(I) 药 物 1.00 2.00 3.00
(J) 药 物 2.00 3.00 1.00 3.00 1.00 2.00
原来分类
age1
1(18岁以下) 2(18-40岁) 3(40岁以上) 1 0 0
哑变量赋值
age2
0 1 0
结果18岁以下赋值为(1,0),18-40岁赋值为(0, 1),40岁以上赋值为(0,0) 无序多分类变量同样赋值: A、B、AB、O ABO血型如何赋值?bt1,bt2,bt3?
革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量 赋值为(0,1,0),真菌哑变量赋值为(0,0,1)
如评价降压疗效时,将舒张压降低值分为三类:
<5mmHg
5-10mmHg 10-20mmHg
无效
有效 显效
计量资料转化为计数资料,过程本身损失信 息,应慎重。
计数资料的分类赋值

在赋值时应考虑类型而定。
* 二分类变量: 0,1 * 有序多分类: 满足线性关系,多采用等间距赋值 如 -、+、++、+++(0、1、2、3) 不满足线性关系,采用哑变量赋值 * 无序多分类变量赋值: A、B、AB、O
–病人的发病时间要“落入”观察期内,即必须是 新病例。 –注意病例与病人的区别。 –疾病必须确诊
新发病 新发病 新发病 已发病 新发病 发病
观察期
2009.1.1 2009.12.31
• 分母:可能发病的人口数,其范围界定很关键
某时期某人群中发生某病的新病例数 发病率 K 同期该人群暴露人口数
Std. Error .06181 .06181 .06181 .06181 .06181 .06181
Sig . .059 .004 .059 .264 .004 .264
95% Confidence Interval Lower Bound Upper Bound -.0064 .3664 .1136 .4864 -.3664 .0064 -.0664 .3064 -.4864 -.1136 -.3064 .0664
9

1.62
军人
2、直条图
3.5 3 2.5 2 1.5 1 0.5 0 工人 干部 职员 军人 农民 教师
直条图(bar 条形图):分类变量资料的频数图,
条与条间独立,顺序可不固定。 与Histogram直方图不同
饼图/圆饼图/圆图/pie图
百分条图 (percent bar)
工人 干部 职员 军人 农民 教师
25
41 45 50 28 31

男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB O
正常
异常 正常 异常 正常 正常

++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
1 2 3 4?
例如:在先天性畸形儿与产妇年龄关系研究中,将 年龄划分为三组,<18岁,18-40岁,>40岁。目的是 探讨不同怀孕年龄段的先天性畸形儿发生是否不同?
相关文档
最新文档