第1讲 分类变量的描述统计(1)
最新第十六章分类变量的统计介绍教学讲义PPT课件
医学统计学
第十六章 分类变量的统计分析 主讲:黄志碧
第一节 常用的相对数
对分类变量进行统计描述常采用相对数。
收集到的分类资料,首先表现为绝对数。 绝对数说明事物发生的实际水平,是进行统 计分析的基础,但不便于事物进行深入地分 析比较。
一、率
率(Rate)又称频率指标,是指在一定 时间内发生某现象的观察单位数与可能 发生该现象的总观察单位数之比。它说 明某现象发生的频率或强度。
率
发生某现象的观察单位数 可能发生该现象的观察单位总数
K
K为比例基数,可以是百分率(%)、千分率 (‰)、万分率(1/万)或十万分率(1/10万), 可根据习惯或使计算出的率保持一、二位整数。
习惯用法:
人口出生率、死亡率、自然增长率、婴 儿死亡率等采用千分率;
肿瘤的死亡率采用十万分率。
注意
计算率时,注意分母和时间。只有可 能发生某事件的观察单位才能做分母。时 间一般以年为间期,也有月、周等。
总
体
抽样误差
抽样
p
样 本
p
统计推断
1、率的抽样误差
在率的抽样研究中,由于总体中存在个 体变异,所以由抽样得到的样本率(P)与
总体率( )之间存在差异,这种差异称
抽样误差。 在抽样研究中,抽样误差是不可避免
的,但可以用统计方法计算或估计其大小。
总体均数=
标准差=σ
n , p1
n , p2 …
n , pn
医院
有转移
无转移
甲医院 710/755=0.940 45/755=0.060
乙医院 83/383=0.2167 300/383=0.7833
5、率或构成比的比较要做假设检验。
统计学课件-分类变量的统计描述
第三節 分類資料常用統計圖
2003 我国年部分县死因构成%
疾病
构成%
恶性肿瘤
25.28%
脑血管病
23.75%
呼吸系病
18.72%
心脏病
12.03%
损伤及中毒
5.69%
其它疾病
14.53%
圓圖
其它疾病 14.53%
0.0 1948 1952 1956 1960 1964 1968 年份
某地1950~1966年结核与伤寒死亡率(1/10万)
率標準化法的基本思想就是採用統一 的標準人口構成,以消除人口構成不 同對人群總率的影響,使算得標準化 率具有可比性
二、標準化率的計算
直接法和間接法 根據資料的情況選擇
(一)直接法計算標化率
條件(1)已知實際人群的年齡別率。
(2)選擇標準人群的年齡組人口數或構成比
淋巴节转 移 (1)
无
标准人 口数 (2)
(6)=(2) (5)
9300
582
4800
300
12200
48
6600
26
19000
124
35300
230
7600
97
2800
36
1900
78
500
21
50000
929
50000
613
甲地標化死亡率P’=15.42 (1/10萬) 0.91=14.03/10萬 乙地標化死亡率P’=15.42 (1/10萬) 1.11=17.12/10萬
三、標準的選擇
進行標準化法計算, 首先要選一個’’標 準” , 如標準人口數, 標準人口構成比或 標準化率等。
3 分类变量资料的统计描述
《实用医学统计学与SAS应用》在线开放课程分类变量资料的统计描述1主要内容概念常用的相对数应用注意事项总结1. 概念:什么是分类变量资料?•分类变量资料又称定性资料、计数资料,它的测量或观察的结果表现为某种属性或者类别。
怎样描述分类变量资料?在医学研究中清点分类资料得到的数据被称为绝对数。
绝对数是研究某客观事物或某现象本质的基本信息,但不便于相互之间进行比较。
例如2017年5月甲小学学生手足口病发病人数为50人,而同期乙小学学生发病人数为40人,但是不能据此认为甲小学的学生手足口病发病情况比乙小学严重,因为该年两个小学的学生人数不一定相等。
因此,根据绝对数提供的资料计算相应的相对数指标,以便进行统计学描述及比较。
2.常用相对数相对数的定义相对数(relative number):两个有联系的指标之比。
医学研究中常用于描述分类资料的相对数包括率、构成比及相对比等统计指标。
(1).率率(rate )是说明某现象发生的频率或强度的指标,其计算为:k =⨯某段时间内实际发生某现象的观察单位数率同时期内可能发生某现象的观察单位数k 为比例基数,可以是100%,也可以是1000‰、100000/10万。
例1 某市2013年平均人口数为6 538 372人,其中男性年中平均人口为3 215 645,因恶性肿瘤而死亡的人数有15 783人,女性平均人口为3 322 727,因恶性肿瘤而死亡的人数有12 235人,试分析该市2013年男性以及女性的恶性肿瘤死亡的严重程度。
157********/10490.82/103215645⨯=万万12235100000/10368.22/103322727⨯=万万男性:女性:(2).构成比构成比(proportion)表示事物内部各组成部分所占的比重,常以百分数表示,因此又称为百分比。
构成比的计算方法如下:100 该事物内部某一组成部分的观察单位数构成比=%某事物内部各组成部分的观察单位总数事物中某部分的构成比大,说明事物中以该部分的频数为多。
class520111017分类变量的统计描述
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
已知1998到2002年我国某地区的医护人 员数为4721、4833、5162、5884和6997人。
猜一猜:搜集该资料的目的?
利用该资料可以说明什么问题? 利用该资料可以计算什么指标?
动态数列
我们一步一步地算:列表计算,excel
已知
年份 医护 人员数 指 标
*数值变量资料可转化为分类变量资料进行分析
分类变量资料或计数资料的表达
体检资料:文字-数量化 性别: 个体:男性/女性
群体/汇总:男性受检者人数 女性受检者人数
总人数
实际数
实际数
把研究对象按某特征进行分类后,由原 始数据直接汇总得到的某个或各个类别的人 数或研究单位数。
*实际数和相对数都是对汇总数据的群体指 标
ቤተ መጻሕፍቲ ባይዱ
收缩压 sbp
舒张压 dbp
心电图:
超声诊断:
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
2-数值变量与分类变量的统计描述分析
实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
分类变量的描述性统计-医学统计学课件
描述性统计的常用指标有哪些?
1 频数
2 百分比
统计每个类别的观察次数, 反映各类别在样本中的分 布。
计算每个类别在样本中的 所占比例,用于比较不同 类别的相对频率。
3 累计百分比
计算每个类别及其前面所 有类别的累计频率,描述 数据的积累情况。
如何绘制频数表?
频数表是一种统计表格,用于展示各类别的频数和频率。通过表格形式,可 以清晰地展示数据的分布情况,方便比较和分析。
如何绘制条形图?
条形图是一种可视化方法,用长条的长度代表各类别的频数或频率,直观地展示各类别之间的差异,便于观察 和理解数据的分布情况。
堆叠条形图
展示多个分类变量在不同分组中的频数或频率,比 较各类别在不同分组中的差异。
簇状条形图
将多个分类变量的频数或频率放在同一条形图中, 直观地比较各类别之间的差异。
分类变量的描述性统计医学统计学课件
本课件介绍分类变量的描述性统计方法,包括常用指标和可视化方法,以及 如何进行多个变量的比较和分析。通过本课件,您将更好地理解医学统计学 中的数据分析方法。
什么是分类变量?
分类变量是指变量的取值分属于有限个类别,例如血型、性别和疾病类型等。通过描述性统计方法,我们可以 对分类变量进行分析和解释。
如何使用交叉表进行分析?
交叉表是一种用于统计分析的工具,将两个或多个分类变量的取值组合在一起,展示各类别之间的频数和频率。 通过交叉表分析,可以更深入地了解分类变量之间的关系。
如何进行卡方检验?
卡方检验是一种统计方法,用于分析两个分类变量之间的关联性。通过计算 观察频数与期望频数的差异,判断两个变量之间是否存在显著的关联。
如何进行列联表分析?
医学统计学课件:分类资料的统计描述
交叉表是一种更为复杂的表格形式 ,可以展示两个或多个分类变量之 间的关系,进一步分析变量之间的 关联。
分层资料的统计描述
分层平均数
对于分层资料,可以使用分层平 均数来描述各层内数据的平均水 平,通过比较不同层的平均数,
可以了解各层之间的差异。
层间方差
层间方差是用来衡量不同层次间 的变异程度,通过计算和比较层 间方差,可以了解各层次之间的
辅助决策制定
准确的分类资料统计描述 能够为决策制定提供有力 支持,帮助决策者了解情 况、制定合理方案。
分类资料统计描述的应用场景
临床研究
在临床研究中,分类资料 统计描述常用于分析患者 的疾病分布、治疗反应等 。
流行病学
流行病学中,分类资料统 计描述用于分析疾病的地 区分布、人群特征等。
公共卫生
公共卫生领域中,分类资 料统计描述用于监测和评 估公共卫生状况、健康问 题分布等。
动态数的计算与解读
动态数的计算
动态数是用来描述某一指标在不同时间点上的变化情况,通常通过将某一指标在 不同时间点的数值进行对比来计算。例如,某医院某年的治愈率与前一年的治愈 率之比。
动态数的解读
动态数的值越大,说明该指标的变化趋势越明显;反之,则越小。动态数可以用 来预测未来的发展趋势,以及评估政策或措施的效果。
相对数与动态数的应用场景
相对数在医学研究中应用广泛,如比较不同地区、不同时间 、不同人群的发病率、患病率、死亡率等指标,以了解疾病 在特定人群中的分布和发生情况。
动态数在医学监测和流行病学研究中应用较多,如监测某种 疾病的发病率、死亡率等指标的变化趋势,以及评估干预措 施的效果等。
04
统计图表在分类资料中的应用
在制作箱线图时,应将数据按照数值 大小进行排序,并使用合适的横轴和 纵轴尺度。
分类变量的统计分析课件
k
某病死亡率
(疾病别死亡率
)=
某年因某病死亡人数 同年平均人口数
k
某年龄组死亡率 (年龄别死亡率 )=同某年年同某年年龄龄组组平死均亡人人口数数 k
某死因构成比= 因某类死因死亡人数 总死亡人数
100%
某病病死率=
观察期间因某病死亡人 同时期某病患病人数
数
100%
治愈率= 治愈病人数 接受治疗病人数
75.0%(90/120)。
2 值的大小反映了实际数与理论数的相差情况,若无
效假设 H0成立,则理论数和实际数相差不应该太大,较大
的 2 值出现的概率较小。故根据资料计算的 2 值越大,
就越有理由推翻无效假设 H0 。
T nRnC RC n
TRC 为第R行第C列格子的理论数 nR 为R行的合计数 nC 为第C列的合计数
A乡血吸虫病患病人数 A乡的检查人数
= 17 10000 / 万=22.97 / 万 7400
A乡的血吸虫病患病率是22.97/万。
常用相对数指标:
发病率= 某时期内某病新病例数 同时期平均人口数
k
患病率=
观察期间患某病的新旧 病例数 同时期平均人口数
k
感染率= 感染某病原体人数 受检人数
k
死亡率= 某年死亡总人数 同年平均人口数
pi
Nipi
5.0 500
0.5 50
- 1100
- 550
标化吸烟率
5.50
2.75
医科大学学生标化吸烟率 p ’ =1100/20000=5.50% 工业大学学生标化吸烟率 p ’ =550/20000=2.75%
此标化率是合理的,这才反映了真实情况。
分类变量资料的统计分析PPT课件
b
a+b
B药
c
d
c+d
合计 a+c b+d
n
1. 四格表资料的Χ2 检验的专用公式
2
(ad bc)2 n
(a b)(c d)(a c)(b d)
df =(R-1)(C-1)=1
第19页/共37页
2. 四格表资料的Χ2 检验的校正
-- Yates 连续校正
校正公式:
2
A
T T
0.52
ad bc n / 22 n
表10-12 三家医院住院患者的院内感染率比较
医院
感染
未感染
合计
甲
43
188
231
乙
19
170
189
丙
15
151
166
合计
77
509
586
第26页/共37页
H0:三家医院院内感染率相同 H1:三家医院院内感染率不相同或不全相同 α=0.05
2
n
A2 nRnC
1
2
n
A2 nRnC
1
586(
432 231 77
第三节 X2 检验 (chi-square test)
基本思想
检验实际频数与理论频数的吻合程度,实 际频数与理论频数越相近, X2 值越小; 反 之,实际数与理论数相差越大, X2值越大.
计算公式:
2 A T 2
T
理论频数的计算: TRC= nRnC / n df=(行数-1)(列数-1)
列; (3) 删去理论数太小的行和列
3. 假设检验结果有差别,只能认为总的率或构 成比有差别
第29页/共37页
分类变量的统计描述
• Crosstabs 过程
• 列联表过程可以作为两变量或多变量 的各水平组合的频数分布表,又称为 频数交叉表,或简称为交叉表。计算 综合描述统计量并进行检验,通常选 择分类变量或者选择离散变量做交叉 表。
卡方检验
行列两变量的pearson相关 系数或spearman相关系数
Байду номын сангаас
Multiple Response 包含的分析功能
• 1 Define Sets 过程 • 该过程指定变量组成一个多重响应或多重
两分数集并应用于频数表和交叉列表 • 2 Frequencies 过程 • 该过程对定义的多重响应或多重两分数提
供一个频数表 • 3 Crosstabs 过程 • 该过程提供带有另一种变量的已定义的多
重或多重两分数据集交叉表
分类变量资料统计分析(计数)06-03-10
患病数(x) 患病数( 100 75 175
分类变量资料的描述
患病率(‰) 患病率( 20.00 30.00 23.00
3
二、相对数, 相对指标
(Relative number)
相对数— (一)相对数的意义:相对数—是两个有 联系指标之比。 联系指标之比。
相对数的优点: 相对数的优点: 1. 便于比较 2. 便于保密
21
分类变量资料的描述
吸烟组肺癌标准化死亡比
432 SM = R = 4.2912 10067 .
不吸烟组肺癌标准化死亡比S源自 = R 432 = 4.2912 10067 .
210 SM = R = 0.8620 24361 .
20122012-2-23
分类变量资料的描述
22
反推法: 反推法:
分类变量资料的描述
1995年 1995年 病例数 2032 1143 542 767 875 5359
(%) 37.92 21.33 10.11 14.31 16.33 100.00
15
20122012-2-23
四、率的标准化法
标准化率( 标准化率(standardized rate) 亦称调整率 调整率。 亦称调整率。
20122012-2-23 分类变量资料的描述 10
常用指标 (1)
患病率 ( Prevalence rate ) 发病率 ( incidence rate) 感染率 ( infect rate)
观 某 患 例 察 病 病 数 患 率= 病 ×K 平 人 数 均 口 观 期 新 病 病 数 察 内 发 某 例 某 发 率= 病 病 ×K 同 内 均 口 期 平 人 数 感 人 染 数 感 率= 染 ×K 检 人 查 数
第十章-分类变量资料的统计描述 (1)【可编辑的PPT文档】
660
6
0.91
5.41
初中生
1115
49
4.39
44.14
高中生
1563
56
合计
3338
111
3.58
50.45
3.33
100.00
在比较相对数时,除了要对比的因素(如不同的 药物),其余的影响因素应尽可能相同或相近。
即:同质
在临床研究和动物实验时,应遵循随机抽样原则 进行分组。
下列因素可能影响对比组之间的可比性: (1) 观察对象是否同质,研究方法是否相同,观察
例.在进行某遗传病的研究中,一研究 人员发现,在该病患者中,有90%是第 一个孩子,由此可见该病的遗传与出生 顺序有关---更容易遗传给第一个孩子。 这个结论是否正确,为什么?
返回
表10-1 2001年某地中小学学生HBsAg检出率及构成比
学生 小学生
检查人数
阳性人数
检出率(%)
阳性构成比 (%)
•甲地麻疹发病率为 100/667×100%=15% •乙地麻疹发病率为 50/250×100%=20%
用相对数能较好地反映分类变量资料的特征。
主要内容
常用相对数 应用相对数时的注意事项 率的标准化法
一、常用相对数
相对数(Relative number) :是两个有关 联的数值或指标之比。用以说明事物的相对 关系,便于对比分析。
100%
…..构…成…比…2……A…1+A…2+A…2 . + Ak 100%
构成比k
Ak A1+A2+ + Ak
100%
构成比的特点
构成比有两个主要特点:
分类变量的统计描述
第一节 分类变量的频数分布及其统计指标
一、常用的相对数指标
三种类型:
比率 速率 比
第一节 分类变量的频数分布及其统计指标 二、常用的相对数指标
1.比率 频表示事物内部某个组成部分所占的比重,
包括:频率指标和构成比指标。
发生某现象的观察单位 数 频率 K 可能发生某现象的观察 单位总数
二、常用的相对数指标
2.速率:
速率表示单位时间内某现象发生的频率。如
人时发病率的分子是新发生的事件数,分母是人
时数(观察人数乘以时间)的总和,多用于大人 群长时间随访的资料。
某事件发生的观察单位 数 速率 K ( 可能发生某事件的观察 单位数 时间)
第一节 定性变量的分布特征
二、常用的相对数指标
2.速率:
观察期间内某疾病新发 病例数 人年发病率 K ( 每个观察单位数 观察年数)
该年新发某病的病例数 发病率 K 同年内能发生某病的平 均人口数
第一节 定性变量的分布特征
二、常用的相对数指标
2.速率:
例 在某医院的院内感染调查中,5031个病人共 观察了127859人日(例均25.4日),其中有 596人在医院发生感染,求医院感染率。
第二节 标准化法及其应用
2.间接标准化法 例5-6 经研究表明,女性原发性骨质疏松随年龄增长 患病率增高。1998年某省在城市和农村分别抽样调查了
50岁以上的老年妇女776例和789例,这些人中患有原发
性骨质疏松症者城市为322例,农村为335例,总患病率 分别为41.5%和42.5%。
由于本次调查的城乡老年妇女年龄构成不同,如表5-7
第一节 分类变量的频数分布及其统计指标
第1讲 分类变量的描述统计(1)
4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。 下表展现了不同城市的女性对新款夏装的接受态度的调查数据表 表1.3 列联表
对新款夏装的态度 非常喜 欢 城 市 南京 上海 苏州 杭州 北京 Column Total Statistics: principle and application 52 35 96 21 31 235 有点 喜欢 58 48 28 41 48 223
表1.4 上海与南京的百分数对比表
态度 非常喜 欢 南京 34.44% 有点喜欢 38.41% 既不反对也 有点不喜 不喜欢 欢 16.56% 7.95% 完全不 喜欢 1.99% 不知 道 合计
0.66% 100.00%
上海
22.58%
30.97%
25.81%
13.55%
5.81%
1.29% 100.00%
Statistics: principle and application
南京大学金陵学院
4
1.1 变量的类型
变量(variable) 是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别
是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命, 体重,以及汽车每升汽油所能行驶的距离,等等。
14
1.2 频数分布表
(4)饼图
图1.6 饮料的饼图
饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要 用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
Statistics: principle and application
分类变量的统计描述
40
23.2
冠心病 172665 脑卒中 172665
11 253
6.4
146.5 率
风心病 172665
38
22.0
13
发病率与患病率
LOGO
指标
分子
分母
发病率
时期内新发生的某病病例数 可能发病平均人口数
时点(时期)患病率 时点(时期)现患疾病人数
检查人口数
发病率
患病率
来源 登记报告
现场调查
时间 一个时期(一般为一年)
25.47
100.00
17
LOGO
表16-1 2000年某医院某病的住院人数和死亡人数
病情严 重程度
轻
住院人数 病死数
300
12
死亡构成 (%)
2637
病死率 (%)
4.0
中
350
18
40.0
5.1
重
150
15
33.3
10.0
合计
800
45
100.0
5.6
18
LOGO
特点:
1、各组成部分的构成比之和为100% ,分子为 分母一部分
30
LOGO
(2)计算相对数时分母不宜太小,否则缺乏
稳定性 (3)正确计算合计率(总率)
31
应用相对数的注意事项
LOGO
案例4:用某疗法治疗肝炎,甲医院治疗150人,治 愈30人,治愈率为20%;乙医院治疗100人,治 愈30人,治愈率为30%。两个医院合计治愈率应 该是[(30+30)/(150+100)] ×100% =24%。若 算 为 20%+30%=50% 或 (20% +30%)/2=25% , 则是错的。
4.1分类变量资料的统计描述
1. 该医生的分析是否正确? 2. 由上述资料可以得出什么结论?
18
率和构成比的区别:
1. 2. 3.
二者在概念和计算方法上都不相同,所得结论也不同 率是说明某现象发生的频率或强度的 构成比可以说明某事物内部各组成部分的比重或分布
4.
不能以构成比代替率。
表4-2 某年某市三个区的呼吸道传染病发病率
某年甲市的呼吸道传染病发病率为5.07‰。
常用率的指标
(三)比(ratio) 也称相对比(relative ratio),指甲、乙两 个有联系的指标之比,说明甲是乙的若干倍 或百分之几。 甲指标计数 比= (或 100%) 乙指标计数
甲和乙可以是绝对数,相对数,平均数; 甲和乙的量纲可以不同,也可以相同; 甲乙互不包容。
30
4.
小结
1.常用相对数:构成比,率,准化法
31
课后思考
1.比较什么资料的时候会用到标准化法?
32
3. 同一地区不同时期资料的对比应注意客观条件有 无变化
(五)样本率或构成比的比较应做假设检验
21
三、标准化法
比较什么资料的时候会用到标准化法?
率的标准化法怎么做?
22
例4.5( P58) 某省疾病控制中心欲进行甲、乙两地某 病总死亡率的比较,收集资料见表4-5。
思考:甲乙两地某病总死亡率谁更高?
第四章 分类变量资料的统计分析
刘怡君
讲师
预防医学教研室
1
内容回顾
2
教学内容
第一节 分类变量资料的统计描述
一. 二. 三.
常用的相对数指标 应用相对数时应注意的问题 标准化法
分类变量的统计描述与参数估计
二、二项分布的参数估计
当n较大时,p不接近0也不接近1时(一般认为n > 40, np
>5和nq > 5),二项分布B(n,p)近似正态分布,这样可 利用正态分布中的相应结果来进行参数估计。
6.2分类变量的统计描述实例
1、Define Sets过程 该过程指定变量组成一个多重响应或多重两分数集,并应用于频数表和交 叉列表。 2、Frequencies过程 该过程对定义的多重响应或多重两分数提供一个频数表。
6.2.1使用Frequencies过程输出频数表 具体操作: Analysis
Descriptive Statistics
Frequencies
6.2.2 使用Crosstabs过程输出列联表
1、打开数据,单击AnalyzeDescriptive Statistics Crosstabs对话框。
3、Crosstabs过程
该过程提供带有另一种变量的,已定义的多重或多重两分数据集交叉表。 4、表格模块
1、使用频率过程 CCSS项目中的学历分布。 2、使用交叉表过程 CCSS项目中的性别和学历的交叉频数分布。 3、多重相应过程 CCSS项目中的还贷分布。 CCSS项目中的婚姻和还贷的交叉分布。
… … … … … …
Bc n1c n2c … nrc n.c
合计 n1. n2. … nr. n
ni. nij , n. j nij , n ni. n. j
j i i j
6.1.3 多选题的统计描述
多选题的描述指标体系
在多选题分析中比较特别的描述指标有: (1)应答人数:是指选择了本项人数。 (2)应答人数百分比(Percent of Cases):选择该项的人占总人 数的比例。 (3)应答人次:选择本选项的人次。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南京大学金陵学院
22
1.3 两个分类变量的关系
我们也可以做它的累积频数分布图
图1.2 累积频数分布图
Statistics: principle and application
南京大学金陵学院
11
1.2 频数分布表
3.图形展示
想获得更生动的展示,可以使用统计图。利用统计图表现统计数据,能更加 鲜明、一目了然、形象具体地显示现象之间的相互关系。分类数据的展示主 要有点图(dotplot)、条形图(bar chart)和饼图(pie chart),点图和条形图本质 上是相同的。 [Note]所有分布图的横轴是变量的取值,纵轴是频数或频率。
当我们把一个变量某一取值的相对频数限制在另一变量某一取值的条件下以后,我们称之为条件相
对频数(conditional relative frequency)。如在所有南京的女性顾客中,完全赞成的占34.44%。这里的条 件就是南京,然后我们关心南京范围内赞成的比例有多少。
Statistics: principle and application 南京大学金陵学院 19
4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。 下表展现了不同城市的女性对新款夏装的接受态度的调查数据表 表1.3 列联表
对新款夏装的态度 非常喜 欢 城 市 南京 上海 苏州 杭州 北京 Column Total Statistics: principle and application 52 35 96 21 31 235 有点 喜欢 58 48 28 41 48 223
1
知识结构图
一维频数分布表 点图 单变量分类数据 条形图 帕累托图 饼图 累积频数分布图 分类变量 列联表(二维表) 对比条形图
双变量分类数据
条件相对频数图 两个变量的关系(独立) 辛普生悖论(潜在变量)
Statistics: principle and application
南京大学金陵学院
2
主要内容
南京大学金陵学院
13
1.2 频数分布表
(3)帕累托图
帕累托图就是把普通条形图中每个变量的取值出现的频数从左到右、从大到小排列。
图1.5 饮料的帕累托图
帕累托图表明,该商店主要销售的饮料为可口可乐和旭日升冰茶。
Statistics: principle and application
南京大学金陵学院
14
1.2 频数分布表
(4)饼图
图1.6 饮料的饼图
饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要 用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
Statistics: principle and application
南京大学金陵学院
15
1.2 频数分布表
Statistics: principle and application
南京大学金陵学院
17
1.2 频数分布表
(2) 对比条形图(Double bar chart)
图1.7 对比条形图
通过对比条形图中我们可以知道不同态度的消费者在各个城市中的对比,也可以 知道相同城市的不同态度消费者数量的对比。
第1讲 分类变量的描述统计
描述统计主要分为分类变量(categorical variables)的描述统 计和数值型变量(quantitative variables)的描述统计,本讲 先讨论分类变量的描述统计。
Statistics: principle and application
南京大学金陵学院
南京大学金陵学院
7
1.2 频数分布表
表1.1是一家超市某天50名顾客购买饮料品牌的频数分布表 表1.1 频数分布表
品牌名称 百事可乐 频数 9 频率 0.18 百分比频数 18%
汇源果汁
可口可乐 露露
6
15 9
0.12
0.3 0.18
12%
30% 18%
旭日升冰茶
11
0.22
22%
Statistics: principle and application
1.2 频数分布表
(4)用条件相对频数表示的对比条形图
图1.8 上海与南京的对比条形图
Statistics: principle and application 南京大学金陵学院 20
1.3 两个分类变量的关系
1.列联表中两个变量间的关系分为独立(independent)和不独立(not independent)(即相关)两种。 如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这 个两个变量是独立的,这表明这些变量之间没有关联。 世纪海难泰坦尼克号沉没事件中乘客性别和是否生还的列联表如下:
Statistics: principle and application 南京大学金陵学院 18
1.2 频数分布表
(3)列联表的百分数 列联表有两种百分数:一、用列联表中的数据除以最后一列的数据得到行百 分数(row percent)。例如,在南京顾客中,非常喜欢的比例(行百分数)为 52/151=34.44%;二、用列联表中的数据除以最后一行的数据得到列百分数 (column percent),例如,在非常喜欢的顾客中,南京顾客的占比(列百分数) 为52/235=22.13%。
图1.1变量的类型 Statistics: principle and application 南京大学金陵学院 5
1.1 变量的类型
变量主要有如下两种类型:
1.分类变量(Categorical variables) 表现为不同的类别 如“性别”、“企业所属的行业”、“学生所在的学院” 等 分类变量可以分为不可排序的(“性别”)和可以排序的(“产品等级”) 分类变量的观察结果就是分类数据(categorical data) 2.数值型变量(Quantitative variables) 可以用阿拉伯数据来记录其观察结果 如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的 点数” 数值型变量的观察结果称为数值型数据 (metric data)
1.1 变量的类型 1.2 频数分布表 1.3 两个分类变量的关系
Statistics: principle and application
南京大学金陵学院
3
学习目标及重难点
【学习目标】: 1.用频数分布表描述数据的分布 2.用点图、条形图等图形来展示数据 3.用列联表分析两个分类变量之间的关系 【重难点】: 1.掌握用条件相对频数表示的对比条形图 2.两个分类变量是否独立
Statistics: principle and application
南京大学金陵学院
9
1.2 频数分布表
表1.2是住房满意度调查的累积频数分布表
表1.2 累积频数分布表
某城市家庭对住房状况评价的频数分布 回答类别 向上累积 频数 24 百分比频数% 8 累积频数 24 累积百分比% 8 向下累积 累积频数 300 累积百分比% 100
既不反对
也不喜欢 25 40 13 50 45 173
有点不 喜欢 12 21 7 23 19 82
完全不 喜欢 3 9 10 18 10 50
不知 道 1 2 0 3 3 9
Row Total 151 155 154 156 156 772 南京大学金陵学院 16
1.2 频数分布表
(1)列联表 由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各 个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。 比如上表中的“南京”这一行的数字52,表明有52名南京女性顾客非常喜欢 新夏装的款式。构成列联表的变量都是分类变量。一个 r 行 c 列的列联表称 为 r×c 列联表,一般的把2×2的二维列联表又称为交叉表(cross table)。 上表还展示了每一行人数的总和及每一列的总和,分别放在最后一列和最 后一行中。实际上,最后一行就是对新款夏装态度的频数分布。列联表的最 后一列反应的是变量“城市”的频数分布。在统计上就把列联表的这两部分 数据称为对应变量的边缘分布(marginal distribution)。
南京大学金陵学院
8
1.2 频数分布表
对于另一种可排序的分类数据,我们还可以做累积频数表 (cumulative frequency table)。 累积方法有两种:一种是从类别顺序的开始一方向最后一方累积 频数,称为“向上累积”;一种是从类别顺序的最后一方向开始 一方累计频数,称为“向下累积”。 累积频数(Cumulative frequency):各类别频数的逐级累加 累积频率(Cumulative percentage):各类别频率(百分比)的逐级 累加
这个关系要对所有的单元格都成立。例如,是男性并且生还的期望数量应该是
2201 P (男性,生还)=
1731 711 559.17 2201
而是男性并且生还的实际观测值为 367人,说明性别和生还与否之间是有关系的。我们在后面 的章节中会对这个问题作更进一步的讨论。
Statistics: principle and application