医药统计学 第一章 数据的描述与整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类或分组:
质量分类——按性质、类别分类整理,即“同质者 合并,非同质者分开”的原则对资料进行分组。多 用于定性数据(定类或定序数据)的整理。一般用 二维表。 数量分组——按数量大小分组整理,即在同质基础 上根据数值大小进行分组,组与组之间是连续的或 非连续的。多用于定量数据(数值数据)的整理。 拟订整理表:汇总归纳。 制定统计图表或报告。
国际标准通用的统计分析软件,但操作略为繁琐。 (二)SPSS(社会科学统计软件) 全称Statistical Package for Social Science,是当前 最流行,应用最广泛的专业统计分析软件,操作
方便。
(三)EXCEL(电子表格软件) 可进行基本的统计分析。操作简便。
频数分布的特征:
统计学(statistics):以概率论、数理统计学为基 础,研究资料和信息(数据)的搜集、整理、分析 和解释的科学。 目的是帮助人们分析所占有的信息,达到去伪 存真、去粗取精、正确认识世界的一种重要手段。 1、statistics :单数名词表示统计学,复数名词表示统 计数据或资料。
Webster国际大辞典(第三版)对统计学的定义 是:“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。
(4)分析资料(analysis of data):目的是计算有关 指标,反映数据的综合特征,阐明事物的内在联系 和规律,是统计学的核心。包括: 统计描述(descriptive statistics):用统计指标(样 本均数、标准差、率)与统计图(表)等方法对样本 资料的数量特征及其分布规律进行描述分析事物特 征。
当n为奇数 当n为偶数
eg:
9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 Me=4.8 9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 >16 Me=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 >16 Me=(4.8+5.6)/2=5.2
统计推断(inferential statistics):指如何抽样,以 及如何用样本信息推断总体特征,分析事物间相互 关系(eg:药物疗效的统计学分析) 。
⑸ 解释资料(interpretation of data):对统计结果进
行说明和应用(eg:药物疗效的统计判断) 。 进行资料分析时,需根据研究目的、设计类型和资 料类型选择恰当的描述性指标和统计推断方法。
数分布大致对称。特殊的对称分布为正态分布 (normal distribution)。
eg:体重、身高等生理、生化检测结果等。
偏态分布:频数分布不对称,集中位置偏向一侧。
40 人 数 30 20 10 0 124 132 140 148 身高(cm)
对称分布
156
164
eg:
.236364
Fraction
– 次级资料(二手资料):文献的二次开发(循证 医学)。
⑶ 整理资料(sorting data):通过科学的分组和归纳, 用图表的形式来展示资料特征,使原始资料系统化、 条理化,便于进一步计算统计指标和分析。 步骤: 审核:遵循及时性、完整性、准确性、有效性原则。 包括逻辑检查与技术检查。 ( eg:录入误差——170输入为17,对结果影响 较大,故应进行双份录入)
分布的集中趋势(central tendency):身高有高有 矮,但多数人身高集中在中间部分组段,以中等身 高居多,此为集中趋势。
分布的离散程度(dispersion):由中等身高到较矮或
较高的频数分布逐渐减少,反映了离散程度。对于 数值变量资料,可从集中趋势和离散程度两个侧面
去分析其规律性。
分布的形状:峰度与偏度。
理论基础——概率论、数理统计 研究对象——随机、不确定的现象 医药领域:新药研制、药物鉴定、药理分析、试验 设计、药政管理、处方筛选、医药信息等。
二.学习医药数理统计学的目的 与要求
目的:
掌握医药数理统计学的基本理论、基本方法、
基本统计技能,为今后从事医药领域的科学研究、 阅读专业书刊、从事具体的实践工作打下必要的数 理统计学基础。
(3) 确定组段:各组段的起点和终点分别称为下限和上 限。
原则:不重不漏; <注 >: 第一组段应包括全部观察值中的最小值,最末组段 应包括全wenku.baidu.com观察值中的最大值,并且同时写出其下 限与上限。 连续性资料的某组段包含下限,但不包含上限。
(4) 计算频数,形成频数分布表:确定组段界限,列成
表1.3的形式,采用计算机或用划记法将原始数据汇 总,得出各组段的观察例数,即频数,表中的第 (1)、(2)栏即所需的频数表。 <注>: 连续性计量资料各组段上限不标出,以表示其连续性。 计算机编制准确、快速,但应保证原始数据的准确输
Last JM 主编的一本流行病学辞典对统计学的 定义是:“ the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results ” 。 由此看出:统计学是处理资料中变异性的科学 和艺术,是在收集、归类、分析和解释大量数据的 过程中获取可靠结果的一门学科,强调了“过程”。
n
2
i 1
i 1
其中,a为任意实数。
2.中位数(median):将一组数据按从小到大的
顺序排列,位置居中的数即是中位数。是反 映一组同质的呈非正态分布的数值数据和定 序数据的平均水平。用 Me 表示。
(1)计算:
直接法:样本含量较少
X ( n1) / 2 M ( X n / 2 X n / 2 1 ) / 2
平,应用甚广,最适于对称分布资料,特别是
正态或近似正态分布的数值资料;
对于偏态资料,均数不能较好地反映其集
中趋势。
我也知道 了!
(3)数学性质:
截尾 均值
eg: 比赛时去 掉一个最高分、 一个最低分, 然后计算均值。
( xi x )=0
i 1 n
n
2 ) ( x xi a x i
<注 >:
不同的频数分布类型资料应选用不同的统计分析 方法。
偏态分布 正偏态
8
10
负偏态
6
Frequency
4
Frequency
5
2
0 1 2 3 4 5 var5 6 7 8 9
0 1 2 3 4 5 var6 6 7 8 9 10
二、常用统计软件简介
(一)SAS(统计分析系统)
全称Statistical Analysis System,是当前最流行的
一.数据分布集中趋势的描述
频数分布表、图显示的集中趋势和离散程度较 粗略,而计算其各指标则是准确、定量描述其 分布特征。
集中趋势指标:平均数,反映观察值的集中位 置或平均水平,即观察值的典型水平或代表值。 描述一组同质观察值的平均水平或中心位置的 常用指标有均数、中位数、众数、几何均数等。
平均水平指标
⑵
收集资料(collection of data):遵循统计学原理 采取必要措施得到准确可靠的原始资料。 基本原则:及时、完整、准确、可靠、系统原则。 资料来源:
– 原始资料(一手资料):包括经常性资料。 eg: 日常医疗卫生工作记录、统计报表、专门报告卡 等;专题研究资料(一时性资料)。 eg:专题 调查资料、实验研究资料。
2、统计学(统计工作)的内容:任何统计工作和统计研 究的全过程都可分为以下五个步骤: ⑴ 设计(design):关键、依据。在进行统计工作和研
究工作之前必须有一个周密的设计。
前期准备工作: 查阅文献 了解现状 征询意见
设计内容包括: 确定研究目的、研究假说; 确定观察对象、观察单位、样本含量和抽样方法; 拟定研究方案; 预期分析指标、误差控制措施、进度与费用等。 设计是整个研究工作中最关键的一环,也是指导 以后工作的依据。
医药统计学
一.基 本 概 念
概率论(probability):是研究随机现象数量规律的 数学学科。
研究对象
eg:研究运动员打靶成绩的规律,分析11种可能结 果(0、1、2、3、4、….、10环)出现的概率及其规 律性。 数理统计(mathematical statistics):以概率论为基 础,通过对数据的收集、整理、分析和推断来研究随 机现象的统计规律的学科。
统计工作的五个步骤紧密相连、不可分割,任何一
步的缺陷,都将影响整个研究结果。
目前,应用广泛,成为医药学研究、疾病防治、卫 生事业管理等多方面的重要手段、工具之一,即成 为方法论。
医药数理统计学(Mathematical statistics of
medicine): 应用概率论与数理统计学的原理与方法研究医 药学以及卫生服务领域中数据的收集、整理、分析 和解释的一门科学。
解:
x=
17.3+18+ … 25.5 10
=21.35(kg)
加权法(weighting method):频数表 资料或样本中相同观察值较多
x =
=
f1x1+ f2x2 + f3x3 + … fnxn f1+ f2 + f3 + … fn fx
组中值
f
它是权重!
(2)应用(适用条件): 均数能全面反映全部观察值的平均数量水
0 110.2 身高 134.5
图1 某市110名7岁男童身高的频数分布
正偏态分布:又称右偏态分布,指观察值较多的集 中在数值较小的一侧 ( eg:传染病的潜伏期、非必需元素
含量分布等)。
负偏态分布:又称左偏态分布,指观察值较多的集 中在数值较大的一侧( eg:学生成绩、儿童视力、糖尿病
年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布 为负偏态分布)。
1.算术均数(arithmetic mean, mean) :简称均数,
是反映一组同质的呈对称分布的数值数据的平
均水平的指标,用得最多的统计描述指标。 总体均数 样本均数
μ
x
(1) 计算: 直接法:样本含量较少
eg: 10名七岁儿童体重(kg)分别17.3,18.0,19.4, 20.6, 21.2, 21.8, 22.5, 23.2, 24.0, 25.5, 求平均体重。
一、数据的统计整理和图示
研究统计资料的第一步工作是判断统计资料的频数分 布类型(故应初步编制频数分布表,绘制频数分布图)。
频数(frequence):各类别的数据个数,即观察值 的个数。 频率(frequency/ relative frequency):各类别的数 据个数占总数据个数的比例值。 频数分布表(frequency table):反映各类别及其相 应频数的表格形式,即观察值在其所取范围内分布的 情况。
(1)确定组数k:100~400个数据,一般分5~15个组 段,可适当变动。 观察单位较少时组段数可相对少些,观察单位较多 时组段数可相对多些。
Sturgesr的经验公式计算组数:k=1+lnN/ln2
(N:数据的个数;ln:以e为底的自然对数)
<注 >:
不可过多:资料分散,编制与计算繁锁,且分布规律不能显示。 不可过少:损失信息,计算误差较大,且无法显示分布特征。
原则:以显示数据的分布特征和规律为依据。
(2)确定组距(class interval/ class width):相邻两组 段的下限之差称为组距。 全距或极差(range): R = 最大值—最小值 = Xmax — Xmin
组距(d):d = R / k
<注>:d 可等距,也可不等距。 eg:数据中有特大或特小的数值(食物中毒的潜 伏期,年龄分组0-、7-、18、60-等)。
入和组距的合理设计。
频数表的用途
陈述资料,便于进一步分析。
观察频数分布的特征:定性描述——集中趋势、 离散趋势和分布的的形状。
观察数据的分布类型(初步判定),以便选取适
当的统计方法。 发现资料中某些特大或特小的可疑值。 当样本含量较大时,各组段的频率作为概率的估 计值。
频数分布的类型
对称分布:指多数频数集中在中央位置,两端的频