4第3章1-3节 定量资料的统计描述
卫生统计学笔记整理
卫生统计学笔记整理第1章绪论1、卫生统计学的概念:2、统计工作的基本步骤:3、卫生统计学的几个基本概念(attention:资料的分类)第2章调查研究设计1、调查研究的特点:2、调查研究的类型,按调查抽样比例划分.第3章实验设计1、实验设计的特点.2、实验设计的三要素四原则。
3、常用的实验设计方案:(attention:正确区别完全随机设计和配对设计)第4章定量资料的统计描述1、频数表的编制步骤和频数表的用途2、集中趋势的描述。
(P55知识点4-2)3、离散趋势的描述。
(P58知识点4-3)4、正态分布的特征5、制定医学参考值范围第5章定性资料的统计描述1、相对数是对定性资料进行统计描述的一类指标。
2、常用相对数(率、构成比、相对比)的定义3、应用相对数需要注意的问题[知识点5-3] P694、标准化法的意义和基本思想5、标准化率的计算方法与注意事项[知识点5-5] P74补充:1、该方法便于比较,但不能反映实际情况。
2、并非所有资料都可以计算标准化率,若各组间出现交叉,不宜用该方法。
3、两样本做标准化率后应做假设检验第6章总体均数和总体率的估计1、抽样误差的概念。
2、标准误的概念。
[知识点6-2] P793、t分布(了解)(一)t分布的概念与计算公式(二)t分布的特征与t界值表4、可信区间的概念。
5、总体均数的估计方法:[知识点6-3] P83第7章假设检验1、假设检验的基本思想及基本步骤[知识点7-1] P922、Ⅰ型错误与Ⅱ型错误。
[知识点7-2] P933、单侧检验与双侧检验区分。
[知识点7-3] P954、假设检验应该注意的问题。
[知识点7-3] P97第8章 t检验第一节样本与总体均数的比较1.检验步骤2.[知识点8-1] P1003.当样本数量n≧50或总体均数已知时用z检验[知识点8-2] P102第二节配对设计均数的比较1.检验步骤2.[知识点8-3] P103第三节两样本均数的比较1.检验步骤2.z检验的适用条件第9章方差分析第一节方差分析的基本思想和应用条件(1)总变异、组间变异、组内变异的定义与公式(2)条件:符合定量资料,具有独立性正态分布方差齐性的特征,多样本(3或3个以上)间的比较第二节完全随机设计的方差分析(1)检验步骤(2)注意事项:[知识点9-2] P120第四节多个样本均数的两两比较1.q检验适用范围:当方差分析得出结论拒绝H0接受H1假设时需进行q检验2.掌握检验步骤第10章 X2检验第一节2x2表的X2 检验(一)完全随机设计X2 检验1.检验步骤及公式2.注意事项:[知识点10-2] p141(二)配对设计X2 检验1.检验步骤及公式2.[知识点10-3] p142第二节RⅹC表的X2 检验1.注意事项:[10-4] p143第11章非参数检验适用条件:(1)总体分布形式未知或分布类型不明(2)偏态分布的资料(3)等级资料不能精确测定,只能以严重程度优劣等级次序先后等表示(4)不满足参数检验条件资料各组方差明显不齐(5)数据的一端或两端为不确定数值的资料、等级资料(6)[知识点11-1] p153第一节秩和检验1.检验步骤:详读p154 (2)(3)3.第二节两样本比较的秩和检验1.掌握编秩的方法2.注意条件详看p157的3第12章双变量关联性分析第一节直线相关1、直线相关的概念:又称简单相关,是用来描述具有直线关系的两变量x、y相互关系的统计方法,要求两变量均来自双变量正态分布的随机变量,且两变量不分主次,处于同等地位。
最新定量资料的统计描述
定量资料的统计描述第四章定量资料的统计描述通过调查或实验收集到资料之后,需要对资料进行统计分析。
统计分析包括统计描述和统计推断两个方面的内容。
统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。
本章介绍定量资料(quantitative data)的统计描述。
第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。
分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。
不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。
将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。
不同类型的定量变量可以制作不同分组形式的频数表。
(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。
本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。
将各组的频数除以总频数所得的值称为频率,见第(3)栏。
某组的累计频数是该组与前面各组频数之和,见第(4)栏。
显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%) 累计频数累计频率(%)(1) (2) (3) (4) (5)2 3 2.94 3 2.943 7 6.86 10 9.804 16 15.69 26 25.495 33 32.35 59 57.846 24 23.53 83 81.377 14 13.73 97 95.108 4 3.92 101 99.029 1 0.98 102 100.00合计102 100.00 ——(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。
《定量资料数据的统计描述》教案
《定量资料数据的统计描述》教案标题:定量资料数据的统计描述教案一、教学目标1.理解什么是定量资料数据的统计描述。
2.掌握常见的统计描述方法:集中趋势与离散程度。
3.能够应用统计描述方法对实际问题进行分析和讨论。
二、教学内容1.定量资料数据的统计描述的定义和意义。
2.集中趋势的统计描述方法:平均数、中位数、众数。
3.离散程度的统计描述方法:极差、四分位数、方差、标准差。
4.实例分析和练习。
三、教学步骤步骤一:导入(10分钟)1.向学生介绍定量资料数据的统计描述的概念和意义。
2.引导学生思考:为什么我们需要对数据进行统计描述?步骤二:集中趋势的统计描述(20分钟)1.介绍平均数的概念和计算方法。
2.分享实际应用平均数的例子,并提示其局限性。
3.介绍中位数的概念和计算方法。
4.引导学生分析什么情况下使用中位数比平均数更合适。
5.介绍众数的概念和计算方法,并解释其应用场景。
步骤三:离散程度的统计描述(25分钟)1.介绍极差的概念和计算方法。
2.引导学生思考四分位数的意义和计算方法,并分享实际应用的例子。
3.介绍方差的概念和计算方法。
4.介绍标准差的概念和计算方法,并解释其在数据分析中的重要性。
5.引导学生讨论方差和标准差的应用场景。
步骤四:综合分析和应用(25分钟)1.提供实际问题或案例,并引导学生运用所学内容进行分析和讨论。
2.给予学生时间思考和解答问题。
3.分享学生的分析和答案,并引导学生进行互动讨论。
步骤五:总结和拓展(10分钟)1.回顾本节课学习的内容和重点,确保学生对定量资料数据的统计描述有所掌握。
2.提示学生可以进一步了解其他统计描述方法,如箱线图等。
3.激发学生对数据分析和统计描述的兴趣,引导学生向实际问题应用所学方法。
四、教学评估1.教师针对学生的学习情况进行同步评估,包括学生积极参与讨论、能够正确运用统计描述方法等。
2.可以布置课后作业,要求学生分析和描述给定的数据集。
五、教学资源1.PPT或黑板/白板2.实际数据案例3.学生练习题和课后作业六、教学延伸1.引导学生自行寻找相关的应用案例进行研究和分析。
医学统计学第二版高等教育出版社课后习题答案
医学统计学第二版高等教育出版社课后习题答案第一章绪论1.举例说明总体和样本的概念。
研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。
例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。
2.简述误差的概念。
误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。
随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。
3.举例说明参数和统计量的概念。
某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。
根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。
统计量是研究人员能够知道的,而参数是他们想知道的。
一般情况下,这些参数是难以测定的,仅能够根据样本估计。
显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。
4.简述小概率事件原理。
当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。
第二章调查研究设计1.调查研究主要特点是什么?调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。
统计学第34章知识点与习题(含答案).446
A. 和各组次数分布多少无关
B.仅受各组标志值大小的影响
C. 受各组标志值和次数共同影响
D.不受各组标志值大小的影响
5、( )时,加权算术平均数等于简单算术平均数
A.当各组次数相等 B.当各组次数不等 C.仅当各组次数都等于 1D.当各组变量值不等
6、四分位数实际上是一种
A 算术平均数
B 几何平均数
4、当一组数据属于左偏分布时,平均数、中位数与众数的大小关系为________。
5、已知 4 个水果店苹果的单价和销售额,要求计算 4 店的平均单价,应用________平均
数。
二、单选题
1、两个总体的平均数不相等,标准差相等,则( )
A.平均数大,代表性大
B.平均数小,代表性大
C.两个总体的平均数代表性相同
C 位置平均数
D 数值平均数
7、已知某局所属 12 个工业企业的职工人数和工资总额,要求计算该局职工的平均工资,
应该采用________
A 简单算术平均法 B 加权算术平均法 C 加权调和平均法 D 几何平均法
8、某公司下属 5 个企业,已知每个企业某月产值计划完成百分比和实际产值,要求计算该
公司平均计划完成程度,应采用加权调和平均数的方法计算,其权数是
第三章 数据资料的统计描述:统计表和统计图
第一节 定性资料的统计描述 知识点: 1、 统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分
的一种统计方法。 2、 定性数据的频数、频率、百分数、累计频数、累积频率的概念及计算。 3、 定性数据频数分布表示方法主要有条形图、扇形图。
六、计算题
1、2006 年某月份甲、乙两农贸市场某农产品价格和成交量、成交额资料如下:
卫生统计学知识点(笔记)
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
定量资料的统计描述解析
第一节 频数分布表与频数分布图
统计描述是统计分析的最基本内容,也 是统计分析的重要一部分.在统计学中经常 用统计指标和统计图表来揭示和反映原始 资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其 相应频数之间关系的一类表格,我们称之为频 数表.这里频数指对一种变量在多个观察单位 中进行多次观察,其中某一变量值重复出现的 次数.
数表法两种。
(1)直接法 当观察例数 n 不大时,此法常用。
先将观察值按大小顺序排列,选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例 某病患者 8 人的潜伏期(天)分别为 2,3,3,4,7,8, 10,18,求它们的中位数。
本例 n=8 为偶数,将 8 人潜伏期从小到大排列,用公式算 得
➢ 不同的资料类型编制频数表难易程度不同,其 中计数资料和等级资料比较简单,而计量资料 相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8- 15 之间
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用
符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示,
3-1定量资料的统计描述
back
频数分布表和频数分布图
原因:由于个体变异的存在,医学研究中某指标
在各个体上的观察结果不是恒定不变的,但也不是 杂乱无章的,而是有一定规律的,呈一定的分布 (distribution)。
现状:医学研究得到的原始数据(raw data)往往
是庞大的、混乱的。
解决:频数分布表的基本思想:将原始数据按照
适用条件:任何分布(偏态、分布不明、两端无 界限)
X ( n1)/ 2 M ( X n / 2 X n / 21 )/ 2
当n为奇数 当n为偶数
中位数计算
例3-6 12名晚期肺癌患者的生存时间(月)分别为: 1,1,2,2,2,2.6,3,3.4,4,4,5,5,计算生 存时间的中位数。
3.2.1 算术均数
简称均数(arithmetic mean, mean,μ)
1.定义
X1 X 2 X n X n
X
i 1
n
i
n
2 .适用条件:单峰对称分布、正态分布的资料
例3-2 对例3-1的心率数据求均数。
X 56 136 /140=96.1 (次/分)
2 0
1 0
0
0
5
10
15
20
25
30
35
40
45
生存时间(月)
偏态,正偏态和负偏态
分布不对称者称为偏态分布。偏态分布又分 为正偏分布和负偏分布。
正偏分布是指分布的长尾在峰的右侧,又
称右偏分布;
负偏分布是指分布的长尾在峰的左侧,又
称左偏分布。
集中位置和离散趋势
40
人 数
30
20
10
三、定量资料的统计描述 管理统计学 课件
12
10
8
工 人6 数
4
2
0
1
2
3
10
11
12
图2—6 日产量的条形图
4
5
13
14
日产量(件)
日产量的累计次数分布图
累 35
计 30
工 人
25
数 20
15
10
5
0
110
121
132
143
向上累计 向下累计
154 日产量(件)
图2—7 日产量的累计次数分布图
(二)组距式分布数列
• 组距分组是将全部变量值依次划分为若 干个区间,每一区间作为一组。
∴确定组距为1;
• ③确定组限
各组的上限(Upper limit)
各组的下限(Low limit)
(一般地,最低组的下限应小于最小的 变量值,最高组的上限应大于最大的变 量值。)
本例中,最低组的下限确定为2,最高 组的上限确定为9。
(若相邻组的上下限重叠,必须遵循 “上限不在内”的原则。)
• ④根据分组,整理频数分布表
• 组距分组适用于连续型变量,或离散型 变量的变量值较多的情况。
• 组距分组形成组距式分配数列。
例4 以下数据是某一周50个销售人员 获得的订单金额(单位:1000元)
6.0 5.9 3.5 2.9 8.7 7.9 7.1 5.0 5.2 3.9 3.7 6.1 5.8 4.1 5.8 6.4 3.8 4.9 5.7 5.5 6.9 4.0 4.8 5.1 4.3 5.4 6.8 5.9 6.9 5.4 2.4 4.9 7.2 4.2 6.2 5.8 3.8 6.2 5.7 6.8 3.4 5.0 5.2 5.3 3.0 3.6 3.8 5.8 4.9 3.7
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2)众数主要用途及注意事项
①一批数据中相同数据出现次数较多时,可 以众数作为代表值,如市场上可以用某药品 价格的众数代表该药品行情; ②与 x 配合可判断分布的偏度。
百分位数适用条件与用途
①描述样本或总体观察值序列在某百分位位 置的水平; ②多个百分位数结合应用时,可更全面地描 述总体或样本的分布特征; ③对于偏态资料或者分布不明资料,常用百 分位数求医学参考值范围等的界限; ④在假设检验中用作拒绝或接受检验假设的 界值。
5. 众数(mode,Mo)
3.方差(variance )
2 2 σ ,s
离均差——每一个观察值与均数之差,即X-μ,可以 反映所有观察值的变异程度。 离均差平方和——Σ(x-μ)2
方差——离均差平方和的平均值
σ2=Σ(x-μ)2/N
观察值离均数近,方差就小,表示观察值离散 小,数据较集中。若各观察值离均数远,方差就大, 表示各观察值离散度大,数据分布分散。
②一端或两端无确切值资料的集中趋势;
③数据离散度大,又不呈倍数关系资料, 宜选用中位数表达其平均水平。
4. 百分位数
xmin
P25
P50
P75
xmax
将n个观察值从小到大依次排列,再把它分成 100等份,对应于第x%位次上的数值即第x百分位数, 记为Px 。
Px =L+i(nx%-∑fL)/ fx
某地148名正常人血糖(mmol/L)频数分布表
组段 330~ 350~ 370~ 390~ 410 ~ …… 610~ 630~650 划记 频数 1 0 2 频率(%) 累积频数 累积频率(%) 0.7 0 1.4 1 1 3 0.7 0.7 2.0
1
0.7
合计
2. 频数分布图编制
以横轴表示观察值,纵坐标取为频数与组距之比,在各组 段上作长方形,即得定量资料的频数分布图----直方图。 直方图的纵坐标也可取为频率与组距之比,则长方形面积 大小描述的是频率,长方形面积之和为100%,这样的分布图 称为频率分布图 .
4)均数注意事项
①对于偏态分布资料不是很好的 描述指标 ②当资料中出现极大值或极小值 时,不宜选用
2. 几何均数(geometric mean,G)
【例3-3】 8名脾虚纳呆患儿尿液淀粉酶 的含量(U/10min)为4,4,8,8,8,16, 16,32,求其平均含量。 G = n x1 x2 ... xn
2)几何均数适用条件与用途
①适用于描述如抗体的平均滴度和平均效价等原 始数据呈倍数变化或等比的平均水平; ②描述观察值呈对数正态分布资料的平均水平; ③描述数据中
①不能有观察值为0;
②观察值不能同时有正值和负值。
处理办法:若数据全为负,可先把负号去 掉,得出结果后再加上负号。
ý Ë Ê È
正偏态分布
25 20
ý Ë Ê È
15 10 5 0
13.5 19.5 25.5 31.5 37.5 43.5
ª Ç Ñ å ³ ª ° ±Ã ¸
115à û Õ ý ³ £ ³ É Ä ê Å ® ³ Ó Ñ ª Ç å ³ ª ° ±¸ à µ Ä Æ µ Ê ý ² Ö ² ¼
s2
Σ(x- x )2=( n-1) s2
血糖频数表
…
随机测得某地148名正常人血糖(mmol/L)结果
493 488 483 490 454 435 412 437 334 495 519 549 525 553 585 541 395 485 481 490 497 503 436 547 524 551 598 400 418 441 451 487 481 492 537 522 554 385 402 411 439 448 490 466 467 498 507 517 546 532 575 446 441 480 465 482 498 505 515 542 536 573 429 443 449 485 468 481 544 534 578 524 449 451 470 470 478 502 512 503 544 525 568 415 458
平均数
几何均数
调和均数
众数 意义:
1. 反映一组同质变量值的平均水平或分布的集中位置。 2. 作为一组资料的代表值,便于组间的分析比较。
1)直接法
对于观察值个数不多的 未分组资料
2)加权法
对于观察值中出现较多相 同的数据或频数表资料
x1,x2,...为各个组段的组中值.
3)均数适用条件与用途
① 适用于描述对称分布,尤其是正态分布的资 料数据的平均水平或集中趋势; ② 可作为同类现象在不同空间和时间上进行比 较的指标; ③ 用于估计其它有关的指标 。
476 502 517 507 549 524 564 569 632 534 498 515 497 473 475 480 456
461 454 470 473 478 493 514 512 541 544 558 554 378 531 500 509 495 417 500 517 503 534 546 416 520 451 453 505 512 404 431 510 505 487 490 410 470 485 415 497 593 500 458 456 483 471
又称全距。 R = xmax-xmin 1) 优点:简单明了 2) 缺点:
① 除了最大值和最小值外,不能反映组内其他数据 的变异度;
② 观察例数越多,抽到较大或较小变量值的可能性 越大,因而极差可能越大,故样本例数悬殊时不宜比 较其极差; ③ 即使样本例数不变,极差的抽样误差亦较大,即不 够稳定。
2.四分位数间距 (quartile interval,QR)
3. 中位数
优点:不受两端极大值或极小值的影响, 对一端或两端无确切值的资料(如<1、 >100),也可计算中位数。
反映位次居中的观察值水平。
n为奇数时: n为偶数时: M = x(n+1)/ 2 M = [ x n / 2 + x 1+ n / 2 ] / 2
中位数适用条件与用途
①描述偏态分布或分布情况不明资料的集 中位置,反应位次居中的观察值水平;
例题3-1
SPSS操作
(1)建立数据文件L3-1. sav:Variable View(变量 窗)以血糖为名,Data View(数据窗)输148数. (2)Analyze →Descriptive Statistics→ Frequencies, 血糖入Variables→ Statistics, Cut points for[10]equal groups,全选√ → continue → charts → histograms with normal curve → continue →OK 。
9 149 ~ 正 93.1 (87.5~93.1) P1.5 25=0.9+0.1x[(160x25%-37)/54]=0.9056
1.7~1.8 合计
3
160
160
100.0 (98.1~100)
【例3-4】调查得某市1979年996名女大 学生月经初潮年龄分布如表3-5。
Px =L+i(nx%-∑fL)/ fx
负偏态分布 25 20 15 10 5 0
ý Ë Ê È
2.5
12.5
22.5
32.5
42.5
ª Ç Ñ å ¼ ¡ º ì µ °³ °
101Ã û Õ ý ³ £ È Ë Ñ ª Ç å ¼ ¡ º ì µ °³ °µ Ä Æ µ Ê ý ² Ö ² ¼
第二节 描述集中趋势的指标
算术平均数
中位数
DPS操作
3. 频数分布的特征
集中趋势(central tendency):集中形成高峰 离散趋势(tendency of dispersion):离散成尾
分布形状
对称分布 正偏态分布 负偏态分布
对称分布
正偏态分布
60 50 40 30 20 10 0 ´ µ ó ¥ º Ë Ï ¸ ° û Ê ý 204à û þ Ô Ö ¸ ¹ ¤Ë È ° ³¸ Ï ° û Ö Ð ´ ó µ ¥ Ë º ¸ Ï û °Ë ù Õ ¼ ° Ù Ö ± ² È
第三章 定量资料的统计描述、 参考值范围
教学目的与要求 :5学时 掌握:描述集中、离散趋势的指标、正态分布的规律。 熟悉:频数分布表和分布图、容许区间与参考值范围。 了解:变量变换、离群值的取舍 。 教学内容提要 : 重点讲解:描述集中、离散趋势指标、正态分布规律。 讲解:频数分布表和分布图、容许区间与参考值范围。 介绍:变量变换、离群值的取舍 。 重点:描述集中、离散趋势的指标、正态分布的规律。 难点:正态分布的密度函数和分布函数 、变量变换。
分成16组段:(632-334)/15=19.8
1. 频数分布表的编制
找全距 全距(极差)=最大值-最小值。 定组距 常用全距的1/10(1/15)取整作为组距,等距 写组段 每个组段的起点称组下限,终点称组上限。 第1组段包括最小值,最后1组包括最大值。 组段写为上限开口型,最末一组段同时写出 其下限和上限。 列表划记 将原始数据采用划记法或计算机汇总,得到各 个组段的观察单位数(频数),列成频数表。
12
24 37 54 72 92 110 127 140 157
7.5 (1.9~7.5)