统计数据的概括性描述

合集下载

【统计学】4.数据的概括性度量

【统计学】4.数据的概括性度量

【统计学】4.数据的概括性度量【统计学】4.数据的概括性度量4.1 集中趋势的度量4.2 离散程度的度量4.3 偏态与峰态的度量学习⽬标1.集中趋势各测度值的计算⽅法2.集中趋势各测度值的特点及应⽤场合3.离散程度各测度值的计算⽅法4.离散程度各测度值的特点及应⽤场合5.偏态与峰态的测度⽅法6.⽤excel 计算描述统计量并进⾏统计4.1 集中趋势的度量集中趋势(central tendency )1.⼀组数据向其中⼼值靠拢的倾向和程度,反映了⼀组数据中⼼点位置所在2.测度集中趋势就是寻找数据⽔平的代表值或中⼼值3.不同类型的数据不同的集中趋势测度值4.低层次数据的测度值适⽤于⾼层次的测量数据,但⾼层次的数据的测度值并不适⽤于低层次的测量数据4.1.1 分类数据:众数众数(mode )1.⼀组数据中出现次数最多的变量值2.⼀般仅适合数据量较多时使⽤3.不受极端值得影响4.⼀组数据可能没有众数或有⼏个众数(众数可能不唯⼀也可能不存在)5.主要⽤于分类数据(分类数据只对应分类的频数),也可⽤于顺序数据和数值型数据4.1.2 顺序数据:中位数和分位数中位数(median )1.⼀组数据排序后处于中间位置上的值2.中位数不受极端值的影响3.中位数主要⽤于顺序数据,也可⽤于数值型数据,但不适⽤于分类数据中位数(位置和数值的确定)排序位置确定n +12数值确定M e =x (n +12),n 为奇数12[x (n2)+x (n2+1)],n 为偶数因此中位数不⼀定是原数据中的某个变量值四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.计算公式Q L 位置=n4,Q U 位置=3n4,4.如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按⽐例分摊位置两侧数值的差值(加权平均数概念){{4.1.3 数值型数据:平均数平均数(mean )1.也称为均值2.集中趋势的最常⽤测度值3.⼀组数据的均衡点所在4.体现了数据的必然性5.易受极端值的影响6.有简单平均数和加权平均数之分7.根据总体数据计算,称为平均数,即为µ,根据样本数据计算的,称为样本平均数,即为x 简单平均数(算数平均数)设⼀组数据为:x 1,x 2,...x n (总体数据x N )样本平均数¯x =x 1+x 2+...+x n n =∑n i =1x i n 总体平均数µ=x 1+x 2+...+x N N =∑Ni =1x iN加权平均数(Weighted mean )设各组的组中值为:M 1,M 2,...,M k 相应的频数为:f 1,f 2,...f k 样本加权平均¯x =M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑k i =1M i f in总体加权平均µ=M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑⼏何平均数(geometric mean )1. n 个变量值乘积的n 次⽅根2. 适⽤于对⽐率数据的平均3. 主要⽤于计算平均增长率4. 计算公式为G =nx 1×x 2×...×x n =nn∏i =1xi4.1.4众数、中位数和平均数的⽐较1. 众数不受极端值影响具有不唯⼀性数据量较⼤时众数才有意义数据分布偏斜程度较⼤且有明显峰值时应⽤2. 中位数不受极端值影响数据分布偏斜程度较⼤时应⽤3. 平均数利⽤了全部数据信息,数学性质优良易受极端值影响数据对称分布或接近对称分布时应⽤4.2 离散程度的度量离中趋势1.数据分布的⼀个重要特征2.反映各变量值远离其中⼼值的程度(离散程度)3.从另⼀个侧⾯说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值4.2.1 分类数据:异众⽐率异众⽐率(variation ratio )1. 对分类数据离散程度的测度2. ⾮众数组的频数占总频数的⽐例3. 计算公式v r =∑f i −f m ∑f i=1−f m∑f i4.⽤于衡量众数是否具有代表性4.2.2 顺序数据:四分位差四分位差(quartile deviation )1. 对顺序数据离散程度的测度2. 也称为内距或四分间距3. 上四分位数与下四分位数之差Q d =Q U −Q L4. 反映了中间50%数据的离散程度5. 不受极端值影响√√6. ⽤于衡量中位数是否具有代表性4.2.3 数值型数据:⽅差和标准差极差(range)1. ⼀组数值型数据的最⼤值和最⼩值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布,数据利⽤率低5. 计算公式为R=max(x i)−min(x i)标准差(mean deviation)1. 各变量值与其平均数离差绝对值的平均数2. 能全⾯反映⼀组数据的离散程度3. 数学性质差,实际应⽤较少4. 计算公式未分组数据M d=∑n i=1|x i−¯x|n组距分组数据Md=∑k i=1|M i−¯x|fin⽅差和标准差(variance and standard deviation)1. 各变量与其平均数离差平⽅的平均数2. 数据离散程度的最常⽤测度值3. 反映了各变量与均值的平均差异4. 根据总体数据计算的,称为总体⽅差(标准差)σ2(σ)根据样本数据计算的,称为样本⽅差(标准差)s2(s)⽅差的计算公式未分组数据s2=∑n i=1(x i−¯x)2n−1组距分组数据s2=∑k i=1(M i−¯x)2fin−1标准差的计算公式未分组数据s=∑n i=1(x i−¯x)2n−1组距分组数据s=∑k i=1(M i−¯x)2fin−1为什么是除以n-1⽽不是n?⾃由度(degree of freedom)1. ⾃由度是指数据个数与附加给独⽴观测值的约束或限制的个数之差2. 从字⾯涵义看,⾃由度是指⼀组数据中可以⾃由取值的个数3. 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以⾃由取值,其中必有⼀个数据不能⾃由取值。

中级统计师统计业务知识公式

中级统计师统计业务知识公式

中级统计师统计业务知识公式1.描述性统计公式描述性统计是统计学中最基础和常用的方法之一,用于对数据进行概括性的描述。

以下是常用的描述性统计公式:- 平均数(Mean):指一组数据的总和除以其观测值的个数。

计算公式为:平均数 = 总和 / 观测值个数。

- 中位数(Median):指将一组数据按大小排列,位于中间位置的数值。

计算公式为:中位数 = (n + 1) / 2,其中n为观测值个数。

- 众数(Mode):指在一组数据中出现次数最多的数值。

对于连续数据,可通过分组频数表找出众数。

- 极差(Range):指一组数据中最大值与最小值之间的差值。

计算公式为:极差 = 最大值 - 最小值。

2.概率公式概率是统计学中的一个重要概念,用于描述随机事件发生的可能性。

以下是常用的概率公式:- 频率概率(Empirical Probability):指事件发生的频率。

计算公式为:频率概率 = 事件发生次数 / 总试验次数。

- 独立事件的乘法公式(Multiplication Rule for Independent Events):指两个或多个事件相互独立时,它们共同发生的概率等于各事件发生的概率的乘积。

- 条件概率(Conditional Probability):指在一定条件下事件发生的概率。

计算公式为:条件概率 = 事件发生次数 / 条件出现次数。

- 贝叶斯公式(Bayes' Theorem):指用于计算在已知事件的条件下,另一个事件发生的概率。

计算公式为:P(A,B) = P(A) * P(B,A) /P(B),其中P(A)和P(B)分别为事件A和事件B独立发生的概率,P(B,A)为在事件A发生的条件下事件B发生的概率。

3.假设检验公式假设检验是统计学中用于判断统计样本与总体之间关系的方法。

以下是常用的假设检验公式:- Z检验公式(Z-test):适用于大样本(样本容量大于30)的情况下,比较样本均值和总体均值的差异。

论文中的统计分析方法

论文中的统计分析方法

论文中的统计分析方法统计分析在论文撰写过程中起着关键的作用,它能帮助研究者揭示数据背后的规律和趋势。

本文将讨论论文中常用的统计分析方法,包括描述统计分析、推断统计分析和实证研究方法等。

一、描述统计分析描述统计分析是论文中最常见的分析方法之一,它主要用于对数据进行概括性的描述和总结。

描述统计分析的常见方法包括:1. 频数分析:通过计算每个变量的频数,研究者可以了解各个变量的取值分布情况。

这种方法特别适用于分类变量的分析。

2. 中心趋势分析:中心趋势分析用于描述数据的集中程度,常用的统计指标包括平均值、中位数和众数。

这些指标能够反映数据集的典型值,帮助研究者了解数据的分布情况。

3. 离散程度分析:离散程度分析用于描述数据的离散程度,包括范围、方差和标准差等指标。

这些指标可以帮助研究者判断数据集的稳定性和一致性。

二、推断统计分析推断统计分析是基于样本数据对总体进行推断的方法。

推断统计分析的常见方法包括:1. 假设检验:假设检验用于验证关于总体参数的假设,通过计算样本统计量和假设的总体参数之间的差异,确定是否拒绝原假设。

假设检验包括单样本检验、双样本检验和方差分析等。

2. 置信区间估计:置信区间估计用于估计总体参数的范围,通过计算样本统计量和置信水平确定的误差范围,得到总体参数的估计区间。

置信区间估计能够提供对总体特征进行准确估计的方法。

3. 相关分析:相关分析用于研究两个或多个变量之间的相关关系。

常见的相关方法包括皮尔逊相关系数和斯皮尔曼等级相关系数。

相关分析可以帮助研究者了解变量之间的相关性和相关方向。

三、实证研究方法实证研究方法通过对现实世界中的数据进行观察和实证分析,以验证研究假设或回答研究问题。

实证研究方法的常见应用包括:1. 实证调查研究:实证调查研究通过设计问卷或面谈来收集数据,并运用统计分析方法对数据进行分析。

这种方法适用于定量研究,可以帮助研究者了解调查对象的态度和行为。

2. 实证实验研究:实证实验研究通过设计实验条件和控制变量,观察和测量因变量在不同自变量条件下的变化。

统计学第四章-数据的概括性度量

统计学第四章-数据的概括性度量
在数据集中,众数组是出现频率最高的一组。 Set of data may have one mode (or modal
class), or two or more modes (or modal class). 数据集可能有一个众数(组),或两(多)个众数
(组)。
The modal class 众数组
(计算公式)
Me
1X2NX21N2
XN21
当N为奇数时 当N为偶数时
数值型未分组数据的中位数
(5个数据的算例)
位 置 N1513 22
中位数 22
数值型未分组数据的中位数
(6个数据的算例)
原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6

n
(xi x) 0
i1
2). 各变量值与均值的离差平方和最小
n
(xi x)2 min
i1
(二)、调
和平均数 是总体各单位标志值倒数的算术平
harmean (harmonic mean)
均数的倒数,又叫倒数平均数
【例】 设X=(2,4,6,8),则其调和平 均数可由定义计算如下:
⒈求各标志值的倒数 : 1 ,1 ,1 ,1
第四章 数据的概括性度量
4.1 集中趋势度量 4.2 离散程度的度量 4.3 偏态与峰态的度量
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰度 (形状)
4.1 集中趋势的度量
4.1.1. 分类数据:众数 4.1.2. 顺序数据:中位数和分位数 4.1.3. 数值型数据:均值 4.1.4. 众数、中位数和均值的比较
2. 相邻两组的频数相等时,众不相等时,众数采用 下列近似公式计算

研究数据收集、处理和描述的统计学方法

研究数据收集、处理和描述的统计学方法

研究数据收集、处理和描述的统计学方法
1、数据收集:首先需要进行数据收集。

数据可以来自实验或观察,
可以是定性的或定量的。

定性数据是通过采访、调查或观察等方式收集的,而定量数据是通过测量工具或问卷等方式收集的。

2、数据处理:一旦收集到数据,就需要对数据进行处理。

数据处
理包括清洗数据、整理数据、验证数据的准确性和完整性等。

清洗数据是指删除或修正错误或缺失的数据,整理数据是指将数据进行转换和规范化,以便进行分析。

3、数据描述:数据描述是对数据进行统计分析的过程,包括对数
据的概括性描述和详细性描述。

概括性描述包括均值、中位数、众数等统计指标,而详细性描述包括直方图、箱线图、时间序列图等图表。

4、统计分析:根据研究目的和数据类型,选择适当的统计分析方
法,例如假设检验、方差分析、回归分析等。

这些方法可以帮助研究者确定数据之间的关系和模式,从而得出结论和建议。

5、报告结果:最后,研究者需要将分析结果以图表和文字的形式
呈现出来,以便其他人理解和使用。

统计学人大第四版课后答案

统计学人大第四版课后答案

3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。

服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。

调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB AC E E A BD D CA DBC C A ED C BC B C ED B C C B C要求:(1)指出上面的数据属于什么类型。

顺序数据(2)用Excel制作一张频数分布表。

用数据分析——直方图制作:接收频率E16D17C32B21A14(3)绘制一张条形图,反映评价等级的分布。

用数据分析——直方图制作:(4)绘制评价等级的帕累托图。

逆序排序后,制作累计频数分布表:接收频数频率(%)累计频率(%)C 32 32 32B 21 21 53D 17 17 70E 16 16 86A 14 14 1005101520253035CDBAE204060801001203.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 9788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数:()l g 40l g () 1.60206111 6.32l g (2)l g 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

资料分析的统计方法与技巧

资料分析的统计方法与技巧

资料分析的统计方法与技巧在社会科学研究领域中,资料收集和分析是非常重要的一环。

通过对已有数据的统计方法和技巧的运用,可以帮助我们更深入地了解现象背后的规律和趋势。

本文将介绍几种常用的资料分析统计方法与技巧,并探讨其适用范围和操作步骤。

一、描述统计法描述统计法是分析研究对象特征和现象分布的一种方法。

它通过收集、整理、计算和归纳数据的方式,对数据进行概括性的叙述和描述。

常见的描述统计指标包括平均数、中位数、众数、方差、标准差等。

在资料分析中,借助描述统计法可以帮助我们了解数据的总体特征,并从整体上观察其分布情况。

二、推断统计法推断统计法是利用样本数据对总体数据进行推断和判断的方法。

它通过对样本数据的分析,推断出总体数据的特征和参数,并进行推理和推断。

常用的推断统计方法包括假设检验、置信区间估计、方差分析、回归分析等。

推断统计法在资料分析中的应用非常广泛,例如通过样本调查来推断全国范围内某一现象的普遍情况。

三、相关分析法相关分析法是用来衡量两个或多个变量之间关联关系的方法。

通过计算相关系数,可以分析变量之间的相关程度和相关方向。

常用的相关分析法包括皮尔逊相关系数、斯皮尔曼等级相关系数、判定系数等。

相关分析在社会科学研究中具有广泛的应用,可以帮助我们探究变量之间是否存在关联并了解其关联程度。

四、多元统计方法多元统计方法是分析多个变量之间关系的一种方法。

与相关分析法不同,多元统计方法可以同时考虑多个自变量对因变量的影响,通过建立数学模型进行分析和预测。

常见的多元统计方法包括主成分分析、因子分析、聚类分析、判别分析等。

多元统计方法在市场调查、人口统计学、教育研究等领域中有广泛应用。

五、时间序列分析时间序列分析是对一组按时间顺序排列的数据进行分析和预测的方法。

它通过统计模型和方法,分析数据的趋势、周期、季节性等规律,并进行预测和判断。

常见的时间序列分析方法包括移动平均法、指数平滑法、趋势分析法、ARMA模型等。

SPSS统计分析—描述性统计分析

SPSS统计分析—描述性统计分析

SPSS统计分析—描述性统计分析描述性统计分析(Descriptive statistics analysis)简介描述性统计分析是统计学的一个领域,主要目的是通过对样本数据进行总结、整理和分析,揭示数据中的模式、趋势和关联。

它可以通过计算和展示各种统计指标来帮助我们更好地理解和解释数据。

SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,可以用于进行各种描述性统计分析。

本文将介绍一些常用的描述性统计分析方法和在SPSS中的应用。

1.数据摘要数据摘要是描述性统计分析的基础,主要目的是对数据进行概括性的总结。

常用的数据摘要方法包括计数、频数、百分比、均值、中位数、标准差等。

在SPSS中,可以使用“Frequencies”命令对数据进行频数分析。

该命令可以列出每个变量的频数、百分比以及累积百分比。

此外,使用“Descriptives”命令可以计算各个变量的均值、中位数、标准差等统计量。

2.绘制图表图表可以帮助我们更好地理解和展示数据的特征和分布。

常用的图表包括直方图、饼图、箱线图等。

在SPSS中,可以使用“Graphs”菜单下的不同选项来绘制各种图表。

例如,使用“Bar Chart”选项可以绘制柱状图,使用“Pie Chart”选项可以绘制饼图,使用“Boxplot”选项可以绘制箱线图。

3.相关分析相关分析可以帮助我们研究数据之间的关联关系。

它可以通过计算相关系数来评估两个变量之间的线性关系。

在SPSS中,可以使用“Correlations”命令进行相关分析。

该命令可以计算出各个变量之间的相关系数,并提供了相关系数矩阵和散点图来展示结果。

4.因素分析因素分析是一种常用的数据降维方法,可以帮助我们理解并提取潜在的数据结构和变量之间的关系。

在SPSS中,可以使用“Factor Analysis”命令进行因素分析。

该命令可以根据指定的变量,自动提取主成分或因子,并计算出因子载荷矩阵和因子得分。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

特点
位置代表值 既可以是原始数据中的某个具体值,也可以不是具体值 一半的数据比M大,一半的数据比M小 不受极端值的影响
代表性不好(未考虑样本中的所有数据)
10
中位数
计算方法
直接法(适用于样本例数较小的资料)
将数据按从小到大的顺序排列 当n为奇数时,中位数就是位置居中的那个数值,即 M=X(n+1)/2 当n为偶数时,M=(Xn/2+X(n+2)/2)/2 举例:例4.4
2 2
软件法(最常用)
28
第二节 离散程度
应用
描述符合正态分布类型数据离散程度的最佳 指标
结合均数计算变异系数
结合样本含量计算标准误
结合均数描述正态分布特征
不适用于均数相差悬殊或度量衡单位不同的 不同数据间离散程度的比较
29
第二节 离散程度
离散系数
S CV 100% X
33
箱式图
34
本章小结
主要内容
集中趋势、离散程度、偏度和峰度的主要指标 集中趋势的常用指标
众数、中位数、四分位数、算术均数、几何均数、调 和均数
离散程度的常用指标
极差、四分位数间距、方差、标准差、变异系数
偏度和峰度的常用指标
偏度系数、峰度系数
35
本章小结
偏度系数主要反映分布的类型
8
众数
计算方法
品质型数据
对数据分组整理、频数最大的组即为众数组,该组对 应的变量值(类型)即为众数。 如商场中某一时期销售量最大的商品
数值型数据
列出频数表 频数最大的组即为众数组,该组对应的值即为众数
9
中位数
定义
将一组变量值从小到大按顺序排序,位次居中的那个变 量值就是中位数(median,M)
6
第一节 集中趋势
常用指标
众数 中位数 算术平均数
调和平均数
几何均数
7
众数
定义
一组数据中频数最大的变量值, 即最普遍、最常出现的数值,记 作 M0
特点
位置代表值 能够直观的反映数据的集中趋势 不受数据中极端值的影响 代表性不好(未考虑其它数据的 影响)
计算方法
间接法(频数表法)
软件法(最常用)
13
算术均数
定义
一组数据全部变量值的平均值,简称均数 (Mean)
特点
考虑了一组数据中所有变量值的影响 描述符合正态分布的数据集中趋势的最佳 指标
样本均数用X表示,总体均数用表示
14
算术均数的两个重要特征
各离均差的总和等于0。
24
第二节 离散程度
极差
R=max-min 容易计算
易受极端值的影响,适用性不强
除了最大、最小值外,不能反映组内其他数据 的变异度。 样本例数越多,抽到较大或较小变量值的可能 性越大,因而极差可能越大。
即使样本含量相同,极差也不够稳定。
25
第二节 离散程度
四分位数差
间接法(频数表数,适用于例数较多的数据
软件法(最常用)
17
几何平均数
定义
一组数据中N个变量值乘积的N次方根称 之为几何平均数(Gemetric mean, G)
特点
适用于符合对数正态分布
数据不能为0或负数
18
几何平均数
计算方法
直接法
G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n}
不足之处在于度量衡单位与原单位不同
27
第二节 离散程度
标准差
总体标准差
X 2 / N
样本标准差 S X X


2
/ n 1
计算方法
直接法(适用于例数较少的数据)
间接法(频数表法,适用于例数较多的数据)
fX 0 fX 0 / f S f 1
应用
度量衡单位不同的多组资料离散程度的比较 均数相差悬殊的几组资料离散程度的比较
注意事项
有关的事物才能比较
均数小于标准差时要考虑其实际运用价值
30
第三节 偏度与峰度
偏度
一组数据分布的偏斜方向与程度,常用偏度系数表示()
理论上,总体偏度系数为0时,分布是对称分布;取正 值时,分布为正偏峰;取负值时,分布为负偏峰。
间接法
软件法(需要编程)
19
众数、中位数与均数的比较
20
众数、中位数与均数的比较
共同点
三者均是描述数据集中趋势的常用指标
不同点
众数常用于品质型数据,一组数据中可有多个 众数,不受异常值影响,
中位数适用于各种分布类型的数据,一组数据 中只有一个中位数,亦不受异常值的影响 均数常用于对称分布类型的数据,一组数据中 亦只有一个均数,代表性最佳,受异常值影响
21
第二节 离散程度
定义
一组数据远离其中心的现象,称之为离散程度 或离散趋势(与均数的代表性呈反比)
原因
由于遗传、营养、行为、发育、心理的各种因 素的影响,同一总体中的个体之间又普遍存在着 各种差别,即不同个体之间的变量值都不会完 全相同(个体间存在差异),从而呈现出不同程度 的离散趋势。
本法中均数的大小受各组的组中值和频数的影 响,其中各组的频数称之权数,对应的频率称 之为权重。 软件法(最常用)
16
调和平均数
定义
先求出各变量值倒数的平均值,然后再求出该 平均值的倒数,所得到的最终结果即为调和平 均数(Harmonic Mean, H),即例数平均数
计算方法
直接法(适用于例数较少的数据)
间接法
频数表法
软件法(最常用)
11
百分位数
把数据从小到大排列后位于第X%位置的数值。 有n个观察值X1,X2…Xn,把他们由小到大按 顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平 均分为100等份,对应于每一等份的数值就是一 个百分位数,对应于前面X%个位置的数值称为 第X百分位数,用Px表示。
第四章 统计数据的概括性描述
毛广运 MD &PhD
环境与公共卫生学院
1
教学目的要求
掌握
数值平均数和标准差的特点及其计算方法;
理解
集中趋势和离散趋势的概念
了解
众数、中位数的概念、特点及其计算方法;
几种平均数指标之间的关系;
计算平均数和离中趋势指标应注意的问题。
2
本章重点
正态分布(统计学的理论基础) 正偏态分布 负偏态分布
峰度系数主要反映分布的尖峭程度
正态峰 尖峭峰
平阔峰
36
31
第三节 偏度与峰度
峰度
一组数据的尖峭程度,常用峰度系数表示()
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
σ =0.5 >3
=3 σ =2 <3
σ =1
32
第三节 偏度与峰度
峰度常常是与正态分布进行比较的 正态分布的峰度系数为3(=3), >3 时数据呈尖峭分布, <时数据呈平阔 分布 偏度系数和峰度系数因手工计算较为复 杂,目前多使用软件法进行计算
Q=Q3-Q1=QU-QL 反映了50%数据的离散程度 不受极端值的影响 适用于各种类型的连续型变量,特别是偏 态分布的资料 不足之处在于未考虑另外50%数据对离 散程度的影响
26
第二节 离散程度
方差
=(X-)2/N或S=(X-X)2/(n-1) 考虑了每一个变量值的影响 适用于描述对称分布资料的离散程度
一个百分位数Px将总体或样本的全部观察值分为 两部分,理论上,在不包括Px的全部数据中有 X%的观察值比它小,有(100-X)%的观察值比 它大。
12
四分位数
定义
将全部数据等分成四个部分,每一部分均包含 了25%的数据,25%、50%和75%分位点上 的数值就是四分位数(Quartile, Q) 25%位点上的数值称之为下四分位数,记作Q1 75%位点上的数值称之为上四分位数,记作Q3
22
第二节 离散程度
0.4
0.3
离散趋势
0.2
0.1
0.0 -3.6 -2.9 -2.2 -1.4 -.7 .0 .7 Random Numbers 1.4 2.2 2.9 3.6
Fig. 1
Histogram of 100000 random numbers (S-Plus 8.04)
23
第二节 离散程度
集中趋势和离散趋势常用指标的概念 数值平均数、中位数、众数和标准差的计算方 法
本章难点
众数、中位数、数值平均数(算术平均数、调 和平均数、几何平均数)等度量方法的选择问 题
偏度、峰度的度量问题。
3
第一节 集中趋势
定义
总体中的某些个体总是具有某些同质性, 同一地区、同一年度、同一民族、同一年 龄段、相同的性别与类似的健康状况,这 些共同点使得该总体中的某一变量值趋向 同一数值,即集中趋势。
总体中各变量值X与均数之差称为离均差 (X-)=0
离均差的平方和小于各观察值X与任何数a 之差的平方和。
15
算术均数
计算方法
直接法(适用于例数较少的数据)
X X1 X 2 ... Xn X n n
ห้องสมุดไป่ตู้
间接法(频数表法)
相关文档
最新文档