SPSS0903第三次课
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章连续变量的统计描述与参数估计
7.1连续变量的统计描述指标体系
如果用统计指标对年龄等连续变量加以描述,则主要表现为以下几个方面:
J 集中趋势
--离散趋势 I --分布特征
L 其他趋势
7.1.1集中趋势的描述指标
在统计学中用于描述集中趋势,或者数据分布的中心位置的统计量就被称为位置统计量 (Location Statistic )。 汀均数 _ Mea
”
算术均数
总体均数用( )表示;样
本均数用(
)表示。
均数是最常用的集中趋势描述指标,但是它不适用于对严重偏态分布的变量进行描述。 思考:什么是严重偏态分布的变量?举例说明。
只有分布资料单峰和基本对称时使用均数作为集中趋势描述的统计量才是合理的。
2. 中位数
中位数是全体数据按大小顺序排列,在整个数列中处于中间位置的那个值。 思考:09 social work 数据库中的“最后总分”变量,它的中位置是多少? 中位值将全部数值分成两部分,把它大和比它小的数值个数正好相等,具体而言: (1 )当n 为奇数时,M=(
);当n 为偶数时, (2) 由于中位数是位置平均数,因此不受极端值的影响, 布数列中,中位数比算术平均数更具有代表性。
(3) 由于中位数只考虑居中位置,对信息的利用不充分。 者会优先考虑使用均数,只有当均数不能使用时采用中位数加以描述。
(Central Tendency) (Dis persion Tendency) (Distribution
中位数(Median ) 其他集中趋势描述指标
(1 )截尾均数 (2 )几何均数 (3)众数(Mode )
。4 )调和均数
1. M=(
)。
在具有个别极大值或极小值的分 因此对于对称分布的资料,分析
3.其它集中趋势描述指标
众数:众数指的是样本数据中出现频次最大的那个数,众数容易理解,也不受极端值影响,但不易确定,且没有太明确的统计特性,一般很少使用该指标。
7.1.2离散趋势的描述指标
全距(Range )又称为极差,它是一组数据中最大值与最小值之差,是最简单的变异指 标,但是过于
简单,一般只用于预备性检查。
方差和标准差
离均差 对于每个数据而言,其离散程度的大小就是和均数的差值,简称离均差。 总体方差 用离均差平方和除以观察例数 n 。请大家尝试或依回忆写出它的公式。
总体方差公式 样本方差公式
但是,方差在使用上存在不便,就是量纲不合常理,是原始指标量纲的平方。 量纲是指,,)。为此,又将方差开平方,就是所谓的标准差( 体和样本的标准差分别用(
)和()来表示。公式分别为
如果方差和标准差较小,则说明分布比较集中(集中在均值附件)
由于标准差和方差的计算涉及每一个变量值, 所以他们所反映的信息在离散指标中是最
全的,是最理想的、最可靠的变异描述指标。但也正是由于标注差和方差的计算涉及每 一个变量值,所以它们也会受到极端值的影响,
当数据中有较明显的极端值时不宜使用。
实际上方差和标准差的适用范围应当是服从正态分布的数据。
四分位数和四分位间距
通常将数据按从小到大的顺序排列后,
用三个四分位数点 Q 1、Q 2和Q 3将其分成四部分。
Q 1是第25百分位点(下四分位数),Q 2是第50百分位点,也叫中位数,
Q 3是第75百
分位点(上四分位数)。
四分位间距也叫四分位差,简称 IQR,是Q i 和Q 3之间的距离。四分位间距常常和中位
数一起用来描述一个定距特别是定序测量数据的分布。
四分位间距即排除了两侧极端值的影响,又能够反映较多数据的离散程度,是当方差、 标准差不适用时较好的离散程度描述指标。
四分位数求法
第一步 确定四分位数的位置
四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数 和上四分位数分别为 Q1、Q2、Q3,则:Q1、Q2、Q3的位置可由下述公式确定:
Q1的位置(n +1)/4 ; Q2的位置(n+1)/2; Q3的位置3(n+1)/4 (其中n 表示资料的项数)
描述离散趋势的统计量称为尺度统计量( Scale Statistic ),常用的尺度统计量有全距、方差、
标准差、四分位间距等。
1.
2. 3.
(思考: Standard Deviation ), 总
,反之,则比较离散。
第二步根据第一步所确定的四分位数的位置,确定其相应的四分位数。 例1
14、14.6、 Q1的位置 Q2的位置 Q3的位置
即变量数列
中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位 数和上四分位数。即:
Q1 = 13.8公斤、Q2 = 14.6公斤、Q3 = 15.2公斤。
例2 上例中(n+1)恰好为4的倍数,所以确定四分数较简单,如果(
n+1)不为4
的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数 就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整 数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于
例如:某车间某月份的工人生产某产品的数量分别为 13、13.5、13.8、13.9、14、14.6、
14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为: Q1 的位置 (n+1)/4 =(10+1)/4=2.75 Q2 的位置(n+1) /2=(10+1)/2=5.5
Q3 的位置 3(n+1)/4=3(10+1)/4=8.25
即变量数列中的第 2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位数、
中位数和上四分位数。 即:
Q1=0.25 X 第二项 +0.75X 第三项=0.25X 13.5+0.75 X 13.8=13.73(公斤) Q2=0.5X 第五项 +0.5X 第六项=0.5X 14+0.5X 14.6=14.3(公斤) Q3=0.75 X 第八项 +0.25X 第九项=0.75X 15+0.25 X 15.2=15.05(公斤)
在实际资料中,由于标志值序列中的相邻标志值往往是相同的,因而不一定要通过计算 才能得到有关的四分位数。
本堂课作业一:自由度
对自由度的简要介绍:假定只有n=1个观测值,我们仍然可以计算均值,但却无法考虑分布 的形状。例如,我们从足球运动员中随机抽取了一名队员,他的身高为 179cm ,那么我们可
以用它来估计队员的身高。 但不可能知道队员身高分布的情况,
究竟是174cm-184cm ,还是
176cm-182cm 。只有超过1,我们才能得到关于方差的信息。也就是说,对于方差,我们实 际上只有n-1
个信息,这就是计算方差时所用的那个除数。 习惯上称信息的个数为自由度。
因此,我们可以将上面的讨论归纳为:
一个自由度被均值所
使用,余下的n-1个自由度留给了方差。
例如:某车间某月份的工人生产某产品的数量分别为
13、13.5、13.8、1 14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置分别为: (n+1)/4 =(11+1)/4=3 (n+1) /2=(11 + 1)/2=6 3( n+1)/4=3(11+1)/4=9
1。