第十章单变量描述统计
第十章 单变量描述统计.
![第十章 单变量描述统计.](https://img.taocdn.com/s3/m/7a0882ecad51f01dc281f1a1.png)
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业职业 f p工人农民干部1522881100.2760.5240.20027.652.420.0总数550 1.000 100.0数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平教育 f cf ↑ cf ↓ % c % ↑ c %↓ 一级 二级 三级 四级 五级 68 550 68 90 482 158 106 392 264 193 286 457 93 93 550 12.4 100.0 12.4 16.3 87.6 28.7 19.3 71.3 48.0 35.1 52.0 83.1 16.9 16.9 100.0 总数 550100.02、统计图统计图是以图形表示变量的分布情况。
单变量描述性统计
![单变量描述性统计](https://img.taocdn.com/s3/m/f9b785de5122aaea998fcc22bcd126fff7055d58.png)
特点:信息利用充分,灵敏度高,易受极端值 影响。
第21页,本讲稿共22页
例_离中趋势的说明
例6 试比较甲乙两位运动员的射击成绩(环):
甲:6,6,8,10,10
乙:7,7,8,9,9
第22页,本讲稿共22页
第19页,本讲稿共22页
例_中位数_某车间职工文化程度的分布情况
例5 某车间职工文化程度的分布情况
文化程度
人数
向下累计频次
小学
5
初中
15
高中
14
本科
2
硕士
1
5
20Байду номын сангаас34
36 37
中位数处于频次分布的中点,在数据对称分布 的情况下,中位数的代表性较好。
第20页,本讲稿共22页
平均数(均值)的公式
假定变量X有N个观察值:X1,X2,X3,…XN,那
第2页,本讲稿共22页
一、变量的分布
1.频次分布 例 2.频率分布 例
第3页,本讲稿共22页
二、统计表与统计图
1.统计表 2.统计图 (1)圆瓣图 (2)条形图 (3)直方图 (4)折线图
第4页,本讲稿共22页
三、变量分布的特征
一、集中趋势分析
1.众数(Mode) 2.中位数(Median) 3.平均数(Mean)
众数出现次数越多,所占比重越大, 代表性越好。众数不受极端值影响。
例_众数_某高中甲班学生的年龄分布
第18页,本讲稿共22页
例_中位数_某学习小组7位同学的考试成绩
例如,某学习小组7位同学的考试成绩分别为: 58,73,92,60,85,89,60。
欲求其中位数,可先将其排序:
第十章单变量的描述统计PPT课件
![第十章单变量的描述统计PPT课件](https://img.taocdn.com/s3/m/efb0766e844769eae009edc3.png)
1、异众比率
异众比率(Vr)就是非众数的次数与全部个案数 目的比率。可见异众比率是对众数的补充,异众 比率越小,说明众数的代表性越好;反之,异众 比率越大,则说明众数的代表性越差。
异众比率的公式:
n fmo
Vr=
n
极差
极差又称全距,它是一组数据中最大值与最 小值之差。极差是对定序及以上尺度的变量 离散程度的测量。
第九章 单变量的描述统计
一、变量的分布 二、集中趋势分析 三、离散趋势分析
一、变量的分布
变量的分布分为两类,一类是频数分 布,一类是频率分布。频数分布就是 变量的每一取值出现的次数;频率分 布是用变量每一取值的频数除以总个 案数,它是一个相对指标,可以用来 比较不同样本。
统计表:
表10-1甲校学生的父亲职业
150
100
50
0Leabharlann 一级二级三级
四级
五级
水平
二、集中趋势分析
1、众数 众数(M。)就是出现频数或频率最多的变量值。
求众数的方法 : (1)对原始资料:如下例:1,2,3,5,5,5,6, 6,7,9
(2)对单值分组资料
表9-3某实验小组成员年龄分布
年龄
13 14 15 16 17 18 19
数量
3 4 6 8 4 3 3
职业
工人 农民 干部
总数
f
p
152 1.276 288 2.524 110 0. 200
27.6 52.4 20.0
550 1.000 100.0
统计表:
表10-2甲校学生之父亲教育水平
教育
一级 二级 三级 四级 五级
f cf
68 550 90 482 158 106 392 264 193 286 457 93 93
统计学-单变量描述性统计
![统计学-单变量描述性统计](https://img.taocdn.com/s3/m/c3dce979a88271fe910ef12d2af90242a895abb9.png)
统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
《单变量的描述统计》课件
![《单变量的描述统计》课件](https://img.taocdn.com/s3/m/42bdc4f4970590c69ec3d5bbfd0a79563c1ed488.png)
THANKS
茎叶图
01
总结词:展示数据分布的详细 信息
02
详细描述:茎叶图是一种描述 单变量的统计图形,它将一组 数据按照其数值大小进行排序 ,并将每个数据点用线段连接 起来。通过茎叶图可以清晰地 看到数据的分布情况,包括数 据的集中趋势、分散程度以及
异常值等。
03
总结词:适用于小数据集分析
04
详细描述:由于茎叶图需要将 所有数据点都表示出来,因此 适用于数据量较小的情况。对 于大数据集,茎叶图可能会过 于复杂,不易于理解和分析。
实例二:考试成绩的描述统计
总结词
考试成绩是典型的连续型数据,通过描述统计可以了解成绩的分布情况。
详细描述
对一组考试成绩进行描述统计,可以计算出成绩的平均数、中位数和众数等指标,同时还可以绘制成绩分布直方 图或正态分布曲线图,以直观地展示成绩分布的形态和特征。
实例三:股票价格的描述统计
总结词
股票价格数据具有动态变化的特点,通过描述统计可以分析价格的波动和趋势。
04
单变量描述统计的实例分 析
实例一:身高数据的描述统计
总结词
身高数据呈现了单变量的基本特征,如集中趋势、离散程度 和分布形态。
详细描述
通过对一组身高数据进行描述统计,可以计算出平均数、中 位数、众数等集中趋势指标,以及方差、标准差等离散程度 指标。这些指标可以帮助我们了解这组数据的典型性和波动 情况。
详细描述
箱线图也称为箱状图或箱状分布图,它通过将一组数据的中位数、四分位数和 异常值等统计量表示在图上,从而直观地展示数据的分布特征。箱线图能够清 晰地呈现数据的分散程度、异常值以及数据的倾斜程度。
箱线图
总结词
第三讲单变量的统计描述_566709146
![第三讲单变量的统计描述_566709146](https://img.taocdn.com/s3/m/1495b111b7360b4c2e3f646b.png)
2000
2500
5
3
0.10
0.06
10000
7500
200
150
合计
50
1.00
66000
1320
800 * 5 1000 *10 1200 * 20 1500 * 7 2000 * 5 2500 * 3 5 10 20 7 5 3
2)分组数据
对于分组数据,可用组 中值来代替变量值。计 算方法与根据频数分布
单位:%,人
表2 劳动年龄流动人口按性别分婚姻状况分布(2010)
性别 未婚 在婚 离婚 丧偶 合计 人数
男 20.2 女 16.4 82.6 0.6 0.4 100.0 116212 79.2 0.5 0.1 100.0 122188
合计
18.4 80.8 0.5 0.2 100.0 238400
最低组 次低组 中等组 次高组 最高组 平均
3、定距变量制表需要考虑的问题
1)分组数 组数太少会掩盖变量变动时频次的变 化,组数太多会使每组内频次过少,看不 出明显的规律。一般根据理论和经验进行 分组。 2)等距分组与非等距分组 一般情况下采用等距分组,但研究一 些特殊问题,如贫困问题,需要对低收入 分得细一些。
X
i 1
50
i
50
800 800 2500 66000 1320 50 50
员工比重p(%) 0.10 0.20 0.40 0.14 Xf 4000 10000 24000 10500 Xp 80 200 480 210
月工资X(元) 员工数f(人) 800 1000 1200 1500 5 10 20 7
800
资料统计分析——单变量描述统计
![资料统计分析——单变量描述统计](https://img.taocdn.com/s3/m/a3d2fc7802768e9951e738ef.png)
注:▲ 表示该数据类型最适合用的测度值
众数、中位数和平均数的比较2
平均数比中位数利用了更多的数据信息,对总 体的描述更全面和准确。 平均数很容易受到极端值变化的影响,而中位 值不会受到这种影响。
对于抽样调查来说,平均数是一种比中位数更 为稳定的量度,它随样本的变化比较小。
众数、中位数和均值的关系
频数分布表和频率分布表实例
注意的是,对于一项有一定规模的调查样 本来说,一般不宜对如年龄、收入、时间 等定比变量做频数分布表或频率分布表。 因为,此时类别很多,而每一类别中个案 数不多,所得结果繁杂不适用。
二、集中趋势分析
集中趋势测量:用某一个典型的变量值或特 征值来代表全体变量的问题,这个典型的变 量值或特征值就称作集中值或集中趋势。
小结
1、集中趋势测量和离散趋势测量具有互补性, 集中趋势反映的是资料的代表性,离散趋势反 映的是资料的差异情况;
2、选何种方法,要注意变量的测量层次,彼此 的关系综合如下:
定类变量 定序变量 集中趋势 离散趋势 众值 中位值 定距变量 均值 标准差
异众比率 四分位值
四、异众比率(variation ratio)
指的是一组数据中非众数的次数相对于总体全 部单位的比率。用VR表示。
其意义是指众数所不能代表的其他数值在总体 中的比重。异众比率越大,则众数代表性越小; 异众比率越小,则众数代表性越大。
5、离散系数(coefficient of variation)
1.甲、乙、丙命中的总环数分别为93、93、91,所以丙理应先被淘汰。 2.甲、乙命中环数的平均数均为9.3,计算标准差。S甲= 0.21 ,S乙= 3.在总成绩相同的情况下,理应派发挥较稳定的甲参加比赛。
10 单变量统计描述小结
![10 单变量统计描述小结](https://img.taocdn.com/s3/m/50e0c128ccbff121dd368357.png)
全面描述:分布,统计图,统计表 特征值描述: 集中趋势 离散趋势
众值 中位值 均值 异众比率:适用于定类、定序、定距变量; 极差、四分互差:适用于定序、定距变量; 方差、标准差:适用于定距变量。
特征值:
观察值 理论值 频率 概率 频率分布 概率分布 频率密度 概率密度 向上累计频率 分布函数 样本均值 数学期望 样本方差
p(λ);λ=np
• 连续型随机变量分布(定距变量) x • 正态分布 N , 2 Z • 标准正态分布 N 0,1
•
分布:参数-自由度K
2
( Z1 ) P( Z Z1 )
2
2 P ( 2 )
Z1
• t 分布:参数-自由度K
正态(对称) 3 0
正(右)偏态 3 0
负(左)偏态 3 0
正态峰,正态分布 4 0
尖峰,正峰态 4 0
扁平峰,负峰态 4 0
• 离散型随机变量分布 大总体(N>>n),独立,重复抽样:二项分布,三项分布 小群体,非独立,非重复抽样:超几何分布(二项;三项) 1.随机变量 如果满足二点分布,则其概率分布为:p ( 0) q p ( 1) p —— 二点分布的分布律。
总体方差
大数定理:大量观察 贝努里大数定理:样本成数(样本频率) 总体成数(总体概率) 切贝谢夫大数定理:样本均值 数学期望(总体均值)
• 分布: 观察值:直方图、折线图 理论值:概率密度曲线图 • 特征值:偏度系数;峰度系数
中心极限定理: 大量观察,随机变量 之和,随机变量均值 的分布——正态分布
• F 分布: 参数-自由度K1,K2
P( F F )
单变量描述性统计1-2
![单变量描述性统计1-2](https://img.taocdn.com/s3/m/68b3556c08a1284ac950430a.png)
单变量:描述性统计(1)(1)数据(2)数据描述(3)分布统计的地位科学测量•可重复的数据测量是科学与工程共同的基本假设。
使数据测量的行为相似,即满足四个基本假设:①数据是随机的(Stochastic//Random) 。
②数据来自特定的分布。
③数据在分布中有特定位置,即测量结果可表达为一个确定性常数与一个随机性误差之和。
④数据在分布中的变异是固定的,即测量的随机误差服从特定的概率分布。
•如果上述四个假设均满足,则科学与工程的所有重要目标都具有可预见性,实现概率意义上的可预知。
因此,科学与工程过程可以说是“在统计控制中”。
理性基础上,所有的判断都是统计学。
•随机性是测量过程的4个基本假设之一。
随机性假设之所以非常重要。
是因为:①多数标准统计检验依赖随机性。
检验结论的有效性直接与随机性假设的有效性有关。
②许多常用的统计公式依赖于随机性假设,最常见的公式是样本均值的标准误差计算公式其中s是数据标准差。
尽管这些公式大量使用,如果不具有随机性假设,则公式的计算结果就没有意义。
③单变量数据的缺省模型是:x=常数+误差。
如果数据没有随机性,该模型就是错误的无效模型,参数估计也就变得没有意义和无效。
如何描述?•位置:分布的中心趋势•尺度:以中心趋势为中心的散度•形状:和对称分布比较?和正态峰值的比较‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐描述分布,………描述什么样的数据分布?尺度尺度(scale)一词来自拉丁文“scala”或“ladder”,指一系列的等级或水平。
拉丁文中,尺度是指特定的图形倾向。
尺度的可视化表达,即数轴及其标记,看上去象一个梯子。
尺度是一个函数类型,我们依此在一定维度上完成变量集制图。
简单地说,尺度就是我们选择制图的数值范围及其标记间隔。
尺度决定如何感知图形大小、形状和位置。
选择一个尺度,需要我们考虑我们正在测量什么?我们测量的意义是什么?尺度的选择,决定我们如何解释图形的意义。
描述什么样的数据?要选择合适的统计工具,分析数据,要求:(1)理解不同统计分析方法应用的基本假设。
第十章 单变量描述统计
![第十章 单变量描述统计](https://img.taocdn.com/s3/m/38d2d2bab8f67c1cfad6b889.png)
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平f cf cf c c2、统计图统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布(2)条形图:多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。
调查资料统计与分析—单变量描述统计(社会调查课件)
![调查资料统计与分析—单变量描述统计(社会调查课件)](https://img.taocdn.com/s3/m/9ba05a9c294ac850ad02de80d4d8d15abe2300f5.png)
异众比率
异众比率是指非众数次数与总体全部次数之 比。 异众比率适用于定类测量,用于补充说明众数 的代表性。 异众比率越小,说明众数的代表性越好;异众 比率越大,说明众数的代表性越差。
四分位差
四分位差Q是指舍去一组数据中最大和最小的1/4,只 计算中央1/2的资料中的最大值与最小值之差。 四分位差适用于定序尺度以上测量,用于补充说明中位 数的代表性。四分位差越小,说明中位数的代表性越好 ;四分位差越大,说明中位数的代表性越差。 四分位差的大小不受极值的影响,因而当一组数据中出 现极值比较小或比较大的情况时,可以考虑用四分位差 来衡量其离散程度。
所以,拒绝虚无假设,接受研究假设,即从总体上说,戒烟宣传受到了成效,戒 烟者的比例明显下降.
集中趋势分析
集中趋势分析是指用典型值或代表值来反映一组数据的 一般水平,也即反映这组数据向这个典型值或代表值集中的 情况。
集中趋势分析常用表示集中程度的统计量数(即集中量数 )来表示,这些集中量数主要有众数、中位数和平均数等。
全距
全距,也称极差,是指一组数据中最大值与最小 值之差。
全距越小,表明集中量数的代表性越好;全距越 大,表明集中量数的代表性越差。
从总体上说,该单位职工月平均奖金与上月 相比有变化.
p 1.建立假设:H0 : P0 = 0.35 H1 : P0 <0.35 2.选择显著性水平 α=0.05,由Z检验表查得Z 0.05 =1.65 3.根据公式计算统计量 0.25—0.35 = 0.35× (1-0.35) = - 2.1 100 4.将统计值与临界值进行比较做出判断 由于│ Z │=2.1>Z 0.05 = 1.65
对单变量量别数据进行描述统计的主要方法
![对单变量量别数据进行描述统计的主要方法](https://img.taocdn.com/s3/m/eb5184180622192e453610661ed9ad51f01d54d4.png)
对单变量量别数据进行描述统计的主要方法单变量数据是指只有一个变量的数据集,即只有一个属性或特征的数据。
对于单变量数据,描述统计是一种通过一些关键的统计指标来总结和描述数据集的方法。
描述统计的主要方法包括测量中心趋势、测量离散程度、测量分布形态以及进行数据可视化等。
一、测量中心趋势测量中心趋势是指通过一个代表性的数值来描述数据的集中程度,常用的方法包括:1. 平均数(Mean):平均数是将所有数据相加后再除以数据的总数,表示数据的平均水平。
2. 中位数(Median):中位数是将数据按照大小排序后的中间值,可以排除极端值对数据的影响。
3. 众数(Mode):众数是数据集中出现次数最多的数值,用于描述数据的典型值。
二、测量离散程度测量离散程度是指度量数据的变异程度或分散程度,常用的方法包括:1. 方差(Variance):方差是数据偏离平均数的平均平方差,用于度量数据的离散程度。
2. 标准差(Standard Deviation):标准差是方差的平方根,表示数据的平均偏离程度。
3. 范围(Range):范围是数据集中最大值和最小值之间的差别,用于衡量数据的全局变化。
4. 四分位数(Quartiles):四分位数可以将数据分成四等份,用于描述数据的分布情况。
三、测量分布形态测量分布形态是描述数据分布的形状和特征,常用的方法包括:1. 偏态(Skewness):偏态是数据分布偏离正态分布的程度,可以判断数据的对称性和偏斜性。
2. 峰度(Kurtosis):峰度是数据分布的尖峰程度,可以判断数据的平峰或尖峰性。
四、数据可视化数据可视化是将数据以图像的形式展示出来,以便更好地理解和分析数据集,常用的方法包括:1. 直方图(Histogram):直方图用于展示数据的分布情况,可以看出数据的集中和离散程度。
2. 箱线图(Box Plot):箱线图用于展示数据的统计特征,包括中位数、四分位数、离群值等。
3. 折线图(Line Plot):折线图用于展示数据随时间或其他变量的变化趋势。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平2、统计图统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。
为求清楚,长条之间可以分开。
如表9-2的资料可用下图(图2)所示:(图二)甲校学生的父亲教育水平的宽度表示组距。
直方图仅适用于定距变量。
如表9-3的资料可用下图(图3)所示:表9-3 甲校学生的家庭每月总收入组限(class limits),就是每组的范围,包括上限(upper limit)和下限(lower limit)。
例如表9-3中的“700~899”组,上限是899,下限是700。
但要注意,统计表上所标示的组限(stated limits)是让读者容易领会,但不是真实的组限(real limits)。
上表的真实组限是499.5~699.5、699.5~899.5、899.5~1099.5、1099.5~1299.5等等。
如果某家庭的收入与真实组限之值相同,一般是采用四舍五入的原则,如把699.5元归“700~899”组。
真实组限与标示组限的关系,可以下式表示:真实下限=标示下限-0.5真实上限=标示上限+0.5组距(class width),就是组的真实上限与真实下限之差,如上表的“700~899”组的组距是:899.5-699.5=200。
组中点(class midpoint),就是真实上限与真实下限的平均数,如“700~899”组的中点是:(699.5+899.5)÷2=799.5。
(4)折线图:折线图是用直线连接直方图中条形顶端的中点而成的。
二、集中趋势分析集中趋势是从一组数据中抽象出一个代表值,代表现象的共性和一般水平。
这种方法有一个特殊意义,就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。
集中趋势测量指标有三类:众数、中位值、平均数。
1、众数众数(M。
)就是出现频数或频率最多的变量值。
因为众数最有代表性,故此具有估计或预测的意义,长远来说,以众数作预测所犯的错误总数是最小的。
求众数的方法如下:(1)对原始资料:如下例:1,2,3,5,5,5,6,6,7,9其M。
=5(2)对单值分组资料:如下表9-3某实验小组成员的年龄分布:表9-3某实验小组成员年龄分布年龄数量13 314 415 616 817 418 319 3其M。
=16(3)组距分组资料:众数是频数最大的区间的组中值。
如对于表9-5所示的资料其M。
=3502、中位数中位数(Md)是最中间的数值。
它用于描述定序变量以上层次的变量。
长远来说,以中位数去估计定序变量的数值,所犯的错误总数是最小的。
求中位数的方法如下:(1)对原始资料:原始资料计算中位值的公式是:Md位置= 21+n例:9个人的日工资分别如下:47,42,50,51,92,112,71,83,108 首先,从小到大排列:42,47,50,51,71,83,92,108,112。
其次,由中位值的位置公式可知Md=21+n= 219+=5最后,求Md=71如果n为偶数,则将位于最中央的两个数值的平均值作为中位值。
(2)对单值分组资料:如下表9-4的资料:表9-4学生的学业成绩由公式可知Md位置= 21+n=2180+=40.5从累加频数中可知这个位置的值在丙值内,故Md=丙。
(3)对组距分组资料:组距分组资料的中位值公式为:Md=L+mm f cfn)1(2--×i其中L 为中位数所在组的下限值,cf(m-1)为中位数所在组以上的累计频数,fm 为中位数所在组的频数,i 为中位数所在组的组距。
例:表9-5某企业100名职工收入的分布收入(元) 职工数(人) 累计频数 组中值 Xf 100—199 10 10 150 1500 200—299 10 20 250 2500 300—399 40 60 350 14000 400—499 20 80 450 9000 500—599 20 100 550 11000 合 合计 100首先求出中间位置为(100+1)=50.5,再从累计频数栏中找到中位数所在组为“300—399”这一组,最后利用公式计算Md=300+402050-×100=375平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量,如求平均等级。
长远来说,以平均数估计定距变量的资料,错误最小。
(1)对原始资料:平均数的公式为X =nX∑其中∑x 为各个个案数值之和,n 表示全部个案数。
(2)对单值分组资料:平均数的公式用加权平均数公式:X =nxf∑如对下表9-6中的资料求平均数: 表9-6某年级150名学生的年龄分布年龄 频数 累积频数 ↓ 累积频数↑17 10 10 15018 25 35 14019 50 85 11520 40 125 6521 20 145 2522 5 150 5合计150平均年龄为:X=15052220214020501925181017⨯+⨯+⨯+⨯+⨯+⨯=19.3(3)对组距分组资料:一般用组中值来代替变量值,然后按加权平均数公式来计算平均数。
总之,如要测量集中趋势,即找出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学特质。
定距变项可用众数,也可用中位数,但以均值最适宜,因为均值能应用资料中所具有的分组资料中的加减数学特质。
然而,有两种情况下不宜用均值:一种是在分组资料中的极端没有组限时(如表9-的资料),不能求出均值,只能用中位值;另一种情况是变项中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为合适。
1表9- 青年人阅读小说的数目1李沛良.社会研究的统计应用.社会科学文献出版社2001,51。
三、离散趋势分析离散趋势是要求出一个值来表示个案与个案之间的差异情况。
这种测量法,与集中趋势测量法有互补的作用。
资料的离散程度表明了集中趋势的代表性如何,凡离散程度愈大,则集中趋势的代表性就愈小,离散程度愈小,则集中趋势的代表性愈大。
1、异众比率:异众比率(Vr )就是非众数的次数与全部个案数目的比率。
可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。
公式如下:Vr=n f n mo-其中fmo 为众数的次数。
如对于表9-1的资料其Vr =n f n mo -=550288550-2、极差:极差又称全距,它是一组数据中最大值与最小值之差。
极差是对定序?及以上尺度的变量离散程度的测量。
极差越小,表明资料越集中,集中趋势统计量的代表性越高。
但由于它的值是由端点的差决定的,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。
例:某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78、79、80、81、82 数学系:65、72、80、88、95 英语系:35、78、89、98、100 则三个代表队的全距分别为: 中文系:82-78=4(分) 数学系:95-65=30(分) 英语系:100-35=65(分)3、四分位差:四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。
四分位差的计算方法是先将一组数据按大小排列成序,然后四等分,各段分界点上的数叫做四分位数,第一个四分位置的值(Q1)与第三四分位置的值(Q3)的差异,就是四分位差(Q)。
Q2就是中位值(Md),两边各有50%的个案,也就是在中位值两旁的Q1和Q3之间,共有50%的个案。
因此,四分位差越大,表示有50%的个案越远离中位值,因而中位值的代表性就越小。
计算四分位差时,先求出Q1和Q3的位置,然后计算在这两个位置上的差异。
Q1和Q3的位置公式是:Q1位置=41+ nQ3位置=4)1(3+n以下是计算四分位差的方法:(1)对原始资料:例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。
首先,求出Q1和Q3的位置:Q1 的位置=41+n=4111+=3Q3的位置=4)1(3+n=4)111(3+⨯=9其次,从数序中找出Q1=18,Q3=21则四分位差Q= Q3—Q1=21—18=3例:甲村有8户人家,每户人数如下:2,3,4,7,9,10,12,12首先,求出Q1位置= 418+=2.25Q1=3+0.25(4—3)=3.25Q3 位置=418(3)+⨯ =6.75Q3=10+0.75(12—10)=11.5 所以Q=11.5— 3.25=8.25 (2)对单值分组资料:如表9-4所示的学生学业成绩,据公式可知:Q1位置= 4180+ =20.25Q3位置= 4)180(3+⨯ =60.75从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以Q=乙—丁=两个等级 (3)对组距分组资料:对组距分组资料Q1和Q3的计算公式为:Q1=L1+[114f cf n-]w1Q3=L3+[3433f cf n-]w3 其中 L1=Q1属组之真实下限L3= Q3属组之真实下限 f1=Q1属组之次数 f3= Q3属组之次数cf1=低于Q1属组下限之累积次数 cf3=低于Q3属组下限之累积次数 w1=Q1属组之组距 w3=Q3属组之组距 n 为全部个案数如表9-5所示的资料,其Q1位置= 41+n =41100+ =25.25,所以Q1在300—399组内;Q3位置=4)1(3+n =4)1100(3+ =75.75,所以Q3在400—499组内。