第二章---统计数据的描述(统计学)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在收入等级中的百分数 累计的百分数%
人数 收入额 人数 收入额
2.13 5.03 5.38 6.28 6.29 6.78 7.43 7.93 14.95 11.88 8.32 5.44 3.49 2.24 2.05 1.76 1.43 0.56 0.55 0.08
0.50 1.51 2.06 2.93 3.47 4.33 5.37 6.41 13.94 13.07 10.56 7.82 5.61 3.99 4.08 4.06 4.13 2.11 3.04 1.01
量特征来分析研究总体数量特征的调查研究方法。例如市场调查、 对传染病的调查。
2.3 统计数据的质量 1、统计数据的误差:非抽样误差和抽样误差
非抽样误差: 调查过程中由有关环节工作失误造成的误差。它包 括调查过程中的填报错误、抄录错误、汇总错误、 不 完整的抽样框导致的误差、调查中不回答产生 的误差和某些受访者故意报虚假数据等等。
84
12
94
22
106
3
110
13
119
23
101
4
91
14
88
24
105
5
109
15
118
25
96
6
91
16
97
26
105
7
111
17
103
27
107
8
107
18
106
28
128
9
121
19
95
29
111
10
105
20
106
30
101
解: 对数据进行统计分组第一步是确定组数,按下列公式来确定
k 1 lg n lg 2
四、洛伦茨曲线和基尼系数
1、洛伦茨曲线 美国统计学家洛伦次在上个世纪初,根据意大利经济学
家 帕累托提出的收入分配公式绘制成的描述收入和财 富分配的曲线。
收入分配百分比与人口百分比之间的函数关系的曲线。
作法:在直角坐标系中,横轴表示累计人口的百分比,纵 轴表示累计的收入或财富百分比。描点绘制出洛伦茨曲 线。
16000~19999 31477
20000~39999 31079
40000以上 4564
可税收入
/$
130725 395513 543977 773007 916492 1141392 1417721 1690622 3677720 3448365 2785529 2963612 1480255 1052749 1076144 1071370 1090369 557818 802948 265910
1、列名尺度(nominal scale)
列名尺度是最粗略的计量尺度,它只能对事物进行平行的分类和 分组,各类、组之间是平行的。
例如 将06营销和06会计专业学生按生源地划分,可以将学生分 为 云南籍学生、贵州籍学生、广西籍学生 … 等等。在本例中生源 地就是列名尺度。
由列名尺度确定的数据是不能进行加、减、乘和除法运算的。 有时,我们用“1”表示云南籍学生,“2”表示贵州籍学生,“3”表 示广西籍学生,… 等等,这时,1, 2, 3等等仅是一个符号,不 能进行运算。
2、顺序尺度(ordinal scale)
顺序尺度比列名尺度要高一级 ,表现为各类或组之间有一定的顺 序,
可以进行优劣等级的比较。例如 把我们同学按照学习成绩优秀、 良
好、及格和不及格四类,显然这四类是有好坏或者说顺序之分的,
不是平行的。优秀、良好、及格和不及格就是顺序数据,学习成绩 就是顺序尺度。显然顺序尺度一定是列名尺度,顺序数据一定是列 名数据。
克服方法:加强培训工作,认真贯策《统计法》 抽样误差: 利用样本推断总体时产生的误差。 改善方法:选择好的统计方法
2、提高统计数据的质量途径 克服非抽样误差,选择好的统计方法减小抽样误差。
2.4 统计数据的整理 一、统计数据的分组 统计分组是统计整理的第一步,将数据列入不同的组内的过程。
其中列名尺度和顺序尺度数据是按照事物的性质和属性划分的,又 称为按品质标志分组。 间隔尺度和比例尺度数据是按照事物数量 标准来划分的,又称为数量标志分组。 例题
2.13 7.16 12.54 18.82 25.11 31.89 39.32 47.25 62.20 74.08 82.40 87.84 91.33 93.57 95.62 97.38 98.81 99.37 99.92 100.0
0.50 2.01 4.07 7.00 10.47 14.80 20.17 26.58 40.52 53.59 64.15 71.97 77.58 81.57 85.65 89.71 93.84 95.95 98.99 100.0
生物等自然科学中统计数据直接来源于试验设计,经济学和社会科 学中的统计数据直接来源于统计调查。 统计调查的方法:普查和抽样调查 1、普查
普查是为一特定的目的,专门组织的一次全面调查。例如我国每 十年进行一次的人口普查,农业普查等等。
普查的特点是 数据全面,但成本高。 2、抽样调查
抽样调查是从总体中随机抽出一部分样本,通过样本数据的数
显然比例数据一定是间隔数据。比例数据可以进行加、减、乘和除 法运算。
凡是适合低级数据的统计方法,对高级数据都适合,反之,就不一 定成立。
2.2统计数据的来源 统计数据的来源主要有直接来源和间接来源。
间接来源是指利用现有的数据。例如从报纸、图书、杂志、统计年 鉴、网络获取的数据是间接数据,也包括才市场调查公司或数据库 购买的数据。 直接来源 主要包括试验设计和统计调查获取的数据。物理、化学、
饮料品牌 频 数 百 分 比
可口可乐 18
旭日升冰茶
9
百事可乐
13
汇源果汁
10
合计
50
36% 18% 26% 20% 100%
由众数的定义知,上述数据中,众数是 可口可乐,因为它出现的次 数最多的统计数据。 因为凡是适合低级统计数据的统计方法,对高级统计数据也适合, 因此顺序数据、间隔数据和比例数据都可以用众数来描述它们的集 中趋势。顺序数据、未分组的间隔数据和比例数据的众数计算方法 和列名数据计算方法相同。对于分组的间隔数据和比例数据,其众 数计算方法如下:
基尼系数=A/(A+B)
显然,基尼系数在0和1之间,若基尼系数等于0,表明这个国家收 入分配是绝对平均的,若基尼系数等于1,表明这个国家收入分配 是财富集中在极少数人手上,绝大多数人没有财富,分配是绝对不 平均的。 在通常情况下,一个国家的基尼系数在0.2~0.4之间,社会比较稳 定,当基尼系数超过0.4时,表明这个国家收入分配出现不公了, 需要政府采取措施,缩小差距,维护社会稳定。
合计 5604487 26382238 100.0 100.0
表中第一列可税收入是分组的变量(比例尺度数据变量);第二列纳 税人数是收入分组的次数分配(在可税收入范围内的纳税人数);第 三列可税收入 是指各组纳税人可税收入的总额;第四列和第五列分别 是分别是第二列和第三列的百分比分布;第六和第七列分别是第四和 第五列向下累积的数值。 下面用MATLAB6.5软件绘制出洛伦茨曲线,有关程序是
其中k为组数,n为数据的个数。 在本例中,k=1+lg30/lg2,约等于5,故分为5组 第二步 确定组距 (组的上限与下限之差值) 在本例中,样本数据中,最大值是128,最小值是84,故组距是 (128-84)/5约等于8.1,再结合本例数据的特点,取组距为10。 得到频数分布是如下图所示
按周加工零件分组数 次数(频数) 向下累计次数 向上累计次数
3、间隔尺度(interval scale) 间隔尺度是一种对数据进行精确计量的尺度,它不仅可以比较各 事物的顺序,而且还可以计算其大小和差值的大小,也就是数量的 间隔。 例如我们同学数学考试成绩是69、80、70、90、76等等。 间隔尺度度量的统计数据是可以进行加法和减法运算。
显然间隔尺度度量的数据一定是顺序数据,也一定是列名数据。
4、比例尺度(ratio scale)
比例尺度,又称为定比尺度,是一种比间隔尺度更高级的计量尺度, 和间隔尺度主要区别是对“0”的理解上,在间隔尺度中,“0”
表示一个具体值,在比例尺度中 “0”表示没有。例如假设我数学 考试成绩是0分,表示我数学成绩是0分,也是我的成绩,并不是表 示我没有成绩,也不表示我没有一定数学知识,至少1+2=3是知道 的。 假设我身上是0元钱,表示我口袋了一分钱都没有,也就是没有钱。 可以看出表示成绩的统计数据是间隔数据,表示钱的统计数据是比 例数据。 两者之间的关系:间隔数据的差是比例数据。例如 物理学中的电 势、 电势能、温度、重力势能都是间隔数据,但它们的差 电势差、电 势能差、温度差和重力势能查都是比例数据。 在经济学中,绝大多数统计数据都是比例数据。GDP 、就业人数、 企业总产值、企业主营业务收入等等都是比例数据。
例2.2讲解。下表是澳大利亚1973年至1974年可税收入分布情况
可税收 纳税人
入
数目/人
120/0$以下
119312
1200~1599 282294
1600~1999 301201
2000~2399 351705
2400~2799 352297
2800~3199 380032
3200~3599 416597
第二章 统计数据的描述
2.1 数据的计量尺度 2.2统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 2.5 分布集中趋势的测度 2.6 分布的离散程度的测度 2.7 分布的偏态和峰度的测度 2.8茎叶图和箱线图 2.9 统计表和统计图
2.1数据的计量尺度
在进行统计数据分析和整理时,都需要了解统计数据的性质。为此 要对统计数据进行分类,根据计量学一般分类方法,将统计数据按 照从粗略到精确(从低级到高级)分类的计量尺度分别是 列名尺 度(定类尺度)、顺序尺度(定序尺度)、间隔尺度(等距尺度) 和比例尺度(等比尺度)。
X; Y; PLOT(X,Y); Z=1:2:100; Z1=z Plot(z,z1,x,y,’r’) 图中,蓝线表示的是完全按人口平均分配收入的洛伦茨曲线,红线 表示本例中的洛伦茨曲线,也就是1973~1974年澳大利亚收入分配 的洛伦茨曲线。
2.5 分布的集中趋势的测度 数据的集中趋势是指能够代表数据总体变化趋势的量,集中趋势的 值愈大,表明从总体上看,数据值大,反之,集中趋势值愈小,表 明从总体上看,数据值愈小。因此,集中趋势是统计数据的一个重 要指标。不同数据类型度量它的集中趋势指标值是不同的,下面分 别介绍。 一、名列尺度数据 :众数 对于名列尺度数据,度量它集中趋势的指标是众数。 众数:在一组统计数据中,出现次数最多的数据是众数。 例如 某市场调查公司调查市场上饮料销售情况,如下表所示
某班学生按性别分组
按性别分组
人
数
百分比 %
男生
30
60
女生
20
40
合计
50
100
二、次数分配(频数分布) 次数分配,也叫频数分配,是将数据分组后,计算其次数分布的情
况。例题 某车间30名工人周加工零件数
工人编号 周加工零件数 工人编号 周加工零件数 工人编号 周加工零件数
1
106
11
99
21
85
2
80~90
3
90~100
7
100~110
13
110~120
5
120~130
2
wk.baidu.com
合计
30
3
30
10
27
23
20
28
7
30
2
次数分布的显示方法: 直方图和折线图 在直角坐标系中,用小矩形显示统计数据的分布特征的图形就是直 方图。在本例中,其直方图和折线图如下:
思考题: 向下累计频数和随机变量的分布函数之间的关系是什么?
3600~3999 444625
4000~4799 837870
4800~5599 665649
5600~6399 466233
6400~7199 304701
7200~7999 195514
8000~8799 125740
8800~9999 115155
10000~11999 98546
12000~15999 79826
100%
财 富 占 总 财 富 的 百 分 比
曲线1
A
B
曲线2
曲线3
人口占总人口的百分比
100%
在上图中,曲线1表示人口百分比与收入百分比完全相等,说明这 个国家或地区的收入分配是完全按人口平均分配的。 曲线2表示绝大多数人没有收入或财富,只有极少数人占有全部财 富,说明这个国家或地区人的收入和财富分配是绝对不平均的。 世界上绝大多数国家或地区收入分配的洛伦次曲线在曲线1和曲线3 之间,如曲线2所示。 为了更准确地反映收入分配的变化程度,意大利经济学家基尼提出 基尼系数来刻画收入分配平均程度