第二章---统计数据的描述(统计学)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

克服方法：加强培训工作，认真贯策《统计法》抽样误差：利用样本推断总体时产生的误差。改善方法：选择好的统计方法
2、提高统计数据的质量途径克服非抽样误差，选择好的统计方法减小抽样误差。
2.4 统计数据的整理一、统计数据的分组统计分组是统计整理的第一步，将数据列入不同的组内的过程。
其中列名尺度和顺序尺度数据是按照事物的性质和属性划分的，又称为按品质标志分组。间隔尺度和比例尺度数据是按照事物数量标准来划分的，又称为数量标志分组。例题
3600~3999 444625
4000~4799 837870
4800~5599 665649
5600~6399 466233
6400~7199 304701
7200~7999 195514
8000~8799 125740
8800~9999 115155
10000~11999 98546
12000~15999 79826
显然比例数据一定是间隔数据。比例数据可以进行加、减、乘和除法运算。
凡是适合低级数据的统计方法，对高级数据都适合，反之，就不一定成立。
2.2统计数据的来源统计数据的来源主要有直接来源和间接来源。
间接来源是指利用现有的数据。例如从报纸、图书、杂志、统计年鉴、网络获取的数据是间接数据，也包括才市场调查公司或数据库购买的数据。直接来源主要包括试验设计和统计调查获取的数据。物理、化学、
X； Y； PLOT（X，Y）; Z=1:2:100; Z1=z Plot(z,z1,x,y,’r’) 图中，蓝线表示的是完全按人口平均分配收入的洛伦茨曲线，红线表示本例中的洛伦茨曲线，也就是1973~1974年澳大利亚收入分配的洛伦茨曲线。
2.5 分布的集中趋势的测度数据的集中趋势是指能够代表数据总体变化趋势的量，集中趋势的值愈大，表明从总体上看，数据值大，反之，集中趋势值愈小，表明从总体上看，数据值愈小。因此，集中趋势是统计数据的一个重要指标。不同数据类型度量它的集中趋势指标值是不同的，下面分别介绍。一、名列尺度数据：众数对于名列尺度数据，度量它集中趋势的指标是众数。众数：在一组统计数据中，出现次数最多的数据是众数。例如某市场调查公司调查市场上饮料销售情况，如下表所示
合计 5604487 26382238 100.0 100.0
表中第一列可税收入是分组的变量（比例尺度数据变量）；第二列纳税人数是收入分组的次数分配（在可税收入范围内的纳税人数）；第三列可税收入是指各组纳税人可税收入的总额；第四列和第五列分别是分别是第二列和第三列的百分比分布；第六和第七列分别是第四和第五列向下累积的数值。下面用MATLAB6.5软件绘制出洛伦茨曲线，有关程序是
第二章统计数据的描述
2.1 数据的计量尺度 2.2统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 2.5 分布集中趋势的测度 2.6 分布的离散程度的测度 2.7 分布的偏态和峰度的测度 2.8茎叶图和箱线图 2.9 统计表和统计图
2.1数据的计量尺度
在进行统计数据分析和整理时，都需要了解统计数据的性质。为此要对统计数据进行分类，根据计量学一般分类方法，将统计数据按照从粗略到精确（从低级到高级）分类的计量尺度分别是列名尺度（定类尺度）、顺序尺度（定序尺度）、间隔尺度（等距尺度）和比例尺度（等比尺度）。
100%
财富占总财富的百分比
曲线1
A
B
曲线2
曲线3
人口占总人口的百分比
100%
在上图中，曲线1表示人口百分比与收入百分比完全相等，说明这个国家或地区的收入分配是完全按人口平均分配的。曲线2表示绝大多数人没有收入或财富，只有极少数人占有全部财富，说明这个国家或地区人的收入和财富分配是绝对不平均的。世界上绝大多数国家或地区收入分配的洛伦次曲线在曲线1和曲线3 之间，如曲线2所示。为了更准确地反映收入分配的变化程度，意大利经济学家基尼提出基尼系数来刻画收入分配平均程度
在收入等级中的百分数累计的百分数%
人数收入额人数收入额
2.13 5.03 5.38 6.28 6.29 6.78 7.43 7.93 14.95 11.88 8.32 5.44 3.49 2.24 2.05 1.76 1.43 0.56 0.55 0.08
0.50 1.51 2.06 2.93 3.47 4.33 5.37 6.41 13.94 13.07 10.56 7.82 5.61 3.99 4.08 4.06 4.13 2.11 3.04 1.01
其中k为组数，n为数据的个数。在本例中，k=1+lg30/lg2，约等于5，故分为5组第二步确定组距（组的上限与下限之差值）在本例中，样本数据中，最大值是128，最小值是84，故组距是（128-84）/5约等于8.1，再结合本例数据的特点，取组距为10。得到频数分布是如下图所示
按周加工零件分组数次数（频数）向下累计次数向上累计次数
例2.2讲解。下表是澳大利亚1973年至1974年可税收入分布情况
可税收纳税人
入
数目/人
120/0$以下
119312
1200~1599 282294
1600~1999 301201
2000~2399 351705
2400~2799 352297
2800~3199 380032
3200~3599 416597
16000~19999 31477
20000~39999 31079
40000以上 4564
可税收入
/$
130725 395513 543977 773007 916492 1141392 1417721 1690622 3677720 3448365 2785529 2963612 1480255 1052749 1076144 1071370 1090369 557818 802948 265910
饮料品牌频数百分比
可口可乐 18
旭日升冰茶
9
百事可乐
13
汇源果汁
10
合计
50
36% 18% 26% 20% 100%
由众数的定义知，上述数据中，众数是可口可乐，因为它出现的次数最多的统计数据。因为凡是适合低级统计数据的统计方法，对高级统计数据也适合，因此顺序数据、间隔数据和比例数据都可以用众数来描述它们的集中趋势。顺序数据、未分组的间隔数据和比例数据的众数计算方法和列名数据计算方法相同。对于分组的间隔数据和比例数据，其众数计算方法如下：
84
12
94
22
106
3
110
13
119
23
101
4
91
14
88
24
105
5
109
15
118
25
96
6
91
16
97
26
105
7
111
17
103
27
107
8
107
18
106
28
128
9
121
19
95
29
111
10
105
20
106
30
101
解：对数据进行统计分组第一步是确定组数，按下列公式来确定
k 1 lg n lg 2
4、比例尺度（ratio scale）
比例尺度，又称为定比尺度，是一种比间隔尺度更高级的计量尺度，和间隔尺度主要区别是对“0”的理解上，在间隔尺度中，“0”
表示一个具体值，在比例尺度中 “0”表示没有。例如假设我数学考试成绩是0分，表示我数学成绩是0分，也是我的成绩，并不是表示我没有成绩，也不表示我没有一定数学知识，至少1+2=3是知道的。假设我身上是0元钱，表示我口袋了一分钱都没有，也就是没有钱。可以看出表示成绩的统计数据是间隔数据，表示钱的统计数据是比例数据。两者之间的关系：间隔数据的差是比例数据。例如物理学中的电势、电势能、温度、重力势能都是间隔数据，但它们的差电势差、电势能差、温度差和重力势能查都是比例数据。在经济学中，绝大多数统计数据都是比例数据。GDP 、就业人数、企业总产值、企业主营业务收入等等都是比例数据。
2、顺序尺度（ordinal scale)
顺序尺度比列名尺度要高一级，表现为各类或组之间有一定的顺序，
可以进行优劣等级的比较。例如把我们同学按照学习成绩优秀、良
好、及格和不及格四类，显然这四类是有好坏或者说顺序之分的，
不是平行的。优秀、良好、及格和不及格就是顺序数据，学习成绩就是顺序尺度。显然顺序尺度一定是列名尺度，顺序数据一定是列名数据。
1、列名尺度（nominal scale)
列名尺度是最粗略的计量尺度，它只能对事物进行平行的分类和分组，各类、组之间是平行的。
例如将06营销和06会计专业学生按生源地划分，可以将学生分为云南籍学生、贵州籍学生、广西籍学生 … 等等。在本例中生源地就是列名尺度。
由列名尺度确定的数据是不能进行加、减、乘和除法运算的。有时，我们用“1”表示云南籍学生，“2”表示贵州籍学生，“3”表示广西籍学生，… 等等，这时，1， 2， 3等等仅是一个符号，不能进行运算。
80~90
3
90~100
7
100~110
13
110~120
5
120~130
2
合计
30
3
30
10
27
23
20
28
7
30
2
次数分布的显示方法：直方图和折线图在直角坐标系中，用小矩形显示统计数据的分布特征的图形就是直方图。在本例中，其直方图和折线图如下：
思考题：向下累计频数和随机变量的分布函数之间的关系是什么？
基尼系数=A/(A+B)
显然，基尼系数在0和1之间，若基尼系数等于0，表明这个国家收入分配是绝对平均的，若基尼系数等于1，表明这个国家收入分配是财富集中在极少数人手上，绝大多数人没有财富，分配是绝对不平均的。在通常情况下，一个国家的基尼系数在0.2~0.4之间，社会比较稳定，当基尼系数超过0.4时，表明这个国家收入分配出现不公了，需要政府采取措施，缩小差距，维护社会稳定。
生物等自然科学中统计数据直接来源于试验设计，经济学和社会科学中的统计数据直接来源于统计调查。统计调查的方法：普查和抽样调查 1、普查
普查是为一特定的目的，专门组织的一次全面调查。例如我国每十年进行一次的人口普查，农业普查等等。
普查的特点是数据全面，但成本高。 2、抽样调查
抽样调查是从总体中随机抽出一部分样本，通过样本数据的数
四、洛伦茨曲线和基尼系数
1、洛伦茨曲线美国统计学家洛伦次在上个世纪初，根据意大利经济学
家帕累托提出的收入分配公式绘制成的描述收入和财富分配的曲线。
收入分配百分比与人口百分比之间的函数关系的曲线。
作法：在直角坐标系中，横轴表示累计人口的百分比，纵轴表示累计的收入或财富百分比。描点绘制出洛伦茨曲线。
量特征来分析研究总体数量特征的调查研究方法。例如市场调查、对传染病的调查。
2.3 统计数据的质量 1、统计数据的误差：非抽样误差和抽样误差
非抽样误差：调查过程中由有关环节工作失误造成的误差。它包括调查过程中的填报错误、抄录错误、汇总错误、不完整的抽样框导致的误差、调查中不回答产生的误差和某些受访者故意报虚假数据等等。
某班学生按性别分组
按性别分组
人
数
百分比 %
男生
30
60
女生
20
40
合计
50
100
二、次数分配（频数分布）次数分配，也叫频数分配，是将数据分组后，计算其次数分布的情
况。例题某车间30பைடு நூலகம்工人周加工零件数
工人编号周加工零件数工人编号周加工零件数工人编号周加工零件数
1
106
11
99
21
85
2
2.13 7.16 12.54 18.82 25.11 31.89 39.32 47.25 62.20 74.08 82.40 87.84 91.33 93.57 95.62 97.38 98.81 99.37 99.92 100.0
0.50 2.01 4.07 7.00 10.47 14.80 20.17 26.58 40.52 53.59 64.15 71.97 77.58 81.57 85.65 89.71 93.84 95.95 98.99 100.0
3、间隔尺度（interval scale）间隔尺度是一种对数据进行精确计量的尺度，它不仅可以比较各事物的顺序，而且还可以计算其大小和差值的大小，也就是数量的间隔。例如我们同学数学考试成绩是69、80、70、90、76等等。间隔尺度度量的统计数据是可以进行加法和减法运算。
显然间隔尺度度量的数据一定是顺序数据，也一定是列名数据。