统计学+第二章+三四五节

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第三节统计数据整理一、统计整理的概念统计整理通常是指对调查所得到的原始资料进行分类、汇总，使之系统化、条理化的工作过程。统计整理是统计工作的第三阶段。这个阶段是统计调查的继续，统计分析的前提。
二、统计资料整理的程序和内容
（一）统计整理的程序 1.设计统计整理方案。 2.资料审核。 3.对资料进行分组和汇总。 4.编制统计图表。 5.统计资料的积累和保管。
五、频数分布的类型
各种不同性质的社会经济现象都有着特殊的次数分布。概括起来，主要有下列几种类型：
–钟形分布 –U形分布 –J形分布
1. 钟形分布钟形分布的符征是“两头小、中间大”，即靠近中间的变量值分布的次数多，靠近两端的变量值分布的次数少。绘成曲线图，宛如一口古钟。
钟形分布具体可分为对称分布和非对称分布。对称分布的特征是中间变量值分布的次数最多，两侧变量值分布的次数则随着与中间变量值距离的增大而渐次减少，并且围绕中心变量值两侧呈对称分布，如图①。
单位有可能归属于两个或两个以上的组。（）
• 判断： ①离散型变量可以做单项式分组
或组距式分组，而连续型变量只能做
组距式分组。（√） ②在进行统计分组时，总体中的
任何一个单位有可能归属于两个或两
个以上的组。（×）
四、累计频数与累计频率
向上累计频数（频率）：将各组次数（频率）由变量值低的组向变量值高的组累计，用以反映各组上限以下的累计次数或累计频率。向下累计频数（频率）：将各组次数（频率）由变量值高的组向变量值低的组累计，用以反映各组下限以上的累计次数或累计频率。
区间的最大值称为上限，最小值称为下限，上限与下
限之差为组距，
即：组距＝区间的最大值（上限）－区间的最小值（下限）
（2）等距分组与异距分组按总体内各组组距是否完全相等，数量标志分组又可以分为等距式分组与异距式分组。等距式分组适用于总体各单位的变量值由小到大呈现均匀变化的情况。异距式分组则适用于总体各单位的变量值由小到大呈现不均匀变化的情况。等距式分组：0-10，10-20，20-30；异距式分组：0-10，10-15，15-40。
（二）统计整理的内容 1.审核统计资料。包括：完整性、准确性、及时性。 2 .进行统计分组。这是统计整理的关键问题。 3 .进行资料的汇总。这是统计整理的中心内容。 4 .编制统计表或统计图。统计整理的结果。
三、统计分组（一）统计分组的概念
根据统计研究的目的和客观现象的内在特点，按某个标志（或几个标志）把被研究对象的总体划分为若干个不同性质的组。分组应遵循穷尽和互斥原则。
变量数列
例：1、某地人口的性别分布
按性别次数分组人数（人）比重（%） 15434927 51.37 男 14613297 48.63 女合计 30048224 100.00
2、学生的成绩分布学生按成绩分组x 60以下 60-70 70-80 80-90 90以上合计次数学生数比重（%） f/∑f （人）f 2 4 8 16 20 40 15 30 5 10 50 100
2.从统计表的内容上看统计表的内容可以分为两个组成部分：一部分是统计表所要说明的总体，它可以是各个总体单位的名称、总体的各个组，或者是总体单位的全部，这一部分习惯上称为主词。另一部分则是说明总体的统计指标，包括指标名称和指标数值，这一部分习惯上称为宾词。通常，统计表的主词列在表的左方，宾词列在表的右方。
第五节数据显示
一、统计表（一）统计表的概念和结构将统计数据按一定的顺序排列在表格上，就形成了统计表。
1.从统计表的形式上看，可
由总标题、横行标题、纵栏标题和指标数值四部分组成。此外
有些统计表在表下还增列补充资
料、注解、附记、资料来源、某些指标的计算方法、填表单位、
填表人员以及填表日期等。
（3）间断组距式分组与连续组距式分组间断组距式分组：组限不相连。这种分组方法主要适用于离散型变量。例如：0-10，11-20，21-30。连续组距式分组：相邻两组的上下限重叠。这种分组方法主要适用于连续型变量。例如：0-10，10-20，20-30。注意：组限重叠时，上限不在内。 10-20，20不属于该组，10属于该组。
2.选择分组种类
品质标志分组数量标志分组
按品质标志分组
按品质标志分组，就是选择反映事物属性差异的品质标志作为分组标志，并在品质标志的变异范围内划定各组界限，将总体划分成为若干个性质不同的组成部分。例如，人口按性别分组，可分为男、女两组；再如，企业按所有制分组，分为全民、集体、合营、个体等组。
5、计算各组次数。
组中值
组中值：各组中点位置所对应的变量值。其计算公式为：上组下限本组下限组中值= （适用所有闭口组）
2 本组组距本组下限（适用上开口组） 2
或= 或=
本组组距（适用下开口组）本组上限 2
• 判断： ①离散型变量可以做单项式分组或组距式分组，而连续型变量只能做组距式分组。（） ②在进行统计分组时，总体中的任何一个
品质数列
三、变量数列的编制变量数列由各组变量值x和次数f（f/∑f）
构成。
1、确定变量数列的形式。根据变量的性质及特点选择不同的变量数列。
2、将变量值按顺序排列，并计算全距。
全距（R）=最大变量值-最小变量值
3、确定组距和组数。对于等距分组，组距＝全距／组数。
组数过多，组距太小，要避免
2.统计分组的种类
品质标志分组
（1）按分组标志的性质不同数量标志分组简单分组（2）按分组标志的多少不同
复合分组
统计分组体系
例 1 为了了解某地区银行存款的构成，可以选用存款性质、期限两个标志分别进行分组：
存款同时按其性质及期限分组简单企业存款：分组活期品定期质储蓄存款：标复合活期志分组分定期例2 企业职工按工龄分组：组 5年以下财政性存款： 5~10年活期 10~15年定期 15~20年数量标志分组 20年以上按存款性质分组企业存款储蓄存款财政性存款按存款期限分组活期存款定期存款
国内生产总值（亿元）
39.6 110.7 95.8 14.9 74.1 12.2 18.7 43.2 224.4
k为组数，N为总体单位数， d为组距， R为全距，即最大值（xmax）与最小值（xmin）的差。
根据这个公式，可得出如下的组数参考标准： 45~89 7 90~179 8 180~359 9
4、划分组限。
（1）客观数量界限。（2）第一组的下限和最后一组的上
限。有极端值时，第一组和最后
一组可采用开口组。（3）尽可能采用５或１０的倍数。
3．U形分布 U形分布的待征与钟形分布恰恰相反，靠近两端的变量值分布的次数多，靠近中间的变量值分布的次数少，形成“两头高、中间低”的分布持征。绘成曲线图，象英文字母“U”字。
有些社会经济现象的分布表现为U形分布，例如人口死亡率分布。由于人口总体中幼儿死亡人数和老年死亡人数均较高，而中年死亡人数最低，因而按年龄分组的人口死亡率便表现为U形分布。
第四节频数分布一、频数分布的概念在统计分组的基础上，将总体中的所有单位按组归类整理，形成总体中各个单位数在各组间的分布，就叫做次数分布。分布在各组的个体单位数叫次数，又称频数。各组次数与总次数之比称比率，又称频率。
二、分布数列的种类由于分组是次数分布的基础，因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组，次数分布的类型，可归纳为：
将相同性质的单位分到不同组中去；反之，如果组数过少，组距太大，
要避免将不同性质的单位分到同一
组中去。
当偏度系数不大时，用斯特吉斯（美国 H.A.Sturges）经验公式确定组数:
k 1 3.32 gN R xmax xmin d k 1 3.32 gN
N 15~24 k 5 25~44 6
（二）统计分组的方法统计分组的关键在于选择分组标志和划分各组界限。 1、选择分组标志——统计分组的核心问题分组标志是将总体区分为各个性质不同的组的标准或依据。选择分组标志的原则是：结合一定的历史条件或经济条件，根据统计研究的目的和任务，选用那些最能反映现象本质特征的标志作为分组标志。
按数量标志分组
按数量标志分组，就是选择反映事物数量差异的数量标志为分组标志，并在数量标志的变异范围内划定各组界限，将总体划分为性质不同的若干组成部分。
（1）单项式分组与组距式分组就具体的分组形式而言，如果变量的变异较小，我们可以将每个变量值单列一组，这种分组称为单项式分组。例如，居民家庭按拥有住宅数分组，可分为0套（租房）、1套、2套、3套；等等。如果变量的变异较大，则可以把变量的整个的取值范围依次划分为若干个区间，一个区间内的所有变量值归为一组。这样的分组称为组距式分组。
在非对称的分布中，有不同方向的偏态，如图②、③所示
2. J形分布 J形分布有两种类型。正J形分布是次数随着变量值的增大而增多，绘成曲线图,犹如英文字母“J”字。反J形分布是次数随着变量值的增大而减少，绘成曲线图，犹如反写的英文字母“J”字，图形如下：
在社会经济现象中，有一些统计总体呈J形分布。例如，投资额按利润率大小分布，一般均呈正J形分布；而人口总体按X年龄Y大小分布，则一般均呈反J分布。
2、1999年日均创国内生产总值： 1、我国近年来国内生产总值资料：
年份 1996 1997 1998 1999 2000 国内生产总值（亿元） 67884.6 74462.6 78345.2 82067.5 89403.6
按产业和行业分组
第一产业第二产业工业建筑业第三产业交运仓储邮电通信业批发零售贸易餐饮业其他合计
总标题是表的名称，用以概括统计表中全部统计资料的内容。一般写在表的上端中部。横行标题是横行的名称，在统计表中通常用来表示各组的名称，它代表统计表所要说明的对象，一般写在表的左方。纵栏标题是纵栏的名称，在统计表中通常用来表示统计指标的名称。一般写在表的上方。指标数值列在各横行标题与各纵栏标题的交叉处。统计表中任何一个数字的内容由横行标题和纵栏标题所限定。
次数分布品质数列单项数列变量数列组距数列等距数列连续组距数列
异距数列
间断组距数列
根据分组标志特征的不同，分布数列可以分为属性分布数列与变量分布数列两种。按品质标志分组形成的分布数列称为属性分布数列，简称品质数列。
按数量标志分组形成的分布数列称为变量分布数列，简称变量数列。
对称分布中的正态分布最为重要，许多社会经济现象统计总体的分布都趋近于正态分布，也就是呈钟型分布状。生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；同一种生物体的身长、体重等指标；同一种种子的重量；测量同一物体的误差；弹着点沿某一方向的偏差；某个地区的年降水量；以及理想气体分子的速度分量，等等。一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布。其他：库兹涅茨曲线、拉弗曲线。
（二）统计表的分类统计表根据主词是否分组以及分组程度不同，可分为： 1、简单表，是指对总体未作任何分组而形成的统计表，可以有两种形式：一是按总体单位名称排列的统计表；二是按时间顺序排列的统计表。 2 、简单分组表，是指总体仅按一个标志分组而形成的统计表。 3、复合分组表，是指总体按两个或两个以上标志进行复合分组而形成的统计表。
判断： ①在确定组限时，组的上限应该等于组内最大数值。（） ②组限选自于变量值。（）
选择：
连续变量要求两个相邻组的组限（） A不等；B交叉；C为相邻两实数；D重叠
判断： ①在确定组限时，组的上限应该等于组内最大数值。（X） ②组限选自于变量值。（X）
Байду номын сангаас
选择：
连续变量要求两个相邻组的组限（D） A不等；B交叉；C为相邻两实数；D重叠