天津财经大学高建国-数据处理与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
又如,如果你的业务是提供足球运动衫的号码,那么,哪 一种度量对你来说更为有用:平均数、中位数或众数?当然 是众数。
四、离散特征数
有4种:一是全距:在实际生产中称之为极差,用R表示。 二是平均差:有简单式和加权式之分。当平均数是简单 算术平均数时,平均差便采用简单式;当平均数是加权算 术平均数时,平均差便采用加权式。 三是标准差(方差):也有简单式和加权式之分。和平 均差一样,选择哪种形式要依赖于平均数的计算。 四是离散系数:有全距系数、平均差系数和标准差系数。 一般地,标准差系数的应用场合较多。
二、数据分布的特征及特征数
分布特征 位置特征 离散特征 偏斜特征 分布特征数 平均数、中位数、众数 全距、平均差、标准差、离散系数 偏态系数
峰度特征
三、几种常用的位置特征数 (一)平均数
峰度系数
常见的有算术平均数、调和平均数、几何平均数。几何平 均数在第13章里会详细加以解释,这里主要讲解前两个。
计划完成% 企业数 80——90 2 90——100 3 100——110 6 110以上 4 合 计 15
计划产值 100 200 400 300 1000
计算15个企业的平均计划完成百分比。
(1)在这道题中,我们平均的是“计划完成百分比”, 那么,它就是变量,用x表示,变量值为各组的组中值。 (2)该变量的性质是比率变量,其基本比式是实际产值 与计划产值之比。 (3)从已知资料中可知条件是比率变量和基本比式的分 母资料,则权数是分母资料“计划产值”,用f来表示, 采用加权算术平均数公式来计算即可。 (二)中位数 平均数的着眼点在于抵消各观察值之间的数量差异, 表明将各个观察值“截长补短”以后的平均水平。中位 数的着眼点在于寻求全部观察值按其大小顺序排列,居 中间位置的一般水平。 例如:人口的年龄分布往往近似J型:婴儿数最多,随着 年龄的增大,人数逐渐下降,到了百岁左右,所剩的人
源自文库 引言
一、怎样获得数据?一是进行全面调查或 非全面调查;二是通过统计报表制度与专 门调查(典型调查、重点调查、抽样调查) 二、数据的类型:一是数量型数据与品质 型数据;二是时间数据、截面数据与虚拟 数据
三、 “数据处理”要处理什么?将调查所 获取的零散的不系统的数据,通过各种 方法进行整理的过程。进行统计分组、 计算平均数、标准差(变异系数)等。 四、“数据分析”该怎样进行分析? 依据数据整理的结果,根据现象的数量特 征和我们的具体要求,选择适当的描述统 计方法和推断统计方法,探寻原因、发现 规律、提出建议或对策。
三种广告宣传方式的销售量单位:箱
观测序号(周)
地区和广告形式 1 甲地区:街头标牌 广告 乙地区:公交车广 告 丙地区:随报刊邮 递广告 53 61 50 2 52 46 40 3 66 55 45 4 5 6 62 51 58 49 54 56 55 40 42
已知某地区近25年(1986-2010)粮食单产依次如下表 所示(单位:公斤/公顷)。 6240,6390,6975,6885,7755,8280,8505,8445, 8505,8460,8340,8550,9120,9165,9360,8775, 8640,9375,9510,9600,9630,9810,10155,9570, 9180 依据所得数据我们可以进行哪些处理,能够帮助我们 分析该地区粮食单产的变化情况?
计划数的比值。那么权数和公式这样选择: (1)若已知资料是比率变量和基本比式的分母资料,则 权数为分母资料,用f表示,并采用加权算术平均数。 (2)若已知资料是比率变量和基本比式的分子资料,则 权数为分子资料,用M表示,并采用加权调和平均数。 例如:通过调查获取了15个企业的产值计划执行情况, 如下表(单位:万元)
根据上述调查所获取的资料,你能得到什么结论?
设某校某专业的学生分为甲(54人)、乙(56人)两 个班,各班学生的数学成绩如下: 甲班 60,79,48,76,67,58,65,78,64,75,76,78,84,48,25,90,98,70,77, 78,68,74,95,85,68,80,92,88,73,65,72,74,99,69,72,74,85,67, 33,94,57,60,61,78,83,66,77,82,94,55,76,75,80,61 乙班 91,74,62,72,90,94,76,83,92,85,94,83,77,82,84,60,60,51,60, 78,78,80,70,93,84,81,81,82,85,78,80,72,64,41,75,78,61,42, 53,92,75,81,81,62,88,79,98,95,60,71,99,53,54,90,60,93 依据所得数据进行怎样的处理,才能对2个班的成绩 进行分析呢?
数据处理与分析
教学课件
天津财经大学统计系
高建国
现有某地区50户居民的月人均可支配收入数据资料 如下(单位:元): 886,928,999,946,950,864,1050,927,949, 852,1027,928,978,816,1000,918,1040, 854,1100,900,866,905,954,890,1006,926, 900,999,886,1120,893,900,800,938,864, 919,863,981,916,818,946,926,895,967, 921,978,821,924,651,850
对于绝对数和比率变量如何计算平均数,我们可这样做:
1.先确定变量。根据题意平均“谁”,“谁”就是变量。 比如,求平均日产量,则“日产量”就是变量;又如,求50 家企业的平均计划完成百分比,则“计划完成百分比”就是 变量。 2.判别“所确定变量”的类型是绝对数变量,还是比率变 量。 3.如果是绝对数变量,那么权数是次数(频数)或频率, 并采用加权算术平均数的公式来计算。 如:“ 日产量”是绝对数变量,则权数是各组的人数或人 数比重。 4.如果是比率变量,那么要找出比率变量的基本比式,然后 再根据已知资料来确定权数和计算公式。 如:“计划完成百分比”是比率变量,其基本比式是实际 数与
某企业为了扩大市场占有率,为开展产品促销活动,拟 研究三种广告宣传形式即街头标牌广告、公交车广告和 随报刊邮递广告对促销的效果,为此选择了三个人口规 模和经济发展水平以及该企业产品过去的销售量类似的 地区,然后随机地将三种广告宣传形式分别安排在其中 一个地区进行试验,共试验了6周,各周销售量如下表。 各种广告宣传方式的效果是否显著地有差异?( 0.05 )
第 4章
一、一般问题
有限总体概率抽样
抽取样本时我们应该作到:对每一次抽取行为都应精心 组织,使得此时尚留在总体中的所有单位都有可能被抽到, 且有确定的,不等于零的被抽中的概率。 例如,一个笼子里装有800只兔子,调查人员闭上眼睛将 手伸入笼中抓取兔子的行为,是不是符合随机抽取的原则。
正确的作法是:在800只兔子身上编上号码,并做好800 个阄,放在盒子里充分搅匀,从盒子里随机抽取一个号码, 号码是几,就从笼子中抓出相同号码的兔子。这就符合随机 抽取的原则了。或采用读取随机数表的方式 如果向例子中所描述的那样“闭上眼抓兔子”那属于随便 抓取,因为在笼口附近的兔子被抓住的可能大于远离笼口的 兔子。
例1.甲、乙两个企业平均每月的劳动生产率都是8000元, 它们的标准差分别是320元和240元,那么哪个企业的劳动 生产率的代表性更强?
对于这种情况,因为甲乙两个企业的总体平均水平是相 同的,所以,我们可以直接根据标准差的大小来判别乙企
业的劳动生产率的代表性强。
例2.A、B两个商场2000年平均每月的销售额分别为16000 元和8000元,它们的标准差各为320元和240元,那么哪个 商场的销售额稳定些? 例3.对某系一年级的100名男生进行调查,得到平均身高 为172厘米,平均体重68公斤,各自的标准差分别为6厘米和 4公斤,那么100名男生的身高和体重何者离散较严重? 对于例2和例3这两种情况,由于面对的一个是两个总体 水平相差很悬殊,一个是两个总体的性质或计量单位不同, 我们不能直接根据已知的标准差的大小来判别总体内变量值 的离散程度,应该计算两个总体各自的标准差系数。结果是 例2中,A商场的标准差系数是2%,B商场的标准差系数是 3%,即A商场的销售额稳定。例3中,身高的标准差系数是 3.49%,体重的标准差系数是5.88%,即100名男生体重的离散 较严重。
第 1章
一、一些基本概念 总体
数据的搜集
数据的搜集也就是统计调查,它是保证我们获取有用信 息的关键。 数量指标 指标 质量指标 总体单位 标志 数量标志 品质标志 变量 分为连续变量和离散变量,数量型和属性变量
二、统计分组
1.概念:根据研究目的和任务按照某一(或几个)标志将总 体划分为若干不同部分的统计方法,叫统计分组。通过统计 分组它可以帮助我们完成4种任务:(1)研究总体各部分之 间的关系;(2)研究总体的内部结构;(3)研究总体的次 数分布特征;(4)研究变量之间的关系。(举例) 2.统计分组的关键和应遵守的原则:分组时应该正确选择 分组标志,以免不能准确的完成上述的4种任务;同时应 遵循互斥性和包容性原则,以免重复或遗漏。 3.组距式分组中,应该弄清一些概念:组数、组距及组距的 类型(如等组距、异组距、开口组距、闭口组距)、组限 (上限、下限、如何确定组限)、组中值(它的假定性、开 口组距的组中值如何计算、用组中值计算的平均数是一个准 确值吗)。
第2章 数据和统计指标的基本类型
一、数据的类型 有数量型数据(用数来表示且数的计算有意义)和品质型 数据(用文字来表示也可用数来表示但数的计算没有意义)。 二、指标的类型 1.总量指标 它分为总体总量和标志总量(两者要成对出现才能判断, 比如职工人数如何判断,只有将它和工资总额或者和工业企 业数结合在一起才能判断出它的归属,即它和工资总额结合 在一起,它是总体总量;它和工业企业数结合在一起,它是 标志总量);时期数又称流量指标和时点数又称存量指标 (两者判断的正确与否对序时平均数的计算有至关重要的影 响,序时平均数的计算将在第13章里讲解,而如何判断呢,
三、数据收集方式
全面调查
非全面调查
统计报表制度 专门调查(典型调查、重点调查、抽样调查) 四、统计调查方案 是在背景分析的前提下,制定出的周密完整的,以指导 调查工作顺利完成的一项计划任务书。一项完整的统计 调查方案包括7方面的内容: 1.明确调查目的2 .确定调查对象和调查单位3.设计调查 项目4.设计调查表及问卷5.确定调查时间6.组织实施调 查计划7.调查报告的撰写
第 3章
数据的描述性整理
一、数据分布状态的描述方法
1.分布列:有品质型和数量型分布列。它们是通过统计 表来描述数据的分布状态。
在这里还应该弄清楚以下概念:次数又叫频数、频 率、频数密度、频率密度。因为这些概念可以帮助我们了 解数据的分布状态。
2.分布图:有棒图、直方图、折线图、曲线图。它们是通 过统计图来描述数据的分布状态。它们与分布列相比更加 直观。 画图时如果是等组距,那么可用频数或频率来做图; 如果是异组距,那么应该用频数密度或频率密度来做图。
数就很少了。如果计算年龄的算术平均数,老年人口数虽 然较少,但其年龄数值很高,这样一来,计算的平均年龄 就会偏向老年一方。因此,各国的人口统计资料中,平均 年龄的计算一般采用中位数。 (三)众数 众数的着眼点在于寻求各组中频数最多的观察值。用 来反映要了解的现象中最普通、最常见的数值水平。 比如,一位食品部经理想按照预期的销售量来分配货物 架的空间。从这个意义上来说,我们应该依据众数,而不是 平均数或中位数来确定,即过去具有最高销售量的食品将得 到最大限度的货物架空间。
应根据其特点即(1)与时间长短是否相关,(2)前后时 间上的数值相加是否有意义来判断)。 2.平均指标 在同质总体内,通过“填平补齐”,“取长补短”的 方式,获得的描绘总体一般水平的指标。
3.相对指标
它有5种形式:动态相对指标,比较相对指标,计划完 成相对指标,结构相对指标,强度相对指标。 平均指标和相对指标统称为比率型变量,我们在第4章 里将涉及到这个概念,到时在详谈。
四、离散特征数
有4种:一是全距:在实际生产中称之为极差,用R表示。 二是平均差:有简单式和加权式之分。当平均数是简单 算术平均数时,平均差便采用简单式;当平均数是加权算 术平均数时,平均差便采用加权式。 三是标准差(方差):也有简单式和加权式之分。和平 均差一样,选择哪种形式要依赖于平均数的计算。 四是离散系数:有全距系数、平均差系数和标准差系数。 一般地,标准差系数的应用场合较多。
二、数据分布的特征及特征数
分布特征 位置特征 离散特征 偏斜特征 分布特征数 平均数、中位数、众数 全距、平均差、标准差、离散系数 偏态系数
峰度特征
三、几种常用的位置特征数 (一)平均数
峰度系数
常见的有算术平均数、调和平均数、几何平均数。几何平 均数在第13章里会详细加以解释,这里主要讲解前两个。
计划完成% 企业数 80——90 2 90——100 3 100——110 6 110以上 4 合 计 15
计划产值 100 200 400 300 1000
计算15个企业的平均计划完成百分比。
(1)在这道题中,我们平均的是“计划完成百分比”, 那么,它就是变量,用x表示,变量值为各组的组中值。 (2)该变量的性质是比率变量,其基本比式是实际产值 与计划产值之比。 (3)从已知资料中可知条件是比率变量和基本比式的分 母资料,则权数是分母资料“计划产值”,用f来表示, 采用加权算术平均数公式来计算即可。 (二)中位数 平均数的着眼点在于抵消各观察值之间的数量差异, 表明将各个观察值“截长补短”以后的平均水平。中位 数的着眼点在于寻求全部观察值按其大小顺序排列,居 中间位置的一般水平。 例如:人口的年龄分布往往近似J型:婴儿数最多,随着 年龄的增大,人数逐渐下降,到了百岁左右,所剩的人
源自文库 引言
一、怎样获得数据?一是进行全面调查或 非全面调查;二是通过统计报表制度与专 门调查(典型调查、重点调查、抽样调查) 二、数据的类型:一是数量型数据与品质 型数据;二是时间数据、截面数据与虚拟 数据
三、 “数据处理”要处理什么?将调查所 获取的零散的不系统的数据,通过各种 方法进行整理的过程。进行统计分组、 计算平均数、标准差(变异系数)等。 四、“数据分析”该怎样进行分析? 依据数据整理的结果,根据现象的数量特 征和我们的具体要求,选择适当的描述统 计方法和推断统计方法,探寻原因、发现 规律、提出建议或对策。
三种广告宣传方式的销售量单位:箱
观测序号(周)
地区和广告形式 1 甲地区:街头标牌 广告 乙地区:公交车广 告 丙地区:随报刊邮 递广告 53 61 50 2 52 46 40 3 66 55 45 4 5 6 62 51 58 49 54 56 55 40 42
已知某地区近25年(1986-2010)粮食单产依次如下表 所示(单位:公斤/公顷)。 6240,6390,6975,6885,7755,8280,8505,8445, 8505,8460,8340,8550,9120,9165,9360,8775, 8640,9375,9510,9600,9630,9810,10155,9570, 9180 依据所得数据我们可以进行哪些处理,能够帮助我们 分析该地区粮食单产的变化情况?
计划数的比值。那么权数和公式这样选择: (1)若已知资料是比率变量和基本比式的分母资料,则 权数为分母资料,用f表示,并采用加权算术平均数。 (2)若已知资料是比率变量和基本比式的分子资料,则 权数为分子资料,用M表示,并采用加权调和平均数。 例如:通过调查获取了15个企业的产值计划执行情况, 如下表(单位:万元)
根据上述调查所获取的资料,你能得到什么结论?
设某校某专业的学生分为甲(54人)、乙(56人)两 个班,各班学生的数学成绩如下: 甲班 60,79,48,76,67,58,65,78,64,75,76,78,84,48,25,90,98,70,77, 78,68,74,95,85,68,80,92,88,73,65,72,74,99,69,72,74,85,67, 33,94,57,60,61,78,83,66,77,82,94,55,76,75,80,61 乙班 91,74,62,72,90,94,76,83,92,85,94,83,77,82,84,60,60,51,60, 78,78,80,70,93,84,81,81,82,85,78,80,72,64,41,75,78,61,42, 53,92,75,81,81,62,88,79,98,95,60,71,99,53,54,90,60,93 依据所得数据进行怎样的处理,才能对2个班的成绩 进行分析呢?
数据处理与分析
教学课件
天津财经大学统计系
高建国
现有某地区50户居民的月人均可支配收入数据资料 如下(单位:元): 886,928,999,946,950,864,1050,927,949, 852,1027,928,978,816,1000,918,1040, 854,1100,900,866,905,954,890,1006,926, 900,999,886,1120,893,900,800,938,864, 919,863,981,916,818,946,926,895,967, 921,978,821,924,651,850
对于绝对数和比率变量如何计算平均数,我们可这样做:
1.先确定变量。根据题意平均“谁”,“谁”就是变量。 比如,求平均日产量,则“日产量”就是变量;又如,求50 家企业的平均计划完成百分比,则“计划完成百分比”就是 变量。 2.判别“所确定变量”的类型是绝对数变量,还是比率变 量。 3.如果是绝对数变量,那么权数是次数(频数)或频率, 并采用加权算术平均数的公式来计算。 如:“ 日产量”是绝对数变量,则权数是各组的人数或人 数比重。 4.如果是比率变量,那么要找出比率变量的基本比式,然后 再根据已知资料来确定权数和计算公式。 如:“计划完成百分比”是比率变量,其基本比式是实际 数与
某企业为了扩大市场占有率,为开展产品促销活动,拟 研究三种广告宣传形式即街头标牌广告、公交车广告和 随报刊邮递广告对促销的效果,为此选择了三个人口规 模和经济发展水平以及该企业产品过去的销售量类似的 地区,然后随机地将三种广告宣传形式分别安排在其中 一个地区进行试验,共试验了6周,各周销售量如下表。 各种广告宣传方式的效果是否显著地有差异?( 0.05 )
第 4章
一、一般问题
有限总体概率抽样
抽取样本时我们应该作到:对每一次抽取行为都应精心 组织,使得此时尚留在总体中的所有单位都有可能被抽到, 且有确定的,不等于零的被抽中的概率。 例如,一个笼子里装有800只兔子,调查人员闭上眼睛将 手伸入笼中抓取兔子的行为,是不是符合随机抽取的原则。
正确的作法是:在800只兔子身上编上号码,并做好800 个阄,放在盒子里充分搅匀,从盒子里随机抽取一个号码, 号码是几,就从笼子中抓出相同号码的兔子。这就符合随机 抽取的原则了。或采用读取随机数表的方式 如果向例子中所描述的那样“闭上眼抓兔子”那属于随便 抓取,因为在笼口附近的兔子被抓住的可能大于远离笼口的 兔子。
例1.甲、乙两个企业平均每月的劳动生产率都是8000元, 它们的标准差分别是320元和240元,那么哪个企业的劳动 生产率的代表性更强?
对于这种情况,因为甲乙两个企业的总体平均水平是相 同的,所以,我们可以直接根据标准差的大小来判别乙企
业的劳动生产率的代表性强。
例2.A、B两个商场2000年平均每月的销售额分别为16000 元和8000元,它们的标准差各为320元和240元,那么哪个 商场的销售额稳定些? 例3.对某系一年级的100名男生进行调查,得到平均身高 为172厘米,平均体重68公斤,各自的标准差分别为6厘米和 4公斤,那么100名男生的身高和体重何者离散较严重? 对于例2和例3这两种情况,由于面对的一个是两个总体 水平相差很悬殊,一个是两个总体的性质或计量单位不同, 我们不能直接根据已知的标准差的大小来判别总体内变量值 的离散程度,应该计算两个总体各自的标准差系数。结果是 例2中,A商场的标准差系数是2%,B商场的标准差系数是 3%,即A商场的销售额稳定。例3中,身高的标准差系数是 3.49%,体重的标准差系数是5.88%,即100名男生体重的离散 较严重。
第 1章
一、一些基本概念 总体
数据的搜集
数据的搜集也就是统计调查,它是保证我们获取有用信 息的关键。 数量指标 指标 质量指标 总体单位 标志 数量标志 品质标志 变量 分为连续变量和离散变量,数量型和属性变量
二、统计分组
1.概念:根据研究目的和任务按照某一(或几个)标志将总 体划分为若干不同部分的统计方法,叫统计分组。通过统计 分组它可以帮助我们完成4种任务:(1)研究总体各部分之 间的关系;(2)研究总体的内部结构;(3)研究总体的次 数分布特征;(4)研究变量之间的关系。(举例) 2.统计分组的关键和应遵守的原则:分组时应该正确选择 分组标志,以免不能准确的完成上述的4种任务;同时应 遵循互斥性和包容性原则,以免重复或遗漏。 3.组距式分组中,应该弄清一些概念:组数、组距及组距的 类型(如等组距、异组距、开口组距、闭口组距)、组限 (上限、下限、如何确定组限)、组中值(它的假定性、开 口组距的组中值如何计算、用组中值计算的平均数是一个准 确值吗)。
第2章 数据和统计指标的基本类型
一、数据的类型 有数量型数据(用数来表示且数的计算有意义)和品质型 数据(用文字来表示也可用数来表示但数的计算没有意义)。 二、指标的类型 1.总量指标 它分为总体总量和标志总量(两者要成对出现才能判断, 比如职工人数如何判断,只有将它和工资总额或者和工业企 业数结合在一起才能判断出它的归属,即它和工资总额结合 在一起,它是总体总量;它和工业企业数结合在一起,它是 标志总量);时期数又称流量指标和时点数又称存量指标 (两者判断的正确与否对序时平均数的计算有至关重要的影 响,序时平均数的计算将在第13章里讲解,而如何判断呢,
三、数据收集方式
全面调查
非全面调查
统计报表制度 专门调查(典型调查、重点调查、抽样调查) 四、统计调查方案 是在背景分析的前提下,制定出的周密完整的,以指导 调查工作顺利完成的一项计划任务书。一项完整的统计 调查方案包括7方面的内容: 1.明确调查目的2 .确定调查对象和调查单位3.设计调查 项目4.设计调查表及问卷5.确定调查时间6.组织实施调 查计划7.调查报告的撰写
第 3章
数据的描述性整理
一、数据分布状态的描述方法
1.分布列:有品质型和数量型分布列。它们是通过统计 表来描述数据的分布状态。
在这里还应该弄清楚以下概念:次数又叫频数、频 率、频数密度、频率密度。因为这些概念可以帮助我们了 解数据的分布状态。
2.分布图:有棒图、直方图、折线图、曲线图。它们是通 过统计图来描述数据的分布状态。它们与分布列相比更加 直观。 画图时如果是等组距,那么可用频数或频率来做图; 如果是异组距,那么应该用频数密度或频率密度来做图。
数就很少了。如果计算年龄的算术平均数,老年人口数虽 然较少,但其年龄数值很高,这样一来,计算的平均年龄 就会偏向老年一方。因此,各国的人口统计资料中,平均 年龄的计算一般采用中位数。 (三)众数 众数的着眼点在于寻求各组中频数最多的观察值。用 来反映要了解的现象中最普通、最常见的数值水平。 比如,一位食品部经理想按照预期的销售量来分配货物 架的空间。从这个意义上来说,我们应该依据众数,而不是 平均数或中位数来确定,即过去具有最高销售量的食品将得 到最大限度的货物架空间。
应根据其特点即(1)与时间长短是否相关,(2)前后时 间上的数值相加是否有意义来判断)。 2.平均指标 在同质总体内,通过“填平补齐”,“取长补短”的 方式,获得的描绘总体一般水平的指标。
3.相对指标
它有5种形式:动态相对指标,比较相对指标,计划完 成相对指标,结构相对指标,强度相对指标。 平均指标和相对指标统称为比率型变量,我们在第4章 里将涉及到这个概念,到时在详谈。