2-统计数据的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Data Acquisition Considerations 获得数据的考虑
▪ 时间要求(Time Requirement) 获得数据信息是很费时间的 信息当得到是或许已经没有用了
▪ 得到数据的成本(Cost of Acquisition) 组织要对数据收取费用
▪ 数据误差(Data Errors) 收集数据不小心会导致得到的数据不准确或 不真实
二、统计数据的整理(续)
统计数据的整理的内容:
数据的审核; 根据研究目的和任务的要求选择整理的指标;
并根据分析的需要确定具体的分组; 对各调查项目的资料进行综合汇总,计算各
组和总体指标; 通过统计表、统计图等形式对整理的结果进
行描述。
数据审核—原始数据
(raw data)
审核的内容 1. 完整性审核
第一步,找出最大值与最小值,分别为97、38, 求全距是97一38=59。
第二步,确定组数。因为,一般测验成绩的总体 分布为正态分布,故可用公式计算如下:
第三步,确定组距。i=59/12约等于5,这里我们定组距 为5。
编制次数分布表的步骤
第四步,定组限。 因为这组数据最小的值为38,分组的组距定 为5,这样取最低组的下限为35,既可将38 包含在最低组内,其值又是5的整数倍。
统计调查方式比较 :
调查方式 比较项目
普查
重点调查
调查目的
搜集属于一定 时点状态的现 象的全面、详 细资料
了解和掌 握现象总 体的基本 情况
典型调查
推论总体 的本质或 研究某个 具体问题
抽样调查
从数量上由样 本推断总体, 并用概率保证 其可靠程度
组织形式 调查单位 所获资料
专门调查
调查总体范围 内的所有调查 单位
ห้องสมุดไป่ตู้
4. 需要遵循“不重不漏”的原则
5. 可采用等距分组,也可采用不 ☺ ~ ☺
等距分组
☺~ ☺
组距分组
(步骤)
1. 确定组数:组数的确定应以能够显示数据的分布特
征和规律为目的。在实际分组时,可以按斯塔奇斯 (Sturges) 提出的经验公式来确定组数K
2. 确定组距:组距(Class Width)是一个组的上限与下 限之差,可根据全部数据的最大值和最小值及所分 的组数来确定,即
编制次数分布表的步骤
1.求全距 从最大值的数据中减去最小值的数据,所得差数
就是全距。用符号R表示。 2.定组数
分组数目要看数据的多少,如果数据个数在100个 以上,习惯上一般分10—20组。如果数据的总体分布 为正态,可用下面的经验公式计算组数(K),这样可 使分组满足渐近最优关系。
编制次数分布表的步骤
典型调查 ——是根据调查的目的和要求,在对研究 对象进行初步全面分析的基础上,有意识地选择部分 有代表性的单位进行周密、系统地调查,以达到对事 物本质规律的认识,也是一种非全面调查。
抽样调查 ——是指根据随机原则从调查总体中抽取 部分单位进行观察并根据其结果推断总体数量特征的 一种非全面调查。
表注:写于表的下面。不是统计表的必要 组成部分。如果需要可对标题补充说明。 数据来源、附记等都可作为表注的内容, 文字可长可短。
次数分布表
•对于一组大小不同的数据划出等距的分组区间
(称为组距),然后将数据按其数值大小列入各 个相应的组别内,便可以出现一个有规律的表式。 这种统计表称之为次数分布表或频次分布表。 •编制次数分布表与绘制次数分布图,对于了解一 组数据的分布情况,平均水平,差异情况等非常 有用,是对连续随机变量进行初步整理的重要步 骤。
第二章 统计数据的描述
北航软件学院 杨晴虹
Email:ycrainbow@163.com Tele: 82314373
第二章 统计数据的描述
本章主要内容:
统计数据的搜集 统计数据的整理 集中趋势的测度 离散程度的测度
一、统计数据的搜集
统计数据的来源:
来自国家和地方各级统计及管理部门已经公 布的数据资料;
检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全
2. 准确性审核
检查数据是否真实反映客观实际情况,内 容是否符合实际
检查数据是否有错误,计算是否正确等
数据的审核—原始数据
(raw data)
审核数据准确性的方法
1. 逻辑检查
从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象
2. 各类经济信息中心、信息咨询机构、
专业调查机构等提供的数据
Internet
3. 各类专业期刊、报纸、书籍所提供的 资料。
4. 各种会议,如博览会、展销会、交易
会及专业性、学术性研讨会上交流的
中 国中
有关资料。
人国 口市 统场
计统
5. 从互联网或图书馆查阅到的相关资料 。
年计 鉴年

系统内部的数据
频数分布的实际状况
数据描述
分类数据
列联表 综合统计表
统计图
条形图
圆形图 其它图
统计表
•统计表的作用 •统计表可以给人以一目了然、简洁、清晰
的印象,表中的数据易于比较分析,是 经济与社会科学研究报告整理数据时普 遍采用的方法。
综合统计表
(例:表 1 某一投资者的证券组合表)
投资方式分类
股票 债券 CD 储蓄 合计
掌握被研究现象的本质是分类的基础。 •分类标志要明确,要能包括所有的数据。
统计资料的汇总
统计资料的汇总,是指在统计分组的基 础上,根据已经确定的分组标志和分组 数目,把总体中各单位归纳到相应的各 组中去,并计算出各组和总体的单位数 或指标值。 统计图表的制作,统计资料整理的最后 一步,是把统计资料汇总的结果整理成 表格,即统计表。
各组区间可写为:35~39,40~44,45~49,50~54,55~59,60~64, 65~69,70~74,75~79,80~84,85~89,90~94,95~99,最高组 95~99,亦可将最高分97包括进去。 各分组区间用整数表示,是为书写方便。在对数据进行分组时,一定要
按各组的精确限:34.5-39.5,39.5-44.5…以下类推。
来自为该管理问题的研究所专门进行的调查。
统计数据的间接来源:
来源于我国几种重要的统计出版物 (见下 表);
来源于内部调查的数据。
出版物
出版单位
中国统计年鉴 中国信息报 中国城市统计年鉴 中国物价统计年鉴 中国工业经济统计年鉴 中国社会统计年鉴 中国农村统计年鉴 中国劳动工资统计年鉴 中国固定资产投资统计年鉴 全国城镇居民家庭收支调查资料 国民收入统计资料汇编 世界工业统计汇编 国外经济统计资料 世界经济年鉴 海关统计
全面、详细地 反映总体情况
专门调查 或定期报 表
选择在总体 标志总量中 占绝大比重 的单位
粗略反映 总体的基 本情况
专门调查 ,有时也 采用报表 形式
按主观选 择具有一 定代表性 的单位
粗略估计 总体的情 况
专门调查
按随机性原 则选择的样 本单位
可以在一定 的可靠程度 保证下推断 总体。
Data Sources 数据来源
2. 实验数据
通过实验方法得到的数据 通常是对自然现象而言 也被广泛运用到社会科学中,如社会学、经济
学、管理学等
一、统计数据的搜集(续)
统计调查的方式 :专门调查和统计报表 专门调查 :
普查——是专门组织的为了某一特定目的的一 次性全面调查。
一、统计数据的搜集(续)
重点调查——是指只在调查对象中选择一部分重点单 位进行调查,借以了解基本情况的一种非全面调查。
二、统计数据的整理
统计资料的整理是对统计调查的进一步深化。只有经过科 学、认真地归类整理,并以适当的形式表达出来,才会使 统计资料系统化、条理化,才能反映出事物的整体特征, 为进一步研究其内在的联系提供必要的条件。
统计资料的整理是统计分析的前提。统计资料的整理可为 统计分析、推断提供完整而系统的数量依据,同时为计算 特征量数据提供方便。
分组方法
分组方法
单变量值分组
组距分组 等距分组 异距分组
单变量值分组
(要点)
1. 将一个变量值作为一组
2. 适合于离散变量

☺ 3. 适合于变量值较少的情况


组距分组
(要点)
1. 将变量值的一个区间作为一组 ☺ ~ ☺
2. 适合于连续变量
☺~ ☺
3. 适合于变量值较多的情况
☺~ ☺
编制次数分布表的步骤
第五步,按照各组的精确下限和精确上限,计算 每组的组中值。 计算得到各组的组中值为:37,42,47,52, 57,62,67,72,77,82,87,92,97。
已存在来源(Existing Sources) 某一特定应用数据或许存在于公司或组织中 大量的商务和经济数据可从专门收集和维护数 据的组织中得到 政府机构是另一个重要的数据来源 数据可从许多行业组织和有些特定兴趣的组织 中得到
Data Sources 数据来源
互联网(Internet) 互联网在成为一个重要的数据来源 大多数收集和处理数据的政府机构通过网上站点 提供服务(www.census.gov) 公司在其网站向公众提供信息(www.ford.com), 商品种类,价格等
组中值
下限值+上限值 =
2
组距分组与不等距分组
(在表现频数分布上的差异)
1. 等距分组
各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征
2. 不等距分组
各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际
状况 需要用频数密度(频数密度=频数/组距)反映
主要用于对分类和顺序据的审核
2. 计算检查
检查调查表中的各项数据在计算结果和计算方法 上有无错误
主要用于对数值型数据的审核
数据的审核—二手数据
(second hand data)
1. 适用性审核
弄清楚数据的来源、数据的口径以及有关的 背景材料
确定数据是否符合自己分析研究的需要
2. 时效性审核
中国统计出版社 中国信息报社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国统计出版社 中国财政经济出版社 中国社会科学出版社 中华人民共和国海关总署
系统外部的数据
1. 统计部门和政府部门公布的有关资料, 如各类统计年鉴。
1. 业务资料,如与业务经营活动有关的 各种单据,记录;
2. 经营活动过程中的各种统计报表; 3. 各种财务,会计核算和分析资料等。
中 国中 人国 口市 统场 计统 年计 鉴年

一、统计数据的搜集(续)
数据的直接来源(原始数据)
1. 调查数据
通过调查方法获得的数据 通常是对社会现象而言 通常取自有限总体
组距=( 最大值 - 最小值)÷ 组数 3. 统计出各组的频数并整理成频数分布表
组距分组
(几个概念)
1. 下限(low limit) :一个组的最小值
2. 上限(upper limit) :一个组的最大值
3. 组距(class width) :上限与下限之差
4. 组中值(class midpoint) :下限与上 限之间的中点值
3.求组距:指每一组的间距,用符号i表示。
4.定组限:指各组数据在数值上的起点值和终点值。 5.求组中值:各组实际上限数值与实际下限数值的中
点数值,即上、下限数值的平均值。 6.归类划记:将原始观测值按照一定的顺序逐一归组。 7.记录各组次数(f)。 8.核对,抄录新表。
有90个学生的语文成绩
编制次数分布表的步骤
尽可能使用最新的数据
3. 确认是否必要做进一步的加工整理
统计资料整理的程序
统计资料的分组 •统计资料的汇总 •统计图表的制作
统计资料的分组
统计资料的分组,即根据研究的任务及统 计事项内在的特征,按一定的标志把数 据资料进行归类,将性质相同的数据归 为一类。
•分组应该注意以下两个问题: •要分类正确。必须查明被研究现象的本质,
分类的变量
投资数量
百分比
(in thousands $)
46.5
42.27
32
29.09
15.5
14.09
16
14.55
110
100
统计表的构造
•序号:写在表的左上方。 •名称:是一个表的名称,应写在表的上方。 •标目:一般在表的上面一行和左侧一列。
统计表构造
数字:是统计表的语言,又称统计指标。 它占据统计表的大部分空间,书写一定 要整齐划一,位数要上下对齐,小数点 后缺位的要补零。
相关文档
最新文档