第二章 统计数据的描述2014

合集下载

第二章 统计数据的描述练习题答案

第二章 统计数据的描述练习题答案

2)绘制直方图
15 次 数 ( 10 单 位 : 天 5 )
0
25 30 35 40 45 50 销售额(单位:万元)
2019年3月29日星期五
• 下面是A、B两个班学生的数学考试成绩数据:
表:A班和B班学生的数学考试成绩 44 57 59 60 61 61 62 63 63 65
66
A班 73 76 85 35
85
75 65 55 45
35
北 京
长 春
南 京
郑 州
武 汉
广 州
成 都
昆 明
兰 州
西 安
2019年3月29日星期五
某百货公司6月份各天的销售额数据如下(单位:万元)
257 276 297 252 238 310 240 236 265 278
271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。
树茎
3
4 5
6
7 8 9 10
0
2019年3月29日星期五
000
3
• 1997年我 国几个主 要城市各 月份的平 均相对湿 度数据如 下表,试 绘制箱线 图,并分 析各城市 平均相对 湿度的分 布特征。
2019年3月29日星期五
月 份 1 2 3 4 5 6
北 京 49 41 47 50 55 57
x
242.5 4 257.5 5 272.5 10 287.5 5 302.5 4 317.5 2 275.5 30

统计学原理(第二章)

统计学原理(第二章)

数据的计量和类型
一、数据的计量尺度 4.定比尺度:又称为比例尺度或是比较水平, 是对事物之间比值的一种测度,它是最高层 次的测量,可用于参数和非参数统计推断。 它是与定距尺度属于同一层次的一种计量尺 度,但其功能比定距尺度更强一些。
在日常生活中,大多数情况下使用的都是 定比尺度。例如,年龄、收入、某地区每年的 失业人数、罪犯人数等。
数值数据的描述
一、数值数据的 分组
为什么要进行数据的分组?
品质数据的描述
某电脑公司50名销售代表某季度电脑销售量按从小 到大排序如下表:
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 126 127 127 128 128 129 130 131 133 133 134 134 135 139 139 139
204 80.00% 105 41.17%
235 92.16% 51 20%
255 100% 20 7.84%
— 100% —
品质数据的描述
二、品质数据的 图示 1.条形图:是用宽度相同的条形的高度或长 短来表示数据变动的图形,横置的称为带形 图,纵置的称为柱形图(直方图)。
柱形图(直方图)
120 100 80 60 40 20
定类变量、定序变量、 数值型变量(离散变量、连续变量)
第二节 品质数据的描述
一、品质数据的描述 二、数据的类型品质数据的图示 三、品质数据的分布特征描述
品质数据的描述
一、品质数据的 描述 1.频数:是落在某一特定类别(或组)中的 数据的个数。把各个类别及其相应的频数全 部列出来则形成频数分布。

第二章 统计数据的描述

第二章   统计数据的描述

第二章统计数据的描述一、填空题:1.统计分组有等距分组与异距分组两大类。

2. 频率是每组数据出现的次数与全部次数之和的比值。

3. 统计分组的关键在于确定组数和组距。

4. 统计表从形式上看,主要由表头(总标题)、横行标题、纵栏标题和数字资料(指标数值)四部分组成。

5. 均值是测度集中趋势最主要的测度指标,标准差是测度离散趋势最主要的测度指标。

6.当平均水平和计量单位不同时,需要用变异系数(离散系数)来测度数据之间的离散程度。

7.众数是一组数据中出现次数最多的变量值。

8.对于一组数据来说,四分位数有 3 个。

二、单项选择题:1. 次数是分配数列组成的基本要素之一,它是指( B )。

A、各组单位占总体单位的比重B、分布在各组的个体单位数C、数量标志在各组的划分D、以上都不对2. 某连续变量数列,其末组为600以上。

又如其邻近组的组中值为560,则末组的组中值为( D )。

A、620B、610C、630D、6403. 变量数列中各组频率的总和应该是( B )。

A、小于1B、等于1C、大于1D、不等于14. 某连续变量数列,其首组为500以下。

又如其邻近组的组中值为520,则首组的组中值为( C )。

A、460B、470C、480D、4905. 在下列两两组合的指标中,哪一组的两个指标完全不受极端数值的影响(D )A、算术平均数和调和平均数B、几何平均数和众数C、调和平均数和众数D、众数和中位数6. 在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距应取(D )A、9.3B、9C、6D、107. 一项关于大学生体重的调查显示,男生的平均体重是60公斤,标准差为5公斤;女生的平均体重是50公斤,标准差为5公斤.据此数据可以推断( B) 用变异系数算A、男生体重的差异较大B、女生体重的差异较大C、男生和女生的体重差异相同D、无法确定8. 某生产小组有9名工人,日产零件数分别为10,11,14,12,13,12,9,15,12.据此数据计算的结果是( A ) 众数12 中位数12 平均数12A、均值=中位数=众数B、众数>中位数>均值C、中位数>均值>众数D、均值>中位数>众数9. 按连续型变量分组,最后一组为开口组,下限值为2000。

统计学高教第三版课后习题答案

统计学高教第三版课后习题答案

第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。

统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。

2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。

间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。

3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。

非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。

抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。

4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。

(4)从匹配样本的观察值中推断两品牌口味的相对好坏。

第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。

按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。

按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。

统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。

2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。

洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。

3. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。

统计学(第四版)袁卫 庞皓 贾俊平 杨灿 (02)第2章 统计数据的描述(袁卫)

统计学(第四版)袁卫 庞皓 贾俊平 杨灿 (02)第2章 统计数据的描述(袁卫)
i 1 n i
n
2. 各变量值与平均数的离差平方和最小
(x
i 1
5 - 36
i
x ) min
2
统计学
STATISTICS
几何平均数
统计学
STATISTICS
几何平均数
(geometric mean)
n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
5 - 27
统计学
STATISTICS
四分位数
(位置的确定)
n 1 QL 位置 4 Q 位置 3(n 1) U 4 n QL 位置 4 Q 位置 3n U 4
去掉大小两端的若干数值后计算中间数 据的均值 2. 在电视大奖赛、体育比赛及需要人们进行 综合评价的比赛项目中已得到广泛应用 3. 计算公式为
1.
x
5 - 41
x( n 1) x( n 2) x( n n ) n 2 n
1 2
n 表示观察值的个数;α表示切尾系数,0
f
i
i i
样本平均数
5 - 34
f
i 1
i
统计学
STATISTICS
加权平均数 (例题分析)
x
x f
i 1 k
k
i i
f
i 1
i
3110 103.67 (件) 30
5 - 35
统计学
STATISTICS
平均数

第2章统计数据的描述

第2章统计数据的描述

第二章统计数据的描述一、单项选择题1.下列中,最粗略、计量层次最低的计量尺度是()A.间隔尺度B.顺序尺度C.比例尺度D.列名尺度2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是()A.比例尺度B.列名尺度C.间隔尺度D.顺序尺度3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是()A.列名尺度B.间隔尺度C.顺序尺度D.比例尺度4.下列中,计量层次的最高、最精确的计量尺度是()A.比例尺度B.间隔尺度C.顺序尺度D.列名尺度5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是()A.抽样调查B.重点调查和典型调查C.统计报表D.普查6.实际中应用最为广泛的一种调查方式是()A.重点调查B.统计报表C.普查D.抽样调查7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是()A.抽样调查B.典型调查C.重点调查D.普查8.一次性调查是指()A.只做过一次的调查B.调查一次以后不再调查C.间隔一段时间在进行一次调查D.只隔一年就进行一次的调查9.在统计分析中,对累积的次数分配用得最直接的是()A.供给曲线B.需求曲线C.洛伦茨曲线D.边际需求曲线10.专门用来衡量和反映收入分配平均程度的统计指标是()A.基尼系数B.可决系数C.相关系数D.离散系数11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1— —0.4 C.— —0..812.一般认为,基尼系数等于( )是收入分配不公平的警戒线。

A.0.2B.0.6C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( )A.正态分布 分布 C.均匀分布 D.偏态分布14.计算中位数时,假定中位数所在组的频数在该组内呈( )A.左偏分布B.正态分布C.右偏分布D.均匀分布15.反映数据分布集中趋势的最主要的测度值是( )A.众数B.中位数C.均值D.几何平均数16.各个变量值与均值的离差之和( )A.大于0B.小于0C.等于0D.等于一个不为0的常数17.各个变量值与均值的离差平方和( )A.为最大B.为最小C.为0D.为一个不为0的常数18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( )A.异众比率B.四分位差C.方差或标准差D.极差19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( )A.方差和标准差B.内距C.异众比率D.平均差20.下列中,适用于列名数据的集中趋势测度值是( )A.众数B.中位数C.均值D.几何均值21.描述数据离散程度最简单的测度值是( )A.平均差B.方差和标准差C.极差D.四分位差22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。

统计学第三版书后答案第二章

统计学第三版书后答案第二章

第2章统计数据的描述●9.某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。

解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值:(见Excel练习题2.9)x=xn∑=822330=274.1(万元)或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,得到均值也为274.1。

在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数:M e=2722732+=272.5(万元)由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而:Q L=261+2732724-=261.25(万元)同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:Q U=291-2732724-=290.75(万元)。

(2)未分组数据的标准差计算公式为:s =302 1()1iix xn=--∑利用上公式代入数据计算是个较为复杂的工作。

手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。

(见Excel练习题2.9)我们可以利用Excel表直接计算标准差:点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。

第二章数据描述

第二章数据描述

值的影响。因此,它不能准确地描述数据的分散程度。
【例题 2.14】在反映各变量值离散趋势的变异指标中,只与变量极端标志值有关的指标是( )。
(4)用哪个值代表一组数据 平均数的主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较 差。 中位数和众数的优点是不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜 程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。
【例题 2.12】在各种平均指标中,不受极端值影响的平均指标有( )。[2009 年中级真题] A.算数平均数 B.调和平均数 C.中位数 D.几何平均数 E.众数 【答案】CE
3
述。
【例题 2.8】为描述身高与体重之间是否有某种关系,适合采用的图形是( )。
A.直方图
B.条形图
C.散点图
D.环形图
【答案】C
【解析】散点图来反映两个变量的关系。题中只有两个变量,即身高和体重,因此可用散点图来描
【例题 2.9】下列各项中,即适用于定性数据,又适用于定量数据的图形表示方法有( )。
【例题 2.5】某管理局对其所属的企业的生产计划完成百分比采用如下分组,其中最能反映事物本质 差异的分组是( )。[2007 年中级真题]
A.80~89%,90~99%,100~109%,110%以上 B.80%以下,80~100%,100%以上 C.80%以下,80~90%,90~100%,100%~110%,110%以上 D.85%以下,85~95%,95~105%,105%以上 【答案】C 2.确定组距 组距:指每个组变量值中的最大值与最小值之差。若将最大值称为上限,最小值称为下限,则组距 等于上限与下限之差,即 组距=上限-下限 第一组的下限应小于最小值,最后一组的上限应高于最大值。 在确定组距时,一般应当掌握以下原则: (1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别 如果不能正确反映各部分质的差异,必须重新分组。例如,按学生百分制成绩分组,必须要有 60 分 的组限,否则不能反映是否及格的本质区别。 (2)要能准确地清晰地反映总体单位的分布特征 在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很 不均匀时,则一般采用不等距分组。

第二章期末复习总结与习题 统计数据的描述

第二章期末复习总结与习题  统计数据的描述

第二章统计数据的描述统计整理:是根据统计研究任务的要求,对调查所搜集到的原始资料进行审核、分组、汇总、编表,使其条理化、系统化的工作过程。

统计整理的内容:审核、分组、汇总、编表数据整理的原则:目的性、联系性、简明性2.1.1统计分组一、统计分组:根据研究任务的要求和现象总体的内在特点,把统计总体按照某一标志划分为若干性质不同又有联系的几个部分。

基本要求组内的单位性质相同组间的单位性质相异二、统计分组种类类型分组的目的是划分现象类型,结构分类的目的是研究同质总体的构成,分析分组的目的是研究现象总体内部诸标志间的依从和制约关系。

简单分组是将总体按一个标志进行分组,复合分组是将总体按两个或两个以上的标志重叠起来进行分组。

品质分组是将总体按品质标志进行分组,变量分组是将总体按数量标志进行分组三、统计分组方法1、品质分组方法品质分组是将总体按品质标志进行分组.品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。

有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。

2、数量标志(变量)分组方法按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。

变量分组方法从以下几个方面说明:(1)单项式分组:以一个变量值代表一组。

如居民家庭按儿童数或人口数分组,这种分组适用于离散性变量且变量值的个数较少情况。

(2)组距式分组:以变量值变动的一个区间作为一组,并且把区间的距离称为组距。

这种分组适用于连续型变量,也适用于离散型变量的变量值个数较多的情况。

组距式分组步骤: 第一步、将原始资料排序并计算全距R第二步、确定组数第三步、确定组距(max-min)/K第四步、确定组限第五步、整理成表全距R =最大值—最小值组距i = 每组中最大变量值与最小变量值之间的距离或差数。

组限= 各组最大的变量值称为上限,最小的变量值称为下限,确定组限的方法有两种:间断式确定组限和重叠式确定组限。

统计数据的描述

统计数据的描述

第二章统计数据的描述在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。

为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。

一组数据的统计特征通常包括以下四个方面:1、集中趋势,也称作中心位置。

即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。

2、离散性。

即一组数据的分散程度,也就是数据散布的范围。

3、倾斜度。

一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。

4、尖削度。

这就是一组数据所描绘的曲线顶部的峰态特征。

根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。

即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。

在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。

第一节数据集中趋势的度量一组数据的集中趋势通常用平均数、中位数和众数等来表示。

这些统计量均称为平均指标。

它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。

平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。

一、平均数管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。

但这里我们主要介绍算术平均数。

算术平均数又称均值,常用x来表示。

根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。

1、简单算术平均数简单算术平均数的计算公式如下:xx x xNxNNiiN =+++==∑121式中:N 是数据的个数;2122x i 是各数据的观察值。

2、加权算术平均数如一组数据是已经经过分组的,共有N 组。

x i 为各相应组中数据的观察值或每一组的中心值,f i 是观察值为x i 的相应组中数据出现的次数,又称为频率,则可以采用加权平均法来计算其均值,其公式为x x f x f x f f f f xf fN NNiii Nii N =++++++===∑∑11221211式中:x i 是各相应组中数据的观察值;f i 是观察值为x i 的相应组中数据出现的次数,又称为频率; N 是组数。

2014统计基础知识与统计实务重点知识

2014统计基础知识与统计实务重点知识

第一章总论一般认为:统计包括统计实践活动和统计理论。

统计的涵义:1.统计工作、2.统计资料、3.统计学。

统计工作先于统计学发展起来。

总体的特征:同质性、差异性、大量性随着研究的目的不同,总体和总体单位的概念也会有所不同。

完整统计指标:时间、地点、名称、数值、计量单位。

指标是说明总体数量特征的概念。

标志是说明个体特征的概念。

品质标志表示事物的品质属性特征,不能用数值表示。

如性别、工种数量标志的具体数值是标志值,也称变量值。

可以变换的数量标志成为变量,用来描述个体。

指标与标志的联系:1、有许多的指标的数值是从个体的数量标志值汇总而来的。

2、指标与数量标志之间存在互换关系。

变异是普遍存在的,是统计核算的前提条件。

总体的同质性和个体的变异性是进行统计核算的条件。

离散变量的数值只能用整数表示;连续变量的数值既可以用整数表示,也可以用小数表示。

年龄就是连续变量。

统计工作的过程:统计设计、统计调查、统计整理、统计分析。

统计设计是统计工作的前提。

统计调查是统计工作的基础。

统计整理起到承上启下的作用。

统计分析是统计工作的成果。

统计的认识过程:从定性到定量,再到定量与定性的结合。

第二章统计调查搜集统计资料的工作分为2种:1、对原始资料的搜集2、对次级资料(又称文案资料)的搜集以原始资料为主。

原始资料是尚待汇总整理的个体资料;次级资料(文案资料)是已经经过加工整理的资料。

统计调查的3个要求:1、准确性,2、及时性;3、全面性。

统计调查按调查对象范围分成:1、全面调查2、非全面调查非全面调查分为:非全面统计报表、重点调查(非概率抽样)、典型调查和概率抽样。

按调查登记时间分为:连续调查(时期)和不连续调查(时点)。

连续调查(4种时期):人口出生数、人口死亡数、产品产量、产品销售量。

不连续调查(5种时点):人口数、设备数、库存数、土地面积、城乡居民储蓄金额。

时期的特点:1、各期数值可以相加。

2、数值大小与时间长短有关,时间越长、数值越大。

中级统计师考试-3统计方法知识考试重点归纳(私藏)

中级统计师考试-3统计方法知识考试重点归纳(私藏)

2014中级统计师考试-统计方法知识考试重点归纳第一章统计和数据●统计是用来处理数据的,是关于数据的一门学问。

1、统计学:是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。

2、统计分析数据的方法分为:(1)描述统计(2)推断统计3、描述统计:是研究数据搜集、处理和描述的统计学方法。

4、推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。

5、推断统计包括:(1)参数估计(2)假设检验6、定性变量的特点:只反映现象的属性特点,不能说明具体量的大小和差异。

●定性变量包括分类变量和顺序变量。

●只反映现象分类特征的变量称分类变量。

分类变量没有数值特征,所以不能对其数据进行数学运算。

●如果类别具有一定的顺序,这样的变量称为顺序变量。

顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。

7、定量变量的特点:可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。

●数值型数据(定量数据)作为统计研究的主要资料,其特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。

其计量精度远远高于定性数据。

在统计学研究中,数值型数据有着最广泛的用途。

8、数据按获取的方法不同分为:(1)观测数据(2)实验数据9、观测数据:是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。

10、实验数据:一般是在科学实验环境下取得的数据。

11、统计数据资料的来源:(1)通过直接的调查或实验获得的原始数据,这是统计数据的直接来源;(2)别人调查的间接数据,并将这些数据进行加工和汇总后公布的数据,这是数据的间接来源。

12、数据的直接来源:(1)统计调查(2)实验法●通过统计调查得到的数据,一般称为观测数据。

●运用实验法时,实验组和对照组的产生应当是随机的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
湖北大学商学院chen qianli
Bar chart from FARS data
4-Runner Bronco/Bronco II/Explorer Cherokee Chevrolet C, K, R, V E-Series Van/Econoline F-Series pickup Large Truck Ranger S-10 Blazer 0
4M Example: Rolling over
• Motivation : state the question Authorities enter a description of every fatal automobile accident into the Fatality Analysis Reporting System(FARS). FARS became well known when reporters from New York Times discovered something unusual. Their tools: a question, some data and a bar chart. The question arose anecdotally. Numerous accidents seemed associated with vehicles rolling over: Were these reports coincidental, or was something systematic and dangerous happening on the highways? We will use data for the year 2000 because that’s when this issue came to the public’s attention. News reports suggested some types of cars were more prone to rolling over accidents than others. Most of the reported incidents involved SUVs, but are all SUVs dangerous? If some types of cars are more prone to these dangerous
3.5 3.1 3.9 2.4 2.5 2.1 4.6 3.3 11.9
5 10 mean of percentage
15
湖北大学商学院chen qianli
4M Example • The explanation of the bar chart came several years later and brought with a bitter dispute between Ford and Bridgestone, maker of the Firestone tires that were standard equipment on Ford Broncos and Explorers. Ford claimed that the Firestone tires caused the problem, not the vehicle. The dispute led to a massive recall of more than 13 million Firestone tires.
GPS Market Share
19%
10%
47%
7%
17%
Garmin Mio TomTom
Magellan Other
面积原则
• 数据的展示必须服从一个基本原则:面积 原则。此原则要求表现数据的某部分图形 所占据的面积应该与数据的数量成比例。 在条形图中,每个条形的面积应与此条形 所代表的类别的频数成比例。由于每个条 形的宽度一样,面积原则要求条形的高度 应与频数成比例。违反面积原则是利用统 计让人误导的一种常见方式。
第一节 图表展示分布
数据集包含2600个数据,最小值为0.85%, 最大值为15.76%。一般采用等距分组 确定合适的组距,组距过大或过小都不能很 好反映数据的分布。确定组距为2% 从最小值开始进行分组: 0.00≤rate<2.00, 2.00≤rate<4.00 ……………………, 14.00≤rate<16.00 统计各组的次数或百分比,编制次数分布表
Mechanics: do the analysis
FARS reports 1024 fatal accidents on interstates in which the primary event was a roll-over. The accidents include 189 different types of cars. Of course, 180 models were involved in fewer than 20 accidents each. We will combine these into a category called Other. Here are the frequency table and the bar chart.
湖北大学商学院chen qianli
Message : summarize the results
• Data from FARS in 2000 show that Ford Broncos (and the comparable Explorer) were involved in more fatal roll-over accidents on interstate highways than any other model. Ford Broncos were involved in more than twice as many roll-over as the nextclosest model(the Ford F-series truck) and more than three times as many as the similar Chevy Blazer. Be honest about any caveats or assumptions you have made. These results could also be explained by popularity. Perhaps more Broncos show up in rollover accidents simply because there are more Broncos being driven on interstate highways. Perhaps Broncos are driven more aggressively. We cannot resolve these questions from the data in FARS alone, but this bar chart begs for an explanation.

资料来源:David S.Mroore著《统计 学世界》
本章内容安排
第一节 图表展示分布 第二节 数字描述分布 第三节 研究分类变量关系 第四节 研究数值变量关系
第一节 图表展示分布
数据分布的图表展示基本步骤: 1.根据数据的取值特点和反映对象的特征, 将数据分成若干类或组,把数据分配到每 个类或组中,计算各类或组包含数据的次 数或比重,编制次数分布表(Frequency Distribution Tabels)。 2.用合适的图形展示次数分布表 3.根据描述数据分布的图表概括数据的分布 特征
湖北大学商学院chen qianli
第一节 图表展示分布
2.1.2 数值变量:频数分布、直方图与茎叶图 数值变量可取许多个不同的数值,需要将若干个相 邻的值合并成一个组来反映数据的分布,各组用 取值区间来表示。一般采用等距分组,也可异距 分组。分组后统计落入各组的次数或百分比,形 成次数分布表 例2.3 美国国债(Treasury Bills)的利率分布 数据tbillrates包含美国国债1958年12月12日到2008 年10月3日期间国债的利率,共2600个数据。 数值变量的分组首先需要对数据有一个初步的了解, 如数据个数、最小值、最大值等 Stata的命令:summarize Rate
第一节 图表展示分布
tabulate Company [fweight = MarketShare]
第一节 图表展示分布
从中可看出,美国市场Garmin占支配性地位, 占有几乎一半的市场分额征: 条形图:GPS市场份额
graph bar (mean) MarketShare, over(Company)
湖北大学商学院chen qianli
Method: describe the data and select an approach
Identify the data and come up with a plan for how you will use the data. For this example, we will extract from FARS those accidents for which the primary cause was a roll-over. We will also stick to accidents on interstate highways. Once we have the data, we plan to use a frequency tables that includes percentages and a bar chart to show the results.
第一节 图表展示分布
2.1.1 分类变量:条形图(bar graphs)和饼形图 (pie charts) 分类变量的取值就是类别的标签,分类数据直接表 示个体所在的类别,分类变量的分布就是列出各 个类别并给出落在每一类别的次数(count)或百 分比(percent),形成次数分布表。 例2.1 GPS市场份额 Excel数据gps给出美国市场上主要GPS接收器品牌 的市场份额次数分布表。将数据导入Stata软件, 做出次数分布表:
相关文档
最新文档