第2章++统计数据的描述
第二章 统计数据的描述练习题答案
2)绘制直方图
15 次 数 ( 10 单 位 : 天 5 )
0
25 30 35 40 45 50 销售额(单位:万元)
2019年3月29日星期五
• 下面是A、B两个班学生的数学考试成绩数据:
表:A班和B班学生的数学考试成绩 44 57 59 60 61 61 62 63 63 65
66
A班 73 76 85 35
85
75 65 55 45
35
北 京
长 春
南 京
郑 州
武 汉
广 州
成 都
昆 明
兰 州
西 安
2019年3月29日星期五
某百货公司6月份各天的销售额数据如下(单位:万元)
257 276 297 252 238 310 240 236 265 278
271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。
树茎
3
4 5
6
7 8 9 10
0
2019年3月29日星期五
000
3
• 1997年我 国几个主 要城市各 月份的平 均相对湿 度数据如 下表,试 绘制箱线 图,并分 析各城市 平均相对 湿度的分 布特征。
2019年3月29日星期五
月 份 1 2 3 4 5 6
北 京 49 41 47 50 55 57
x
242.5 4 257.5 5 272.5 10 287.5 5 302.5 4 317.5 2 275.5 30
统计学第2章 统计数据的搜集、整理和显示
第二节 数据整理
三、统计指标
(二)统计指标的分类
1. 数量(总量)指标
作用:反映现象的总规模、总水平或工作总量 以绝对数表示(国内生产总值、人口总数、工资总额等) 分类 总体单位数、总体标志总量 时期指标、时点指标 实物指标、价值指标和劳动量指标
第二节 数据整理
三、统计指标
搜集数据的两条途径:统计调查 + 实验 统计调查 —— 调查数据;实验 —— 实验数据 1. 确定调查目的 2. 确定调查对象和调查单位 3. 确定调查项目 4. 调查表格和问卷设计(一览表、单一表,要求简明扼要) 5. 确定调查时间(调查时间、调查期限) 6. 确定调查的组织实施计划
(三)统计调查的方案设计
上限不在内
等距分组与异距分组
等距分组
各组的标志值变动都限于相同的范围 优点:便于计算、绘制统计图 适用场合
异距分组
第一,标志值分布很不均匀的场合 第二,标志值相等的量具有不同意义的场合 第三,标志值按一定比例发展变化的场合
品质分组 单项式分组 间断组距式分组 数量分组 组限 连续组距式分组 组距式分组 等距式分组
6组:530 530 530 540 620 620 620 620 720 720 7组:720 720 630 630 630 630 620 620 620 620
8组:650 650 650 650 650 650 650 650 650 650
提问:从上述资料中,同学们能否直接看出该车间总的生产完成
类型分组
“日产量”分组
500以下 500 500以上 合计
统计学第二章
按性别分组 男生 女生 合计
人数 30 20 50
百分比 % 60 40 100
三、按数量标志分组
按照数量或数值等定量指标分组,称为按数量 标志分组。
(1)单变量分组:一个变量值为一组,适合离散 变量,且变量值较少。步骤是先排序再分组。 (2)组距分组:
将全部变量值划分为若干区间,并将这一区间的变量值 作为一组,适用于连续变量或变量值较多的情况。 需要遵循“不重不漏”的原则,可采用等距分组,也可 采用不等距分组。
2.1 统计数据的整理
2.1.0 2.1.1 2.1.2 2.1.3 2.1.4 数据的预处理 统计数据的分组 次数分配 次数分配直方图 洛伦茨曲线
2.1.0 数据的预处理
一、数据的审核 对原始数据,审核完整性和准确性。前者指 调查单位是否遗漏、项目是否齐全等;后者 指数据是否真实、是否错误等。方法是逻辑 检查和计算检查。 对二手数据审核完整性和准确性外,着重审 核数据的适用性和时效性。前者应清楚数据 的来源、口径和背景,后者应注意数据的时 间,使用最新的数据。
当f-1=f+1时如图(a),当f-1>f+1时如图(b), 当f-1<f+1时如图(c)。
(a)
(b)
(c)
②公式计算:
上限公式
f f 1 M0 U ( f f 1) ( f f f f 1 M0 L ( f f 1) ( f f
1
2.1.2 次数分配
对于例2-1采用组距分组,计算组数K=1+1g30/ 1g2=5(组),组距 =(128-84)/ 5=8.8,组距取10件,整理成频数分布表2-3。
统计学习题1
第2章统计数据的描述练习:2.1为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:700 716 728 719 685 709 691 684 705 718706 715 712 722 691 708 690 692 707 701708 729 694 681 695 685 706 661 735 665668 710 693 697 674 658 698 666 696 698706 692 691 747 699 682 698 700 710 722694 690 736 689 696 651 673 749 708 727688 689 683 685 702 741 698 713 676 702701 671 718 707 683 717 733 712 683 692693 697 664 681 721 720 677 679 695 691713 699 725 726 704 729 703 696 717 688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。
2.2某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。
2.3在某地区抽取的120家企业按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200~300 19300~400 30400~500 42500~600 18600以上11合计120计算120家企业利润额的均值和标准差。
第2章统计数据的描述
第二章统计数据的描述一、单项选择题1.下列中,最粗略、计量层次最低的计量尺度是()A.间隔尺度B.顺序尺度C.比例尺度D.列名尺度2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是()A.比例尺度B.列名尺度C.间隔尺度D.顺序尺度3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是()A.列名尺度B.间隔尺度C.顺序尺度D.比例尺度4.下列中,计量层次的最高、最精确的计量尺度是()A.比例尺度B.间隔尺度C.顺序尺度D.列名尺度5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是()A.抽样调查B.重点调查和典型调查C.统计报表D.普查6.实际中应用最为广泛的一种调查方式是()A.重点调查B.统计报表C.普查D.抽样调查7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是()A.抽样调查B.典型调查C.重点调查D.普查8.一次性调查是指()A.只做过一次的调查B.调查一次以后不再调查C.间隔一段时间在进行一次调查D.只隔一年就进行一次的调查9.在统计分析中,对累积的次数分配用得最直接的是()A.供给曲线B.需求曲线C.洛伦茨曲线D.边际需求曲线10.专门用来衡量和反映收入分配平均程度的统计指标是()A.基尼系数B.可决系数C.相关系数D.离散系数11.一般认为,基尼系数在()之间是比较恰当的。
A.0.1—0.2B.0.2—0.4C.0.4—0.6D.0.6—0..812.一般认为,基尼系数等于()是收入分配不公平的警戒线。
A.0.2B.0.6C.0.4D.0.813.利用公式计算众数的基本假定之一是众数组的频数在该组内呈()A.正态分布B.t分布C.均匀分布D.偏态分布14.计算中位数时,假定中位数所在组的频数在该组内呈()A.左偏分布B.正态分布C.右偏分布D.均匀分布15.反映数据分布集中趋势的最主要的测度值是()A.众数B.中位数C.均值D.几何平均数16.各个变量值与均值的离差之和()A.大于0B.小于0C.等于0D.等于一个不为0的常数17.各个变量值与均值的离差平方和()A.为最大B.为最小C.为0D.为一个不为0的常数18.下列中,专门用来衡量众数代表性大小的离散程度测度值是()A.异众比率B.四分位差C.方差或标准差D.极差19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是()A.方差和标准差B.内距C.异众比率D.平均差20.下列中,适用于列名数据的集中趋势测度值是( )A.众数B.中位数C.均值D.几何均值21.描述数据离散程度最简单的测度值是( )A.平均差B.方差和标准差C.极差D.四分位差22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。
统计学第2章 统计数据的描述(1)
(4)组中值:上下限之间中点的值。
组中值=(上限+下限)/2=上限-组距/2 =下限+组距/2
“××以上”、“××以下”这样的组叫开口组。一般假 定开口组的组距与其相邻组的组距相等。其组中值计算如下: 缺下限最小组的组中值=上限-相邻组组距/2 缺上限最大组的组中值=下限+相邻组组距/2 见第37页的表2.15
第三节 统计整理
一、统计整理的概念和步骤
概念:统计整理是根据统计研究的目的和要求,把统计调查 从而得到反映事物总体特征资料的过程。
步骤: 第一,统计资料审核。包括及时性(整个工作期限、搜 集资料的时间、资料所属的时间);准确性(事实求地反映 实际情况、计算正确);完整性(规定应调查的总体单位、 每个调查单位应调查的内容)等方面的审核。 第二,统计分组 第三,统计汇总 第四,编制统计表或绘制统计图
提供统计数据的部分政府网站
美国政府机构 人口普查局 联邦储备局 预算编制办公室 商务部 网 址 数据内容
人口和家庭等 http://www.bog.frb.fed. 货币供应、信誉、 us 汇率等 http://www.whitehouse. 财政收入、支出、 gov/omb 债券等 商业、工业等
统计数据的来源主要有两个: 一是直接来源,即来源于直接的调查和科学试验, 得到第一手数据。 二是间接来源,即来源于别人调查或试验的数 据,得到第二手数据。
见第8-9页
一、统计数据的直接来源 1、普查
(1)概念 为了某一特定目的而专门组织的一次性全面调查。 (2)特点 ①具有一次性和周期性。
“一次性”是指调查现象在某一时点上的数据。
(1)对称分布:以变量值的中点为对称轴的对称分布。
(2)偏态分布:
统计学(第四版) 贾俊平 课后习题答案
第 2 章 统计数据的描述——练习题
●1. 为评价家电行业售后服务的质量,随机抽取了由 100 家庭构成的一个样本。服务质量的 等级分别表示为:A. 好;B.较好;C. 一般;D. 差;E. 较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2) 用 Excel 制作一张频数分布表;
(3)条形图的制作:将上表 (包含总标题,去掉合计栏)复制到 Excel 表中,点击:图 表向导→条形图→选择子图表类型→完成(见 Excel 练习题 2.1)。即得到如下的条形图:
E D C B A 0 20 40
服务质量等 级评价的频 数分布 频 率% 服务质量等 级评价的频 数分布 家庭 数(频数)
25
30
35
40
●4. 为了确定灯泡的使用寿命(小时) ,在一批灯泡中随机抽取 100 只进行测试,所得结果 如下: 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701 708 668 706 694 688 701 693 729 710 692 690 689 671 697 694 693 691 736 683 718 664 681 697 747 689 685 707 681 695 674 699 696 702 683 721 685 658 682 651 741 717 720 706 698 698 673 698 733 677 661 666 700 749 713 712 679 735 696 710 708 676 683 695 665 698 722 727 702 692 691
第二章 数值变量资料的统计描述
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
统计学(第四版)袁卫 庞皓 贾俊平 杨灿 (02)第2章 统计数据的描述(袁卫)
n
2. 各变量值与平均数的离差平方和最小
(x
i 1
5 - 36
i
x ) min
2
统计学
STATISTICS
几何平均数
统计学
STATISTICS
几何平均数
(geometric mean)
n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
5 - 27
统计学
STATISTICS
四分位数
(位置的确定)
n 1 QL 位置 4 Q 位置 3(n 1) U 4 n QL 位置 4 Q 位置 3n U 4
去掉大小两端的若干数值后计算中间数 据的均值 2. 在电视大奖赛、体育比赛及需要人们进行 综合评价的比赛项目中已得到广泛应用 3. 计算公式为
1.
x
5 - 41
x( n 1) x( n 2) x( n n ) n 2 n
1 2
n 表示观察值的个数;α表示切尾系数,0
f
i
i i
样本平均数
5 - 34
f
i 1
i
统计学
STATISTICS
加权平均数 (例题分析)
x
x f
i 1 k
k
i i
f
i 1
i
3110 103.67 (件) 30
5 - 35
统计学
STATISTICS
平均数
统计学第三版书后答案第二章
第2章统计数据的描述●9.某百货公司6月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。
解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值:(见Excel练习题2.9)x=xn∑=822330=274.1(万元)或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,得到均值也为274.1。
在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数:M e=2722732+=272.5(万元)由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而:Q L=261+2732724-=261.25(万元)同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:Q U=291-2732724-=290.75(万元)。
(2)未分组数据的标准差计算公式为:s =302 1()1iix xn=--∑利用上公式代入数据计算是个较为复杂的工作。
手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。
(见Excel练习题2.9)我们可以利用Excel表直接计算标准差:点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV”→“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。
统计学第三版课后答案
统计学第三版答案第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。
(4)从匹配样本的观察值中推断两品牌口味的相对好坏。
第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。
洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。
第二章数据描述
值的影响。因此,它不能准确地描述数据的分散程度。
【例题 2.14】在反映各变量值离散趋势的变异指标中,只与变量极端标志值有关的指标是( )。
(4)用哪个值代表一组数据 平均数的主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较 差。 中位数和众数的优点是不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜 程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。
【例题 2.12】在各种平均指标中,不受极端值影响的平均指标有( )。[2009 年中级真题] A.算数平均数 B.调和平均数 C.中位数 D.几何平均数 E.众数 【答案】CE
3
述。
【例题 2.8】为描述身高与体重之间是否有某种关系,适合采用的图形是( )。
A.直方图
B.条形图
C.散点图
D.环形图
【答案】C
【解析】散点图来反映两个变量的关系。题中只有两个变量,即身高和体重,因此可用散点图来描
【例题 2.9】下列各项中,即适用于定性数据,又适用于定量数据的图形表示方法有( )。
【例题 2.5】某管理局对其所属的企业的生产计划完成百分比采用如下分组,其中最能反映事物本质 差异的分组是( )。[2007 年中级真题]
A.80~89%,90~99%,100~109%,110%以上 B.80%以下,80~100%,100%以上 C.80%以下,80~90%,90~100%,100%~110%,110%以上 D.85%以下,85~95%,95~105%,105%以上 【答案】C 2.确定组距 组距:指每个组变量值中的最大值与最小值之差。若将最大值称为上限,最小值称为下限,则组距 等于上限与下限之差,即 组距=上限-下限 第一组的下限应小于最小值,最后一组的上限应高于最大值。 在确定组距时,一般应当掌握以下原则: (1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别 如果不能正确反映各部分质的差异,必须重新分组。例如,按学生百分制成绩分组,必须要有 60 分 的组限,否则不能反映是否及格的本质区别。 (2)要能准确地清晰地反映总体单位的分布特征 在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很 不均匀时,则一般采用不等距分组。
第2章-统计数据的收集整理与显示
C、1750元
2、某连续数列变量,首组为60分以下,其邻组的组中值
为75,则首组的组中值为( )。
A、30 B、35 C、40 D、45
2.5.3 累计频数和累计频率 1.累计频数(cumulative frequencies) 累计频数就是将各有序类别或组的频数逐级累加起来。 2.累计频率或百分比(cumulative percentages) 累计频率就是将各有序类别或组的频率逐级累加起来。
全国总人口为1370536875人。其中: 普查登记的大陆31个省、自治区、直辖市和 现役军人的人口共1339724852人。 香港特别行政区人口为7097600人。 澳门特别行政区人口为552300人。 台湾地区人口为23162123人。
大陆31个省、自治区、直辖市和现役军人的 人口中, 男性人口为686852572人,占51.27%; 女性人口为652872280人,占48.73%。 总人口性别比(以女性为100,男性对女性 的比例)由2000年第五次全国人口普查的 106.74下降为105.20。
§2.1 统计调查的概念和方案的设 计
统计调查:按照 研究目的及要求 ,运用 科学的统计调查方法,有计划、有组织地 向调查对象 搜集 原始资料和次级资料的过 程
广州广播听众调查问卷
目的:了解我市听众收听广州人民广播电台节目的一些 基本情况,为提高节目质量、推出优秀节目提供
科学依据。
对象和单位:广州市市民 调查项目和调查表: 调查什么 调查项目:听众收听广州人民广播电台节目的 一些基本情况 调查表:调查项目以表格的形式来表现。
2. 普查是为了某种特点的目的而进行的( A、专门组织的一次性的全面调查 B、专门组织的经常性的全面调查 C、非专门组织的一次性的全面调查
(完整)统计学简答题参考答案
统计学简答题参考答案第一章绪论1。
什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源。
答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得.3。
简要说明抽样误差和非抽样误差。
答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的.抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的.4。
解释描述统计和推断统计的概念?(P5)答:描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。
推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。
第二章统计数据的描述1描述次数分配表的编制过程。
答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组.统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表.2. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
3。
怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位.受极端数值的影响是其使用时存在的问题。
统计学习题(抽样分布、参数估计)
统计学习题(抽样分布、参数估计)练习题第1章绪论(略)第2章统计数据的描述2.1某家商场为了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。
其学历表示为:1.初中;2.高中/中专;3•大专;4.本科及以上学历。
调查结果如下:4 2 2 2 4 3 4 4 1 42 2 4 4 43 24 2 23 1 2 14 4 1 4 2 42 3 3 2 1 3 4 3 4 43 3 1 24 2 4 3 2 4 2 3 2 2 2 1 2 2 4 4 2 1 2 3 3 3 3 3 3 4 2 3 4 3 3 1 3 2 3 2 4 3 1 3 4 3 4 2 1 4 2 2 4 2 3 3 4 1 2 1(1) 制作一张频数分布表。
(2) 绘制一张条形图,反映学历分布。
7437 77744326 2783 53250962 967 594 942 99 651984073 77 118 116 00 34 43 444 803 1 1 7 25 928 101 06 57 769 6 79 64 63 138 957 29 09 43 11474 4 0 6 86 85 85 69 121 699 599 69381 58 86 86 352 2202 46 3618 65 534 324 60 02 64 5 53852508832 66672 52 68 01 4 1 89 612 64 54 1 59 702 81 09 7 77 645 09 44 8 3511666 269 289 887 34 98 12.2在一项研究中,某调查公司为了解某品牌变 速箱是否存在缺陷,从一家该汽车的维修公司 获得该汽车变速箱失效前行驶的实际里程数 的资料数据如下:(1) 对以上数据进行适当的分组并编制频 数分布表和累积频数分布表。
(2) 用直方图来表现数据的分布特征 64 850 39334 92 2322.3为了解某电信客户对该电信公司的服务的满意度情况,某调查公司分别对两个地区的电信用户在以下五个方面对受访用户的满意情况进行了问卷调查得到的数据如下(表中数据为平均满意度打分,从1分到10分满意度依次递增):地区企业形象客户期望质量感知价值感知客户总体满意度A 8.26950 9.26241 7.91489 8.411344 7.51773 1 4 8B 7.44736 8.36842 8.97368 8.10526 7.394738 1 4 3 7试用条形图反映将两地区的满意度情况2.4下面是一个班50个学生的经济学考试成88 56 91 79 69 90 88 71 82 79 98 85 34 74 48 100 75 95 60 92 83 64 65 69 99 64 45 76 63 69 68 74 94 81 67 81 84 53 91 2484 62 81 83 69 84 29 66 75 94(1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表,绘制直方图。
管理统计学 第2版 第二章 统计数据的收集整理与显示
(4)系统抽样
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变
种
最主要的优势就 是经济性。最大 的缺陷在于总体 单位的排列上。 一些总体单位数 可能包含隐蔽的 形态或者是“不 合格样本”,调 查者可能疏忽, 把它们抽选为样
• 普查需要规定标准的时点:如第五次人口普查规定的标准时间 为2010年11月1日零时为标准时间。
统计报表
• 统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级 提供统计资料的调查组织方式。
• 统计报表是我国特有的一种统计调查方式,是建立在各基层单位原始 记录的基础上的一种统计调查方式,由于统计报表是逐级上报和汇总 的,有利于各级部门了解本地区、本部门或本行的的社会和经济发展 现状。
2.1 统计数据的收集
数据的来源
• 间接来源 研究者直接从公开出版物或通过网络渠道获取
所需数据,如《中国统计年鉴》、《中国统计摘 要》、《中国社会统计年鉴》 • 直接来源
研究者直接通过调查取得研究所需数据资料
2.1 统计数据的收集
普查
常用的统计 调查方式
抽样调查
重点调查
典型调查
简单随 机抽样
分层抽样
抽样调查
• 抽样调查是取得数据资料的最主要的一种方式,它是按照 随机原则从总体中抽取部分单位组成样本,对样本指标进 行测定,根据样本指标推断总体指标的一种非全面调查。
抽样调查的具体组织形式 抽样调查
简单随 机抽样
分层抽样
等距抽 样
整群抽样
(1)简单随机抽样
从总体N个单位中任意抽取n个单位作为样本, 使每个可能的样本被抽中的概率相等的一种 抽样方式
统计学第二章
第二章统计数据的收集、整理与显示2.1统计数据的收集一、统计数据的来源1、直接来源(原始来源):分为实验和统计调查(直接观察、报告、采访、登记)2、间接来源(二手资料):出版物、网络二、统计调查组织方式1、分类①按调查单位的范围大小分:全面调查和非全面调查②按调查时间是否连续分:经常性调查和一次性调查③按调查组织方式分:统计报表和专门调查。
其中专门调查又分为普查、重点调查、典型调查、抽样调查2、统计报表制度:按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度①优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要②缺点:统计报表过多会增加基层负担;有可能由于虚假瞒报而影响统计资料质量3、普查:是指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查(主要用于搜集时点资料)①作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息②局限:由于需要大量的人力、物力、财力,不宜经常进行4、重点调查:是指为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。
(这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况)①作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料②局限:只适用于客观存在重点单位的情况5、典型调查:是指在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行调查的一种非全面调查方式。
(指在数量表现上具有普遍意义呵呵代表性的总体单位,可以用来推断总体的数量)①作用:一定条件下能估计总体指标数值;可以用来研究新生事物②缺陷:不能确定推断的把握程度,无法计算和控制推断误差6、抽样调查:是指按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、直接来源
• 3.重点调查和典型调查 重点调查是从调查对象的全部单位中选择少数 重点单位进行调查,其中重点单位是指在所要调查 的数量特征上占有较大比重的单位。如了解全国钢 铁企业,选择宝钢、鞍钢、首钢、武钢、包钢即可。 典型调查是从调查对象的全部单位中选择一个 或几个少数有代表性的单位进行全面深入的调查。 如研究武汉市跨国公司的运营情况,选取可口可乐 公司作个案分析。 重点调查、典型调查具有主观性,其调查的单位 不是随机抽取的,因此,调查结果不能推论总体。
2.1数据的计量尺度
一般情况,数据的计量尺度按由低到高、 由粗略到精确可以分为四种: 列名尺度 顺序尺度 间隔尺度 比例尺度
• • • •
一、列名尺度nominal scale
• 其特点是只能对事物进行平行的分类或分组,例 如:人口按性别分为男、女,按教育程度分为高 中及以下、大学、研究生,按户口分城市、农村 等等。企业按经济性质分:国有、集体、私营、 外企。 • 为了便于统计处理,特别是为了便于计算机识别, 可以对不同类别用数字或编码表示,如:“1”表 示男性,“2”表示女性(但注意:这只是代码, 不能区分大小或进行任何数学运算。)
57.14
42.86 100.00 频率
(二)数量标志分组
• 单变量值分组:把每一变量值作为一组, 这种分组方式通常只适用于离散变量而且 变量值较少的情况。例如:22页表2.6 • 组距分组:将全部变量值依次划分为若干 个区间,并将这一区间的变量作为一组。
1.组距分组的步骤
• (1)确定组距class width:一般以5或10 的整数倍为组距 • (2)确定组数:组数=全距range/组距= (最大值-最小值)/组距 • (3)根据分组整理成频数分布表
2.组距分组应注意的问题
• (1)每组的两个端点数值叫组限,其中每组的小 值称为下限(low limit),较大值称为上限 (upper limit);连续型变量在分组时相邻组的上 下限应该重合,“上限不在组内”的原则,如: 115——120,包括115,但是不包括120; • (2)在组距分组时,如果总体中有特小的变量值, 就采用下开口组“某某以下” 在组距分组时,如果总体中有特大的变量值, 就采用上开口组“某某以上” • (3)组距分组:等距分组、不等距分组(如年龄 0~6岁幼儿,7~17少儿,18~35青年,36~64中年, 65以上老年)
二、次数分布的图示与类型
• 直方图与折线图 • 几种常见的次数曲线 • 洛伦茨曲线与基尼系数
1.直方图histogram和折线图(频数多 边形)frequency polygon(多边形)
• 直方图是用矩形的宽度和高度来表示频数 分布的图形,横轴表示数据分组,纵轴表 示频数或者频率。折线图则是在直方图基 础上,把直方图顶部的中点(即组中值) 用直线连接起来。如图:25页图2.1、2.2
儿 年 人 年 中 老 幼 少 婴 青 年 人
3、J型分布(1)
120 100 80
需求量
60 40 20 0
价格
J型分布(2)
100 80 60
供应量
40 20 0
价格
3.洛伦茨曲线与基尼系数
• 洛伦茨曲线是20世纪初美国经济学家、统 计学家洛伦茨根据意大利经济学家帕累托 (福利经济学的代表人,提出了帕累托最 优)提出收入分配公式绘制成的描述收入 和财富分配性质的曲线。 • 横轴是累积的人口百分比,纵轴是累积的 收入或财富百分比。
1.根据未分组数据或者单变量值分组 数据计算众数
• 只需找出出现次数最多的变量值即为众数。 • 例如:有一组数据如下:2,3,3,5,5, 5,6,7,8 ,10,这其众数为5。
2.对于组距分组求众数
1 M0 L i 1 2
• 其中,L表示众数所在组的下限 • 1 表示众数组次数与下一组(前一组)次 数之差 • 2 表示众数组次数与上一组(后一组)次 数之差 • i表示众数组的组距三、来自隔尺度interval scale
• 不仅可以比较各事物的大小,而且可以计 算差异的大小,即计算数量的间隔。例如: 考试分数(百分制)、温度的计量。
四、比例尺度ratio scale
• 比例尺度与间隔尺度的差别很小,区别主 要在于,在间隔尺度中,“0”表示某一个 数值,或者叫做0水平。而在比例尺度中, “0”表示“没有”或者“无”。例如:温 度0表示0摄氏度,而长度0米则表示没有或 不存在。大多数情况我们使用的是比例尺 度。 • 另外,间隔尺度只做加减运算,做乘除运 算没有多大意义。而比例尺度可以做加减 乘除运算且都有意义。
2.3 统计数据的整理
• 统计分组 • 次数分配的图示与类型
一、统计分组
• 统计分组是统计整理的第一步,是根据统 计研究的目的,将数据按照某种特征或标 准分成不同的组别。 • 分组时所依据的特征或标准成为统计分组 标志: 品质标志分组:按事物的性质和属性划分 (列名尺度和顺序尺度的数据) 数量标志分组:按事物的数量标准划分 (间隔尺度和比例尺度的数据)
举例:某车间50名职工日产量分组 资料如下:
产量
50以下 50-60
职工人数
5 8
向上累积
5 13
60-70
70-80 80以上
21
9 7
34
43 50
合计
50
-
举例
众数组为60-70,L=60,i=10, △1=21-8=13,△2=21-9=12, 则
13 M 0 60 10 65.2 13 12
用于显示连续型变量的 直方图( Histogram ) 次数分布
40
30
20
10 Std . De v = 4. 86 Mea n = 1 63. 3 0 15 4. 0 15 8. 0 16 2. 0 16 6. 0 17 0. 0 17 4. 0 N = 83 . 00
VAR00001
2.几种常见的次数曲线
举例
年产值 (百万元) 50~60 60~70 70~80 80~90 90~100 合计 企业数 (个) 5 11 17 11 6 50 比重 (%) 10 22 34 22 12 100 5 16 33 44 50 —— 向上累积 企业数 比重 10 32 66 88 100 —— 50 45 34 17 6 —— 向下累积 企业数 比重 100 90 68 34 12 ——
2.4分布集中趋势的测度
• • • • • 众数 中位数 均值 几何平均数 众数、中位数、均值的比较
一、众数mode
• 众数是一组数据中出现次数最多的变量值。 从分布看,众数是具有明显集中趋势点的 数值。一组数据分布的最高峰点所对应的 数值即是众数。 • 例如:鞋的码号(女士37,男士41号)当 然会后极大值如姚明50号的鞋子。再比如 衣服的尺寸等等。 • 计算方法:1.根据未分组数据或者单变量值 分组数据计算众数 2.对于组距分组求众数
日产 量(件)
(2)左偏分布
100 80 60 人数(人) 40 20 0 4 9 10 11 12 13 14
日 产 量 (件)
(3)右偏分布
100 80
人数(人)
60 40 20 0 10 11 12 13 14 15 19
日 产 量 (件)
2、U型分布
50 40 30 死亡率(%) 20 10 0
第二章 统计数据的描述
王新华
第二章 主要内容
2.1数据的计量尺度 2.2统计数据的来源 2.3统计数据的整理 2.4分布集中趋势的测度 2.5分布离散程度的测度 2.6分布偏态与峰度的测度 2.7统计表与统计图
第二章 重难点
• 重点:统计数据的整理、分布集中趋势的 测度、分布离散程度的测度 • 难点:分布离散程度的测度、统计图与统 计表
2.组距分组应注意的问题
(4)组中值:class midpoint可以反映各组 数据的一般水平,作为该组数据的一个代 表值。 组中值:(下限+上限)/2 对于上开口组:本组下限+邻组组距/2 对于下开口组:本组上限-邻组组距/2
2.组距分组应注意的问题
(5)向上累积:将各组次数和频数由变量值 小的组向变量值大的组逐组累积,它表明 该组上限以下的单位数是多少,占总体比 重是多少 向下累积:将各组次数和频数由变量值 大的组向变量值小的组逐组累积,它表明 该组下限以上的单位数是多少,占总体比 重是多少
二、顺序尺度ordinal scale
• 顺序尺度是对事物之间等级差或顺序差别的一种测 度,可以比较大小。不仅可以将事物分成不同的类 别,而且还可以确定这些类别的优劣或顺序。 • 例如:产品分为一等品、二等品、三等品,考试成 绩分为优、良、中、及格、不及格,客户对某产品 的满意程度分别很满意、比较满意、不太满意、很 不满意等。 • 顺序尺度比列名尺度精确,但它只是测度了类别之 间的顺序,而未测量出类别之间的准确差值,顺序 尺度的计量结果只能比较大小,不能进行加减乘除 运算。
二、直接来源
• 1.普查census:普查是为某一特定目的,专门组 织的一次性全面调查。这是一种摸清国情、国力 的重要调查方法。我国的人口普查、工业普查、 经济普查(第二、三产业) • 2.抽样调查:抽样调查是通过随机样本对总体数 量规律性进行推断的调查研究方法。虽然准确性 没有普查高,但是节省人力、物力、财力。大多 数调查公司都采取这种调查方式,如收视率调查、 家庭收支情况调查、客户需求调查等等。
(一)品质标志分组
• 比较简单,如对某学校学生的性别进行调 查,可将学生分为男生、女生两个组。再 如对武汉市的学校进行分类,可以分为小 学、中学、中专、大学四个组。见课本21 页。
注意分组的完备性
某高校学生性别分布表(品质数列)
性
别
人 数 (人)
频率 (%)
男