统计学(第六版)贾俊平 中国人民大学出版社——课后习题解答
统计学课后题答案(袁卫庞皓曾五一贾俊平)
第1章绪论5.简要说明抽样误差和非抽样误差。
答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。
因此,他们开始检查供货商的集装箱,有问题的将其退回。
最近的一个集装箱装的是2 440加仑的油漆罐。
这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。
装满的油漆罐应为4.536 kg。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的50罐油漆;(4)推断:50罐油漆的质量应为4.536×50=226.8 kg。
7.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。
这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。
假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。
要求:(1)描述总体;(2)描述研究变量;(3)描述样本;(4)描述推断。
答:(1)总体:市场上的“可口可乐”与“百事可乐”(2)研究变量:更好口味的品牌名称;(3)样本:1000名消费者品尝的两个品牌(4)推断:两个品牌中哪个口味更好。
第2章统计数据的描述思考题4. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
5. 怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。
统计学习题集答案第六版
统计学习题集答案第六版统计学习题集是一本经典的教材,对于学习统计学的人来说是必不可少的参考资料。
第六版的统计学习题集是该教材的最新版本,它涵盖了统计学的各个方面,从基础的概率论到高级的统计推断,都有详细的习题和解答。
在这篇文章中,我将为大家提供第六版统计学习题集的答案,希望能对大家的学习有所帮助。
首先,我们来看一下第一章的习题答案。
第一章主要介绍了统计学的基本概念和方法。
在习题中,会涉及到一些概率计算和统计推断的基本原理。
对于初学者来说,这些题目可能会有一定的难度。
但是只要掌握了基本的概率和统计知识,就能够轻松解答这些问题。
接下来,我们来看一下第二章的习题答案。
第二章主要介绍了统计学中的数据处理和描述性统计。
在习题中,会涉及到一些数据的整理和统计指标的计算。
对于初学者来说,这些题目可能需要一些实际的数据处理经验。
但是只要掌握了数据处理的基本方法,就能够很好地完成这些题目。
第三章是关于概率分布的习题。
在这一章中,会涉及到一些常见的概率分布,如二项分布、正态分布等。
对于初学者来说,这些题目可能需要一些概率计算的技巧。
但是只要掌握了概率分布的基本原理,就能够很好地解答这些题目。
第四章是关于参数估计的习题。
在这一章中,会涉及到一些参数的估计方法,如最大似然估计、贝叶斯估计等。
对于初学者来说,这些题目可能需要一些统计推断的知识。
但是只要掌握了参数估计的基本原理,就能够很好地解答这些题目。
第五章是关于假设检验的习题。
在这一章中,会涉及到一些假设检验的方法,如单样本t检验、方差分析等。
对于初学者来说,这些题目可能需要一些统计推断的技巧。
但是只要掌握了假设检验的基本原理,就能够很好地解答这些题目。
第六章是关于非参数统计的习题。
在这一章中,会涉及到一些非参数统计的方法,如秩和检验、K-S检验等。
对于初学者来说,这些题目可能需要一些非参数统计的知识。
但是只要掌握了非参数统计的基本原理,就能够很好地解答这些题目。
第七章是关于回归分析的习题。
统计学第六版贾俊平第12章
2. 求解各回归参数的标准方程如下
12 - 13
Q
b
0
b0 bˆ0
0
Q
b
i
bi bˆi
0
(i 1,2,, p)
统计学
第六版
参数的最小二乘法
(例题分析)
【例】一家大型商业银行在多个地区设有分行,
为弄清楚不良贷款形成的原因,抽取了该银行 所属的25家分行2002年的有关业务数据。试建 立不良贷款(y)与贷款余额(x1)、累计应收贷款 (x2)、贷款项目个数(x3)和固定资产投资额(x4)的 线性回归方程,并解释各回归系数的含义
4. 作出决策:若F>F ,拒绝H0
统计学
第六版
多元回归模型
(基本假定)
1. 误差项ε是一个期望值为0的随机变量,即
E()=0
2. 对于自变量x1,x2,…,xp的所有值,的
方差2都相同
3. 误差项ε是一个服从正态分布的随机变量, 即ε~N(0,2),且相互独立
12 - 7
统计学
多元回归方程
第六版 (multiple regression equation)
第六版
学习目标
1. 回归模型、回归方程、估计的回归方程 2. 回归方程的拟合优度 3. 回归方程的显著性检验 4. 多重共线性问题及其处理 5. 利用回归方程进行估计和预测 6. 虚拟自变量的回归问题 7. 用 Excel 进行回归分析
12 - 3
统计学
第六版
12.1 多元线性回归模型
一. 多元回归模型与回归方程 二. 估计的多元回归方程 三. 参数的最小二乘估计
如果不显著,因变量与自变量之间不存在线性 关系
统计学贾俊平课后答案目前最全
8.2 一种元件,要求其使用寿命不得低于700小时。
现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。
已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格.解:H 0:μ≥700;H 1:μ<700已知:x =680 σ=60由于n=36>30,大样本,因此检验统计量:x z s n μ-==6807006036-=-2 当α=0.05,查表得z α=1.645.因为z <-z α,故拒绝原假设,接受备择假设,说明这批产品不合格。
8。
38.4 糖厂用自动打包机打包,每包标准重量是100千克。
每天开工后需要检验一次打包机工作是否正常。
某日开工后测得9包重量(单位:千克)如下:99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5已知包重服从正态分布,试检验该日打包机工作是否正常(a =0.05)?解:H 0:μ=100;H 1:μ≠100经计算得:x =99.9778 S =1.21221检验统计量:x t s n = 1.2122190.055 当α=0.05,自由度n -1=9时,查表得()29t α=2.262。
因为t <2t α,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常.8.5 某种大量生产的袋装食品,按规定不得少于250克。
今从一批该食品中任意抽取50袋,发现有6袋低于250克。
若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a =0.05)?解:解:H 0:π≤0。
05;H 1:π>0.05已知: p =6/50=0。
12检验统计量:()0001Z n ππ=-()0.0510.0550⨯-=2.271当α=0.05,查表得z α=1.645。
因为z >z α,样本统计量落在拒绝区域,故拒绝原假设,接受备择假设,说明该批食品不能出厂。
8.68.7 某种电子元件的寿命x (单位:小时)服从正态分布。
统计学考试题及答案中国人民大学第六版.pdf
统计学一、单选1、从某高校随机抽出100名学生,调查他们每月的生活费支出,这研究的统计量是A 该校学生的总人数B 该校学生的月月平均生活费支出C 该校学生的生活费总支出D 100名学生的月平均生活费支出2、下列变量中,顺序变量是A职工人数 B产量 C产品等级 D利润总额3、将总体中所有单位按某种变量划分为若干层,再从各层中随机抽出一些单位组成一个样本。
这种抽样方式是A 简单随机抽样B 分层抽样C 整群抽样D 系统抽样4、指出下面陈述中错误的是A 抽样误差只存在于概率抽样中B 非抽样误差只存在于非概率抽样中。
C概率抽样和非概率抽样都存在非抽样误差。
D在普查中存在非抽样误差。
5、展示广告费支出与商品销售量之间是否有某种数量关系,最适合的图形是 A柱形图 B饼图 C线图 D散点图6、当样本量一定时,置信区间的宽度A 随置信水平的增大而减小B随置信水平的增大而增大C与置信水平的大小无关D与置信水平的平方根成反比7、在检验一个正态总体方差时,使用的分布是A z分布B t分布C X 分布D F分布8、指出下面陈述中的错误的是A 抽样误差可以避免B 抽样误差不可避免C 非抽样误差可以避免D 抽样误差可以控制9、假设检验中,如果计算出的P值越小,说明检验的结果越A 真实B 不真实C 显著D 不真实10、双因素方差分析涉及 自变量A 一个分类型B 一个数值型C 两个分类型D 两个数值型二、填空题1、当一组数据对称分布时,经验法则表明,大约有68%的数据分析在( 平均数±一个标准差 )的范围之内2、对于一组具有单峰分布的数据而言,当数据的m m >时,可判断数据是(左偏)分布3、连续变量在编制组距式变量数列时,其相邻两组的上下限必须重叠。
为解决不重的问题,应按照( 上组限不在内 )的规定确定数据所在的组4、单因素方差分析中,组间平方和SSA 对应的自由度为( k-1 ),组内平方和SSE 对应的自由度( n-k )5、数值型变量根据其取值的不同,可分为( 连续 )型变量和(离散 )型变量。
统计学第六版贾俊平
精品教材
统计学
拟合优度检验
(例题分析)
H0: 1= 2= 3= 4 H1: 1234 不全相等 = 0.1 df = (2-1)(4-1)= 3 临界值(s):
=0.1
0 3.0319 6.215 c2
9 - 27
统计量:
r
c2
c (fij eij)2 3.0319
i1 j1
eij
结论:
可以认为广告后各公司产品
0
5.99 8.18 c
市场占有率发生显著变化
9 - 29
精品教材
统计学
拟合优度检验
(例题分析—用P值检验)
第1步:将观察值输入一列,将期望值输入一列 第2步:选择“函数”选项 第3步:在函数分类中选“统计”,在函数名中选
“CHITEST”,点击“确定” 第4步:在对话框“Actual_range”输入观察数据区域
的百分比,称为百分比分布
行百分比:行的每一个观察频数除以相应的行 合计数(fij / ri)
列百分比:列的每一个观察频数除以相应的列 合计数( fij / cj )
总百分比:每一个观察值除以观察值的总个数( fij / n )
9 - 15
精品教材
统计学
百分比分布
(图示)
行百分比
列百分比
总百分比
0.3000
e
36 0.9730 3.0319
合计:3.0319
精品教材
统计学
拟合优度检验
9 - 24
精品教材
统计学
品质数据的假设检验
品质数据
比例检验
一个总体 两个以上总体
Z 检验 Z 检验 c 检验
统计学课后答案第六章
统计学课后答案第六章【篇一:统计学第五版课后练答案(4-6章)】txt>4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:statisticsmean median mode std. deviation percentiles25 50 75 missing10 0 9.60 10.00 10 4.169 6.25 10.00单位:周岁19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 4120 31 17 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄1(2)根据定义公式计算四分位数。
mean=24.00;std. deviation=6.652 (4)计算偏态系数和峰态系数:skewness=1.080;kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
21、确定组数:lg?2?5?1?1k?1?lg(2)lg2lgn()1.398?5.64k=6 ,取0.30103网络用户的年龄 (binned)分组后的直方图:3客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。
得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。
第二种排队方式的等待时间(单位:分钟)如下:5.5 6.6 6.7 6.8 7.1 7.3 7.47.8 7.8 要求:(1)画出第二种排队方式等待时间的茎叶图。
(06)第6章统计量及其抽样分布
进行推断的理论基础,也是抽样推断科学性的重要
依6 -据8
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS 6.3 由正态分布导出的几个重要分布
(第六版)
6.3.1 2分布
6.3.2 t 分布 6.3.3 F 分布
6-9
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第六版)
3.
设 X ~ N(, 2 ) ,则
z X ~ N(0,1)
4. 令 Y z 2,则 y 服从自由度为1的2分布,即 Y ~ 2 (1)
6 - 11
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第六版)
2分布
(性质和特点)
1. 分布的变量值始终为正
1. 利用Excel提供的【CHIDIST】统计函数,计算2 分布右单尾的概率值
语法:CHIDIST(x,degrees_freedom) ,其中df为 自由度,x,是随机变量的取值
例:利用【CHIDIST】函数计算自由度为8,2值大于10的 概率。
2008年5月
用Excel计算2 分布的概率
统计学
STATISTICS
第6章
统计量及其抽样分布
(第六版)
6-1
作者:中国人民大学统计学院
贾俊平
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS
第6章
统计量及其抽样分布
(第六版)
6.1 统计量 6.2 关于分布的几个概念 6.3 由正态分布导出的几个重要分布 6.4 样本均值的分布与中心极限定理 6.5 样本比例的抽样分布 6.6 两个样本平均值之差的分布 6.7 关于样本方差的分布
贾俊平第六版统计学课后思考题答案——张云飞
第一章导论1.什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
2.解释描述统计和推断统计描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
3.统计数据可以分为哪几种类型?不同类型的数据各有什么特点?分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据:是只能归于某一有序类别的非数字型数据。
虽然也有列别,但这些类别是有序的。
数值型数据:是按数字尺度测量的观察值,其结果表现为具体的数值。
4.解释分类数据、顺序数据和数值型数据的含义分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此也可统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。
5.举例说明总体、样本、参数、统计量、变量这几个概念总体是包含所研究的全部个体(数据)的集合;样本是从总体中抽取的一部分元素的集合;参数是用来描述总体特征的概括性数字度量;统计量是用来描述样本特征的概括性数字度量;变量是说明现象某种特征的概念。
比如我们欲了解某市的中学教育情况,那么该市的所有中学则构成一个总体,其中的每一所中学都是一个个体,我们若从全市中学中按某种抽样规则抽出了10所中学,则这10所中学就构成了一个样本。
在这项调查中我们可能会对升学率感兴趣,那么升学率就是一个变量。
我们通常关心的是全市的平均升学率,这里这个平均值就是一个参数,而此时我们只有样本的有关升学率的数据,用此样本计算的平均值就是统计量。
6.变量可以分为哪几类分类变量:一个变量由分类数据来记录就称为分类变量。
顺序变量:一个变量由顺序数据来记录就称为顺序变量。
数值型变量:一个变量由数值型数据来记录就称为数值型变量。
离散变量:可以取有限个值,而且其取值都以整位数断开,可以一一例举。
统计学第六版课后习题答案
第一章导论1.1.1(1)数值型变量。
(2)分类变量.(3)离散型变量.(4)顺序变量。
(5)分类变量。
1。
2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1。
3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量.(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1。
什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料"。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源.2。
比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试.3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
统计学第六版课后习题答案
第一章导论1.1.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
统计学贾俊平课后习题答案完整版
统计学贾俊平课后习题答案HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下(4)帕累托图(略)。
2.2(1)频数分布表如下2.3频数分布表如下2.5(1)排序略。
(2)频数分布表如下2.6(3)食品重量的分布基本上是对称的。
2.72.8(1)属于数值型数据。
2.9(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10A 班分散,且平均成绩较A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析) 第3章 数据的概括性度量3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
(2)5.5=L Q ;12=U Q 。
(3)24=x ;65.6=s 。
(4)08.1=SK ;77.0=K 。
(5)略。
3.3 (1)略。
(2)7=x ;71.0=s 。
(3)102.01=v ;274.02=v 。
(4)选方法一,因为离散程度小。
3.4 (1)x =(万元);M e= 。
统计学(第六版)贾俊平 中国人民大学出版社——课后习题答案
第二章数据的搜集
1.什么是二手资料?使用二手资料需要注意些什么? 与研究内容有关的原始信息已经存在, 是由别人调查和实验得来的, 并会被我们利用的 资料称为“二手资料” 。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、 搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免 错用、误用、滥用。在引用二手资料时,要注明数据来源。 2.比较概率抽样和非概率抽样的特点, 举例说明什么情况下适合采用概率抽样, 什么情 况下适合采用非概率抽样。 概率抽样是指抽样时按一定概率以随机原则抽取样本。 每个单位被抽中的概率已知或可 以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽 样的技术含量和成本都比较高。 如果调查的目的在于掌握和研究总体的数量特征, 得到总体 参数的置信区间,就使用概率抽样。
3.3 某百货公司连续 40 天的商品销售额如下: 单位:万元 41 46 35 42 25 36 28 36 29 45 46 37 47 37 34 37 38 37 30 49 34 36 37 39 30 45 44 42 38 43 26 32 43 33 38 36 40 44 44 35
20 10 0
售后服务等级的帕累托图
3.2 某行业管理局所属 40 个企业 2002 年的产品销售收入数据如下: 152 105 117 97 要求: (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数: K 1 2、确定组距: 组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取 10 124 119 108 88 129 114 105 123 116 115 110 115 100 87 107 119 103 103 137 138 92 118 120 112 95 142 136 146 127 135 117 113 104 125 108 126
统计学第六版部分课后题答案
第四章 数据分布特征的测度4.6解:先计算出各组组中值如下:4.8解: ⑴⑵体重的平均数体重的标准差⑶ 55—65kg 相当于μ-1σ到μ+1σ根据经验法则:大约有68%的人体重在此范围内。
⑷ 40—60kg 相当于μ-2σ到μ+2σ2501935030450425501865011426.7120116.5i M f x f s ⨯+⨯+⨯+⨯+⨯=====∑∑大。
所以,女生的体重差异===离散系数===离散系数女男10.0101505v 08.0121605v =μσ=μσσσ)(1102.250)(1322.260磅=磅=女男=⨯μ=⨯μ)(112.25磅==⨯σ根据经验法则:大约有95%的人体重在此范围内。
4.9解:在A 项测试中得115分,其标准分数为:在B 项测试中得425分,其标准分数为:所以,在A 项中的成绩理想。
4.11解:成年组的标准差为:幼儿组的标准差为:所以,幼儿组身高差异大。
115100115X Z =-=σμ-=5.050400425X Z =-=σμ-=172.14.24.22.4%172.1s x x n s s V x =======∑71.32.52.53.5%71.3s x x n s s V x ======∑第七章 参数估计7.7根据题意:N=7500,n=36(大样本)总体标准差σ未知,可以用样本标准差s 代替32.3364.119n x x ===∑样本均值2 1.61s z α==样本标准差:边际误差为:2222290 1.6451.6451.611.6450.4463.320.44(2.883.76)95 1.9699 2.58(2.803.84)(2.634.01)z z x z z z ααααα==⨯=±=±置信水平%时,=平均上网时间的置信区间为:,同理,置信水平%时,=;置信水平%时,=平均上网时间的置信区间分别为:,;,7.15根据题意n=200,样本比例p=23%,该题属于大样本重复抽样,总体比例π的置信区间为: 置信水平90%时置信水平95%时7.18()()()%%,置信区间:2818%5%23%9.4%23200%231%23645.1%23n p 1p z p 2±≈±=-±=-±α()()()%%,置信区间:2917%6%23%8.5%23200%231%2396.1%23n p 1p z p 2±≈±=-±=-±α()%77%,51:%13%64%3.13%6450%)641%(6496.1%64n )p 1(p Z p :P ,96.1Z ,%95%645032p ,50n ,500N :22即的置信区间为则总体比例的置信水平下⑴样本比例根据题意±≈±=-±=-±=====αα()()()()()222222:80%10%0.05 1.9611.9680%180%61.562()10%E Z Z n E ααπαππ===-=-==≈⑵据题意,若边际误差; =时,户7.22()()()()()())99.5,99.1(99.328974.11009.22101101181009.2)2325(n 1n 1s 2n n t )x x (:1009.2)18(t )2n n (t %,951,2n n ,t 182101020110161102n n s 1n s 1n s :,,,176.3,824.06.096.12100201001696.1)2325(n s n s Z )x x (:96.1Z %,951,,,212p212/2121025.0212/21212222112p212221212/212/21-∴±=⨯±=⎪⎭⎫ ⎝⎛+⨯⨯±-=⎪⎪⎭⎫ ⎝⎛+-+±-μ-μ==-+=α--+=-+⨯-+⨯-=-+-+-=σσ∴⨯±=+±-=+±-==α-σσαααα的置信区间为自由度为分布合并统计量为未知但相等⑵独立小样本置信区间为未知⑴独立大样本()()()()()()()()()6,2426.31009.22n s n s v t x x 1009.218t v t %,9511878.1711010201101016102010161n ns 1n n s n s n s v 20s ,16s ,23x ,25x ,10n n %951,22212122121025.0222222222121212222121222121212221-∴±=⨯±=+±-μ-μ∴===α-≈=-+-⎪⎭⎫ ⎝⎛+=-+-⎪⎪⎭⎫ ⎝⎛+========α-σ≠σαα置信区间为的置信区间为:自由度根据已知条件,差未知且不相等⑶独立小样本,总体方()()()()())43.5,43.1(43.326753.10484.2220110171.180484.2)2325(n 1n 1s 2n n t )x x (:0484.2)28(t )2n n (t %,951,2n n ,t 71.182201020120161102n n s 1n s 1n s :,,,212p 212/2121025.0212/21212222112p21-∴±=⨯±=⎪⎭⎫ ⎝⎛+⨯⨯±-=⎪⎪⎭⎫⎝⎛+-+±-μ-μ==-+=α--+-+⨯-+⨯-=-+-+-=σσαα的置信区间为自由度为分布= 合并统计量为未知但相等⑷独立小样本2016s s 20s ,16s ,23x ,25x ,20n 10n %951,222221222121212221⎫⎛⎪⎫⎛======α-σ≠σ,=根据已知条件,差未知且不相等⑸独立小样本,总体方7.24解:匹配小样本根据样本数据计算得:1110110n d d dn1i i===∑=53.6)d d(s n1i 2id =-=∑=1n d -d2α53.62622.211s )1n (t d d 2⨯±=-±α两种方法平均自信心得分之差的置信区间为:6.33分—15.67分。
统计学第六版课后习题答案
第一章导论.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料使用二手资料需要注意些什么与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
统计学考试题及答案中国人民大学第六版.pdf
统计学一、单选1、从某高校随机抽出100名学生,调查他们每月的生活费支出,这研究的统计量是A 该校学生的总人数B 该校学生的月月平均生活费支出C 该校学生的生活费总支出D 100名学生的月平均生活费支出2、下列变量中,顺序变量是A职工人数 B产量 C产品等级 D利润总额3、将总体中所有单位按某种变量划分为若干层,再从各层中随机抽出一些单位组成一个样本。
这种抽样方式是A 简单随机抽样B 分层抽样C 整群抽样D 系统抽样4、指出下面陈述中错误的是A 抽样误差只存在于概率抽样中B 非抽样误差只存在于非概率抽样中。
C概率抽样和非概率抽样都存在非抽样误差。
D在普查中存在非抽样误差。
5、展示广告费支出与商品销售量之间是否有某种数量关系,最适合的图形是 A柱形图 B饼图 C线图 D散点图6、当样本量一定时,置信区间的宽度A 随置信水平的增大而减小B随置信水平的增大而增大C与置信水平的大小无关D与置信水平的平方根成反比7、在检验一个正态总体方差时,使用的分布是A z分布B t分布C X 分布D F分布8、指出下面陈述中的错误的是A 抽样误差可以避免B 抽样误差不可避免C 非抽样误差可以避免D 抽样误差可以控制9、假设检验中,如果计算出的P值越小,说明检验的结果越A 真实B 不真实C 显著D 不真实10、双因素方差分析涉及 自变量A 一个分类型B 一个数值型C 两个分类型D 两个数值型二、填空题1、当一组数据对称分布时,经验法则表明,大约有68%的数据分析在( 平均数±一个标准差 )的范围之内2、对于一组具有单峰分布的数据而言,当数据的m m >时,可判断数据是(左偏)分布3、连续变量在编制组距式变量数列时,其相邻两组的上下限必须重叠。
为解决不重的问题,应按照( 上组限不在内 )的规定确定数据所在的组4、单因素方差分析中,组间平方和SSA 对应的自由度为( k-1 ),组内平方和SSE 对应的自由度( n-k )5、数值型变量根据其取值的不同,可分为( 连续 )型变量和(离散 )型变量。
统计学第六版课后习题答案
第一章导论.1〔1〕数值型变量。
〔2〕分类变量。
〔3〕离散型变量。
〔4〕顺序变量。
〔5〕分类变量。
〔1〕总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
〔2〕参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
〔1〕总体是所有IT从业者的集合。
〔2〕数值型变量。
〔3〕分类变量。
〔4〕截面数据。
〔1〕总体是所有在网上购物的消费者的集合。
〔2〕分类变量。
〔3〕参数是所有在网上购物者的月平均花费。
〔4〕参数〔5〕推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料〞。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,防止错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比拟概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原那么抽取样本。
每个单位被抽中的概率或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和本钱都比拟高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原那么,而是根据研究目的对数据的要求,采用某种方式从总体中抽出局部单位对其实施调查。
非概率抽样操作简单、实效快、本钱低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
4. 自填式、面方式、式调查个有什么利弊?自填式优点:调查组织者管理容易,本钱低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少答复敏感问题的压力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章导论1.1.1(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。
在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。
缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。
缺点:成本比较高,对调查过程的质量控制有一定难度。
对于敏感问题,被访者会有压力。
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。
5.请举出(或设计)几个实验数据的例子。
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。
6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。
对于记忆误差,尽量缩短所涉及问题的时间范围。
对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。
对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。
无回答出现后,分析武回答产生的原因,采取补救措施。
比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
第三章数据的图表搜集一、思考题3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。
对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。
根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。
可根据需要绘制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。
其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。
3.5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。
一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
3.7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。
3.9制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
二、练习题3.1答:(1)表中数据属于顺序数据。
(2)用Excel制作一张频数分布表。
(3)绘制一张条形图,反映评价等级的分布。
(4)绘制评价等级的帕累托图。
3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取103、分组频数表(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.3 某百货公司连续40天的商品销售额如下:单位:万元41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
答 :1、确定组数:()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5 3、分组频数表(根据实际资料,调整成分5个组)4、直方图3.4 利用下面的数据构建茎叶图和箱线图。
57 29 29 36 3123 47 23 28 2835 51 39 18 4618 26 50 29 3321 46 41 52 2821 43 19 42 20 答:茎叶图Frequency Stem & Leaf3.00 1 . 8895.00 2 . 011337.00 2 . 68889992.00 3 . 133.00 3 . 5693.00 4 . 1233.00 4 . 6673.00 5 . 0121.00 5 . 7箱线图3.5答 :频数分布表直方图从直方图看,数据的分布呈左偏分布。
3.6答 :频数分布表()lg 100lg()2111 6.64lg(2)lg 20.30103n K =+=+=+=,取k=72、确定组距:组距=( 最大值 - 最小值)÷组数=(61-40)÷7=3,取3 3、分组频数表(根据实际资料,调整成分5个组)从直方图看,数据的分布呈双峰分布。
3.7频数分布表从直方图看,数据的分布呈左偏分布 3.8(1)数值型数据 (2)频数分布表()lg 60lg() 1.77815111 6.91lg(2)lg 20.30103n K =+=+=+=,取k=72、确定组距:组距=( 最大值 - 最小值)÷ 组数=(9+25)÷7=4.86,取5从直方图看,数据的分布呈左偏分布。
3.9自学考试人员年龄分布集中在20-24之间,分布图呈右偏。
3.103.113.12 (1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。
(3)根据雷达图,两班成绩分布不相似。
3.133.14第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.6(2)四分位数:QL 位置=410=2.5.所以QL=274+=5.5Q U 位置=430=7.5,所以QU=21412+=13(3)标准差:4.17(4)峰度—0.25,偏度—0.69 4.2(1)众数:19;23中位数:23 平均数:24(2)四分位数:Q L 位置=425=6.25.所以Q L =19+0.25^0=19 Q U 位置=475=18.75,所以Q U =25+2^0.75=26.5(3)标准差:6.65 (4)峰度0.77,偏度1.08 4.3(1)茎叶图略(2) 平均数:7,标准差0.71 (3)第一种方式的离散系数x s v s ==2.797.1=0.28 第二种方式的离散系数xsv s ==771.0=0.10 所以,第二种排队方式等待时间更集中。
(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高 4.4 (1)平均数:274.1,中位数:272.5(2)Q L 位置=430=7.5.所以Q L =258+0.25^3=258.75 Q U 位置=490=22.5,所以Q U =284+7^0.75=289.25 (3)日销售额的标准差:21.17 4.5.甲企业总平均成本nf Mx ki ii∑==1=3406600=19.41(元)乙企业总平均成本nf Mx ki ii∑==1=(元)29.183426255= 所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B 生产的产量比乙企业多,所以把总平均成本提高了。