第3章数据分布特征的统计描述习题.doc
第三章 变量分布特征的描述
《统计学》练习题第三章变量分布特征的描述一、填空题1、平均数的计算方法按是否反映了所有单位标志值水平而可分为和两类。
2、算术平均数的基本公式是与之比。
对于组距式资料,通常要用来代表各组的一般水平,这时是假定各组的变量值均匀或对称分布的。
3、加权算术平均数受大小和大小的影响,其中决定了算术平均数的取值范围,影响了算术平均数的大小。
4、各个变量值与其算术平均数的等于零,并且为最小值。
5、某班70%的同学平均成绩为85分,另30%的同学平均成绩为70分,则全班总平均成绩为分。
6、对于分组数列,H是以为权数的,而x却是以为权数的。
若在计算某一相对数或平均数的平均数时,已知变量值和母项资料时,通常采用公式计算,已知变量值和子项资料时,通常采用公式计算。
7、几何平均数最适于计算和的平均。
8、某一连续工序的四道环节合格率分别为96%、98%、95%、99%,则平均合格率为。
9、最常用的位置平均数有和两种。
10、直接用平均差或标准差比较两个变量数列平均数的代表性的前提条件是两个变量数列的相等。
二、单项选择题1、下列情况下次数对平均数不发生影响的是()A、标志值较小而次数较多时B、标志值较大而次数较少时C、标志值较小且次数也较少时D、标志值出现次数全相等时2、在下列两两组合的平均指标中,哪一组的两个平均数完全不受极端数值的影响?()A、算术平均数和调和平均数B、几何平均数和众数C、调和平均数和众数D、众数和中位数3、计算相对数的平均数时,如果掌握了分子资料而没有掌握分母资料,则应采用()A、算术平均数B、几何平均数C、调和平均数D、算术平均和调和平均都可以4、如果所有标志值的频数都减少为原来的1/5,而标志值仍然不变,那么算术平均数()A、不变B、扩大到5倍C、减少为原来的1/5D、不能预测其变化5、某企业有A、B两车间,2013年A车间人均月工资3720元,B车间3780元,2014年A车间增加10%工人,B车间增加8%工人,如果A、B两车间2014年人均月工资都维持上年水平,则全厂工人平均工资2014年比2013年()A、提高B、下降C、持平D、不一定6、若两数列的标准差相等而平均数不等,则()A、平均数小代表性大B、平均数大代表性大C、代表性也相等D、无法判断7、计算平均指标时最常用的方法和最基本的形式是()A、中位数B、众数C、调和平均数D、算术平均数8、某小组40名职工,每人工作天数相同。
习题及参考答案
习题及参考答案第三章数据分布特征的描述⼀、单项选择题 1、经验表明,当数据分布近似于正态分布时,则有95%的数据位于区间() A 、σ±X B 、σ2X ± C 、σ3X ± D 、σ4X ± 2、实际中应⽤最⼴泛的离散程度测度值是()A 、极差和平均差B 、平均差和四分位差C 、⽅差和标准差D 、异众⽐率和四分位差3、集中趋势的测度值中,最主要的是()A 、众数B 、中位数C 、均值D 、⼏何平均数4、有10个数据,它们对数据6的离差分别为:-3,-2,-2,-2,0,0,4,4,5,5。
由此可知这10个数据的()A 、均值为0B 、均值为1 B 、均值为6C 、均值为5、某⽣产⼩组由36名⼯⼈,每⼈⽣产的产量数量相同,其中有14⼈⽣产每件产品耗时8分钟;16⼈⽣产每件产品耗时10分钟;6⼈⽣产每件产品耗时5分钟,计算该⽣产⼩组⽣产每件产品的平均耗时应采⽤()A 、简单算术均值B 、简单调和算术均值C 、加权算术均值 D.、加权调和均值6、某敬⽼院⾥有9位百岁⽼⼈的岁数分别为101、102、103、104、108、102、105、110、102 ,据此计算的结果是()A 、均值=中位数=众数B 、均值>中位数>众数C 、众数>中位数>均值D 、中位数>均值>中数 7、⼏何均值主要适合于()A 、具有等差关系的数列B 、变量值为偶数的数列C 、变量值的连乘积等于总⽐率或总速度的数列D 、变量值之和等于总⽐率或总速度的数列 8、加权算术均值不但受变量值⼤⼩的影响,也受变量之出现的次数多少的影响,因此下列情况中对均值不发⽣影响的是()A 、变量值出现次数相等时B 、变量值较⼩、次数较多时C 、变量值较⼤、次数较少时D 、变量值较⼤、次数较多时9、⼀组数据的均值为350,众数为200,则()A 、中位数为275,数据呈右偏分布B 、中位数为275,数据呈左偏分布C 、中位数为300,数据呈左偏分布D 、中位数为300,数据呈右偏分布10、⼀组数据的均值为5,中位数为3,则()A 、数据呈右偏分布B 、数据呈对称分布C 、数据呈左偏分布D 、数据呈正态分布11、经验表明,当数据分布近似于正态分布时,则变量值落在区间σ±X 的概率为()A、95%B、68%C、%D、%12、当众数(Mo)中位数(Me)和均值(X)三者的关系表现为:Mo=Me=X,则()A、数据有极⼩值B、数具有极⼤值C、数据是对称分布D、数据是左偏分布E、数据右偏分布13、在单项式数列中,假定标志值所对应的权数都缩⼩1/10,则算术平均数()A、不变B、⽆法判断C、缩⼩1/100D、扩⼤10倍14、若单项式数列的所有标志值都减少⼀倍,⽽权数都增加⼀倍,则其算术平均数()A、增加⼀倍B、减少⼀倍C、不变D、⽆法判断15、各变量值与其算术平均数的离差之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值16、各变量值与其算术平均数的离差平⽅之和()A、等于各变量值之和的平均数B、等于最⼤值C、等于零D、等于最⼩值⼆、多项选择题1、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:X<Me<Mo,则()A、数据是左偏分布B、数据是右偏分布C、数据是对称分布D、数据存在极⼩值E、数据存在极⼤值2、当众数(Mo)、中位数(Me)和均值(X)三者的关系表现为:Mo<Me<X,则()A、数据是右偏分布B、数据是对称分布C、数据是左偏分布D、数据有极⼤值E、数据有极⼩值3、数据分布的两个重要特征是()A、正态分布B、集中趋势C、t分布D、 2分布E、离散程度4、利⽤组距分组数据计算众数时,有⼀些基本假定,即()A、假定数据分布具有明显的离中趋势B、既定数据分布具有明显的集中趋势C、假定众数组的频数在该组内是正态分布D、假定众数组的频数在该组内是均匀分布E、假定众数组的频数在该组内是⼆项分布5、众数()A、是⼀组数据分布的最⾼峰点所对应的数值B、可以不存在C、也可以有多个D、是位置代表值E、不受数据中极端值的影响。
概率与数理统计第3章 数据分布特征的描述
第3章数据分布特征的描述[引例]根据国家统计局对全国31个省(自治区、直辖市)7.4万户农村居民家庭和6.6万户城镇居民家庭的抽样调查,2011年城乡居民收入增长情况如下1:2011年全国农村居民人均纯收入6977元,比上年增加1058元,增长17.9%。
剔除价格因素影响,实际增长11.4%,增速同比提高0.5个百分点。
其中,人均工资性收入2963元,同比增加532元,增长21.9%。
工资性收入对全年农村居民增收的贡献率达50.3%。
工资性收入占农村居民纯收入的比重达42.5%,同比提高1.4个百分点。
2011年农村居民人均纯收入中位数为6194元,比上年增加995元,增长19.1%。
农村居民人均纯收入中位数比人均纯收入低783元,但增速高1.2个百分点。
2011年城镇居民人均总收入23979元,其中,人均可支配收入21810元,比上年增加2701元,增长14.1%。
剔除价格因素影响,城镇居民人均可支配收入实际增长8.4%,增速同比提高0.6个百分点。
2011年城镇居民人均可支配收入中位数为19118元,比上年增加2279元,增长13.5%。
城镇居民人均可支配收入中位数比人均可支配收入低2692元,增速低0.6个百分点。
主要是受最低工资标准、城镇居民基本养老金和离退休金以及最低生活保障标准提高影响,城镇低收入户收入增速较高;同时高收入户也保持了较快的增长速度,所以中等收入户增速相对较慢。
2011年城镇居民人均可支配收入与农村居民人均纯收入之比为3.13:1,2010年该收入比为3.23:1。
本章小结1.总量指标是说明现象总规模和总水平的数值,又称为绝对数。
绝对数的计量单位有实物单位和价值量单位。
按反映总体内容不同,总量指标可分为总体单位总量和总体标志总量;按反映的时间状况不同,总量指标可分为时期指标和时点指标。
2.将两个有联系的数值对比得到的比率称为相对数。
相对数既有无名数形式也有复名数形式。
根据研究目的和对比基础的不同,有结构相对数、比例相对数、计划完成程度相对数、比较相对数、动态相对数和强度相对数等。
曾五一《统计学导论》配套题库【课后习题】第三章 数据分布特征的描述 【圣才出品】
2 / 16
圣才电子书 十万种考研考证电子书、题库视频学习平台
映了全部数据的信息。众数、中位数和四分位数都是根据数据分布的特定位置所确定的集中 趋势测度值。算术平均数只能用于定量(数值型)数据,中位数、四分位数适用于定序数据 和定量数据,众数对所有形式的数据(定性数据和定量数据)都适用。本题中测验成绩的记 录结果为定性数据,所以 B 项正确。
答 : 可 计 算 出 总 体 标 准 差 =100 × 10 % =10 , 总 体 方 差 为 100 , 于 是 峰 度 系 数 K=34800/10000=3.48,可以认为总体呈现非正态分布。
4 / 16
圣才电子书 十万种考研考证电子书、题库视频学习平台
峰度系数 K
5.一组数据呈微偏分布,且知其均值为 510,中位数为 516,则可推算众数为( )。 A.528 B.526 C.513 D.512 【答案】A
【解析】英国统计学家皮尔逊( K.Pearson )提出了一个经验公式:在数据分布呈轻
微偏态时,算术平均数和众数、中位数三者之间存在如下的近似关系:
,由此可得众数 M0 528 。
2.你正在筹划一次聚会,想知道该准备多少瓶饮料,你最希望得到所有客人需要饮料 数量的( )。
A.均值 B.中位数 C.众数 D.四分位数 【答案】A 【解析】算术平均数是数值平均数,即它是利用全部数据加总来计算的平均数,综合反
1 / 16
圣才电子书 十万种考研考证电子书、题库视频学习平台
曲线的陡峭(或平坦)的程度。对峰度的度量通常以正态分布曲线为比较标准,一般将峰度
第3章 数据分布特征的统计描述习题
3.是非标志不存在变异时,意味着:( B,C )
A. 各标志值遇到同样的成数; B. 所有单位都只具有某种属性
C. 所计算的方差为 0;
C. n 1 x
D. 总体单位数的多少
D. 所计算的方差为 0.25
4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的
指标有( A,C )
甲
乙
丙
合计
1.2
1.4
1.5
--
1.2 1.2
2.8 2.8
1.2 1.4 1.5
乙市场的平均价格 1.2 2 1.4 1 1.5 1 5.3 1.325
1.5 1.5
由上面的计算得知,甲市场农产品的平均价格高高于乙市场。
4
1.2
2.8
1.5
5.5
5.5 4
600 77.1429 522.8571
2
2
f
f
SM e 1 fMe
SM e 1 fMe
dMe
dMe
500 1500 1260 100 1050
600 1500 690 100 1050
频数最高的(户数最多)组就是众数所在之组,众数应处于居民月均支出分组
[解] 由题中可知,企业工人月工资的中位数=1280 所以众数≈1440-3×(1440-1280)=960 所以众数<中位数<平均数,则该企业的月工资分布为右(正)偏,说明该企业工人的 月工资分布中出现极大值,即出现有人拿到高额的工资,导致月工资分布呈右偏。
4.某城市对 3000 户居民户均月消费支出进行调查,得到下表资料。
881250 938.7492
统计第三章练习题
第三章 数据分布特征的描述(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了( )。
①总体变量值分布的集中趋势 ②总体分布的离散特征 ③总体单位的集中趋势 ④总体变动趋势 2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
①接近于变量值大的一方 ②接近于变量值小的一方 ③不受权数的影响 ④无法判断4.权数对于平均数的影响作用取决于( )。
①总体单位总量 ②各组的次数多少 ③各组标志值的大小 ④各组次数在总体单位总量中的比重 5.由组距变量数列计算算术平均数时,用组中值代表组内标志值的一般水平,有一个假定条件,即( )。
①各组的次数必须相等 ②各组标志值必须相等 ③各组标志值在本组内呈均匀分布 ④各组必须是封闭组 6.如果次数分布中,各个标志值扩大为原来的2倍,各组次数都减小为原来的1/2,则算术平均数( )。
①增加到原来的21 ②稳定不变 ③减少到原来的21④扩大为原来的2倍 7.已知某市场某种蔬菜早市、午市、晚市的每公斤价格,在早市、午市、晚市的销售额基本相同的情况下,计算平均价格可采取的平均数形式是( )。
①简单算术平均数 ②加权算术平均数③简单调和平均数 ④加权调和平均数8.凡是变量值的连乘积等于总比率或总速度的现象,要计算其平均比率或平均速度都可以采用( )。
①算术平均法 ②调和平均法 ③几何平均法 ④中位数法 9.四分位差排除了数列两端各( )单位标志值的影响。
①10% ②15% ③25% ④ 35% 10.如果一组变量值中有一项为零,则不能计算( )。
①算术平均数 ②调和平均数 ③众数 ④中位数11.在掌握了各组单位成本和各组产量资料时,计算平均单位成本所使用的方法应是( )。
概率与数理统计第3章数据分布特征的描述
概率与数理统计第3章数据分布特征的描述概率与数理统计是一门关于随机现象的描述和分析的学科。
在实际问题中,我们经常需要对数据进行分析和描述,以便更好地理解数据的特征和规律。
第三章主要介绍了数据分布的特征描述,包括中心位置度量、离散程度度量和分布形状度量。
首先是中心位置度量,它用来描述数据集的平均水平。
一般来说,我们关心的是数据集的平均值和中位数。
平均值是数据的加权平均,它能够反映数据集的集中趋势。
平均值的计算公式是:```平均值=总和/观测数```中位数是按照数据的大小顺序排列后,处于中间位置的观测值。
中位数的计算方法是:```如果数据集的观测数为奇数,中位数为第(n+1)/2个观测值如果数据集的观测数为偶数,中位数为第n/2和(n/2+1)个观测值的平均值```其次是离散程度度量,它用来描述数据集的变异程度。
我们常用的度量指标有极差、方差和标准差。
极差是数据集中最大观测值与最小观测值之间的差距,它反映了数据的全局离散程度。
方差是每个观测值与数据集平均值的差的平方的平均值,它度量了数据的局部离散程度。
标准差是方差的平方根,它与方差具有相同的单位,能够更好地反映数据的离散程度。
最后是分布形状度量,它用来描述数据分布的偏度和峰度。
偏度是描述数据分布对称性的度量,正偏表示数据集的右尾较重,负偏表示数据集的左尾较重。
峰度是描述数据分布峰态的度量,正峰表示数据集的峰部较陡,负峰表示数据集的峰部较平。
偏度和峰度能够帮助我们了解数据分布的形态特征,从而判断数据集是否服从其中一种特定的分布。
在实际应用中,我们可以通过对数据集进行描述统计分析来了解数据的特征。
通过计算平均值、中位数、方差、标准差、偏度和峰度等指标,我们能够更好地理解数据的分布情况。
此外,我们还可以通过绘制直方图、箱线图、概率密度函数等图形来展示数据的分布特征,进一步加深对数据的认识。
总之,数据分布特征的描述是概率与数理统计中重要的内容之一、通过中心位置度量、离散程度度量和分布形状度量,我们能够充分了解数据的平均水平、变异程度和形态特征,为进一步的数据分析和决策提供有力的支持。
第3章统计学数据分布特征的描述
第3章统计学数据分布特征的描述统计学是一门研究收集、分析和解释数据的学科。
在统计学中,数据分布特征的描述是指通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
数据的集中趋势描述了数据的平均水平或中心。
常用的统计量有平均值、中位数和众数。
平均值是将所有观测值相加然后除以观测值的总数,它能够反映数据的总体平均水平。
然而,当数据包含异常值时,平均值的计算结果可能会受到影响。
因此,中位数和众数在这种情况下被认为是更稳健的集中趋势度量。
中位数是将数据按大小排序,然后找出中间位置的观测值。
众数是数据中出现次数最多的观测值。
数据的离散程度描述了数据的变异程度或分散程度。
常用的统计量有方差、标准差和四分位差。
方差是观测值与均值之间差异的平方的平均值,它反映了数据的总体离散程度。
标准差是方差的平方根,用于衡量数据的波动性。
四分位差是数据的上四分位数和下四分位数之差,它描述了数据的中间50%的变异程度。
数据的分布形态描述了数据的形状和对称性。
常用的分布形态有正态分布、偏态分布和峰态分布。
正态分布是最常见的分布形态,其特点是对称、钟形曲线。
偏态分布是指数据分布不对称的情况,主要分为正偏态和负偏态。
正偏态分布意味着数据的尾部偏向右侧,负偏态分布则意味着数据的尾部偏向左侧。
峰态分布用于描述数据的峰值的尖锐程度,主要分为正态分布、高峰态和低峰态。
除了统计量,还可以使用图表来对数据分布特征进行描述。
常用的图表包括直方图、箱线图和散点图。
直方图是通过将数据分组并在坐标轴上绘制各组的频率或相对频率来展示数据的分布形态。
箱线图通过绘制数据的分位数和异常值来展示数据的中位数、四分位数和离群观测值。
散点图用于展示两个变量之间的关系,特别适用于发现变量之间的相关性和异常值。
综上所述,统计学中的数据分布特征描述是通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
这些描述能够帮助我们更好地理解数据,并对数据进行分析和解释。
统计学练习题及答案
第三章数据分布特征的描述1.下面是我国人口和国土面积资料:────────┬───────────────│根据第四人次人口普查调整数指标├──────┬────────│1982年│1990年────────┼──────┼────────人口总数│101654 │114333男│52352 │58904女│49302 │55429────────┴──────┴────────国土面积960万平方公里。
试计算所能计算的全部相对指标。
2.某企业2014年某产品单位成本520元,2015年计划规定在上年的基础上单位成本降低5%,实际降低6%,试确定2015年单位成本的计划数与实际数,并计算2015年单位成本比计划降低多少3.某市共有50万人,其市区人口占85%,郊区人口占15%,为了解该市居民的收入水平,在市区抽查了1500户居民,每人平均收入为1400元;在郊区抽查了1000户居民,每人年平均收入为1380元,若这两个抽样数字具有代表性,则计算该市居民年平均收入应采用哪一种形式的平均数方法进行计算4根据上表资料计算:(1)哪个班级统计学成绩好(2)哪个班级的成绩分布差异大哪个班级的成绩更稳定5.2014年8月份甲、乙两农贸市场资料如下:────┬──────┬─────────┬─────────品种│价格(元/斤)│甲市场成交额(万元)│乙市场成交量(万斤)────┼──────┼─────────┼─────────甲│││2乙│││1丙│││1────┼──────┼─────────┼─────────合计│──││4────┴──────┴─────────┴─────────试问哪一个市场农产品的平均价格较高并说明原因。
6.某车间有甲、乙两个生产组,甲组平均每个工人的日产量36件,标准差件。
乙组工人资料如下:要求:(1)计算乙组平均每个工人的日产量和标准差。
(2)比较甲、乙两个生产小组哪个组的平均日产量更有代表性比较哪组的产量更稳定比较哪组的产量差异大第四章抽样调查检验结果如下:1.某进出口公司出口茶叶,为检查其每包规格的重量,抽取样本100包,(1)确定每包平均重量的抽样平均误差和极限误差;(2)估计这批茶叶每包平均重量的范围,确定是否达到规格要求。
数据分布特征的统计描述
x xx1x2...xn
n
n
均值,即算术平均数
x 标志值或变量值
见49页例题
20
2、加权法:分组且各组标志值出现的次数 (权数 f )不相等时,公式:
x xfx1f1x2f2...xnfn
f
f1f2...fn
x 为标志值,又称变量值; f 为各组标志值出现的次数
返回本节首页
21
某厂工人生产情况
第三章 数据分布特征的统计描述
除了统计图和统计表之外,还可以用少量 的特征值(代表值)对数据分布的数量规 律进行精确、简洁的描述。
1
离中趋势:即反映各数据远离中心值的程度 因为即使现象的集中趋势相同,其离中趋势 也可能不同。
离中趋势 (分散程度)
两个不同的曲线表示两个不同的总体,它们的 集中趋势相同但离中趋势不同。
“150个企业的平均计划完成百分数” 就是“150个企 业总的计划完成百分数”。
企业总计划完成百分数 = 总实际数 / 总计划数
计划完成 百分数% 105~110 110~120 120~130
合计
企业 数n 30 70 50 150
计划产值 f
5700 20500 22500 48700
x
xf
% 实际值
m 1m x
46
举例:
某蔬菜单价早中晚分别为0.5、0.4、 0.25(元/斤) (1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格
47
(1)问:用调和平均。先求早、中、晚购买的斤 数。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤)
第3章 统计数据分布特征的描述
农民家庭年人均纯收入情况表 农民家庭数(户) 240 480 1 050 600 270 210 120 30 3 000
计
f M o - f M o -1
´ d M o ( f M o - f M o -1 ) + ( f M o - f M o +1 )
3.1
统计变量集中趋势的测定
统计学是关于收集、分析、表述和解释统计数据的方法论科学,她对统计数据的收集、分析、表述 和解释虽然要从每一个数据着手,但其着眼点即研究目的却是在于统计数据整体或者说研究现象的总体 特征。在一个统计总体中,每一个个体即统计单位都有自己的特征和属性,具体地就表现出不同的标志 值,我们不能用其中的某一个或某几个的标志值来代表全部数据的特征,而必须使用所有数据的代表值 来表述总体特征,这就必须测定变量的集中趋势。
1050 - 600 ´ 200 = 1551.8 (元) (1050 - 480) + (1050 - 600)
在不等距分组的条件下,众数必须根据频数密度或频率密度来计算。 众数是按照数据的位置计算的,它的长处是易于理解,不受极端数值的影响。当数据分布存在明显 的集中趋势,且有显著的极端值时,适合使用众数。但是其灵敏度、计算功能和稳定性差,具有不唯一 性,所以当数据分布的集中趋势不明显或存在两个以上分布中心时,便不适合使用众数(前者无众数, 后者为双众数或多众数,也等于没有众数) 。 2.中位数(Median) 中位数和众数一样,也是一种位置代表值,但是,它不能用于定类数据,只能在顺序及以上的数据 中使用,所以又称为次序统计量,用 Me 表示。 中位数是将总体中的数据按顺序排列后,处于数列中点位置上的那个数据值或变量值,或者说中位 数是累计频率数列中,累计频率为 0.50 所对应的变量值。 从中位数概念可见:在总体中,小于中位数的数据个数占一半,大于中位数的数据个数也占一半, 即中位数是将数据按大小顺序排列后,位于二等分点上的那个数据值。用中位数来代表总体中所有标志 值的一般水平,可以避免极端值的影响,在有的情况下更具有代表性。例如,人口的平均年龄会受到个 别特别长寿人口年龄的影响,使计算结果偏大,而年龄中位数则可以较好地体现人口年龄结构的特征, 国际上就使用人口的年龄中位数(30 岁)作为人口老龄化的一个判断标准。 中位数的确定方法,根据所掌握的数据不同而有所不同: (1)由顺序数据和未分组的数量数据确定中位数。这种情况下,确定中位数的方法是:先将总体 中的全部数据顺序排列,然后确定中位数的位置,处于中位数位置的标志值就是中位数。 顺序数据中位数的位置:
统计学计算题学时
统计学习题集第三章数据分布特征的描述五、计算题1. 某企业两个车间的工人生产定额完成情况如下表:技术水平 A车间 B车间工人数完成定额工时人均完成工时工人数完成工时定额人均完成工时高 50 14000 280 20 6000 300中 30 7500 250 40 10400 260低 20 4000 200 40 8200 205合计 100 25500 255 100 24600 246从表中看,各个技术级别的工人劳动生产率(人均完成工时定额)都是A车间低于B车间,试问:为什么A车间的平均劳动生产率又会高于B车间呢?3. 根据某城市500户居民家计调查结果,将居民户按其食品开支占全部消费开支的比重(即恩格尔系数)分组后,得到如下的频数分布资料:恩格尔系数(%) 居民户数20以下 620~30 3830~40 10740~50 13750~60 11460~70 7470以上 24合计 500要求:(1)据资料估计该城市恩格尔系数的中位数和众数,并说明这两个平均数的具体分析意义。
(2)利用上表资料,按居民户数加权计算该城市恩格尔系数的算术平均数。
(3)试考虑,上面计算的算术平均数能否说明该城市恩格尔系数的一般水平?为什么?40~501374528850~601145540260~70746547670以上2475500合计500--答:(1)Me=47.226%,指处于中间位置的居民家庭恩格尔系数水平;Mo=45.661%,指居民家庭中出现最多的恩格尔系数水平;(2)均值=47.660%;4. 某学院二年级两个班的学生英语统考成绩如下表。
要求:(1)分别计算两个班的平均成绩;(2)试比较说明,哪个班的平均成绩更有代表性?哪个班的学生英语水平差距更大?你是用什么指标来说明这些问题的;为什么?英语统考成绩学生人数A班 B班60以下 4 660~70 12 1370~80 24 2880~90 6 890以上 4 5合计 50 605. 利用上题资料,试计算A班成绩分布的极差与平均差,并与标准差的计算结果进行比较,看看三者之间是何种数量关系。
统计学 第三章习题参考答案(书上习题)向蓉美
第三章习题参考答案1.数据分布特征可以从集中趋势、离中趋势及分布形态三个方面进行描述。
平均指标是在反映总体的一般水平或分布的集中趋势的指标。
测定集中趋势的平均指标有两类:位置平均数和数值平均数。
位置平均数是根据变量值位置来确定的代表值,常用的有:众数、中位数。
数值平均数就是均值,它是对总体中的所有数据计算的平均值,用以反映所有数据的一般水平,常用的有算术平均数、调和平均数、几何平均数和幂平均数。
变异指标是用来刻画总体分布的变异状况或离散程度的指标。
测定离中趋势的指标有极差、平均差、四分位差、方差和标准差、以及离散系数等。
标准差是方差的平方根,即总体中各变量值与算术平均数的离差平方的算术平方根。
离散系数是根据各离散程度指标与其相应的算术平均数的比值。
矩、偏度和峰度是反映总体分布形态的指标。
矩是用来反映数据分布的形态特征,也称为动差。
偏度反映指数据分布不对称的方向和程度。
峰度反映是指数据分布图形的尖峭程度或峰凸程度。
2.三批产品的平均废品率为:x̅=25+30+45251.5%+302%+451%=1.3%(因为题目给了废品的数量和废品率,可以计算出总的产品数,所以用废品数除以总产品数得到平均废品率)3.该月这批产品的平均废品率为:x̅=100%−√(100%−1.5%)×(100%−2%)×(100%−2.5%)×(100%−1%) 4=1.75%(这道题错的比较多,首先应该选择几何平均(教材P54:几何平均数常用于总量等于各个数据之积的现象求平均数,如发展速度、某些比率的平均),然后不能直接将废品率进行几何平均(教材P55:计算几何平均数的前提是各个变量值的乘积有经济意义,废品率*废品率是没有经济意义的),应该先计算平均合格率(因为经过连续工序的产品的总合格率=每道工序的合格率之积,这是有经济意义的),再用100%减去平均合格率得到平均废品率)4.先对数据做一个从小到大的排序:186 188 190 199 202 207 208 211 213 215 217 218 219 221 222 223 224 226 228 230 231 234 241 242 245 247 251 253 260 272(1)均值:224.1中位数:222.5众数:不存在(2)切尾均值:223.73(3)下四分位数Q1的位置是:30+14=7.75=734第7个数是208,第8个数是211所以下四分位数Q1=208+34×(211−208)=210.25同理,上四分位数Q2的位置是:3(30+1)4=23.25=2314第23个数是241,第24个数是242所以上四分位数Q2=241+14×(211−208)=241.25极差=272-186=86;四分位差=241.25-210.25=31(4)平均差AD=∑|x−x̅|n=16.4467方差σ2=∑(x−x̅)2n=433.4233标准差σ=√∑(x−x̅)2n=20.81885.因为是定序数据,集中趋势应该选择众数和中位数(教材P58:算数平均数只适用于定量数据,中位数适用于定量和定序数据,众数适用于定量、定序和定类数据);离中趋势应该选择异众比率(教材P63:以上的变异指标均只适用于定量数据,对于定性数据,可以计算“异众比率”来衡量集中趋势值众数的代表性)①从中位数来看,甲城市为“一般”,乙城市为“不满意”,甲城市优于乙城市。
《统计学》--数据分布特征的统计描述练习
第三章数据分布特征的统计描述练习题一、单项选择题1、一组数据排序后处于25%和75%位置上的值称为(C)A、众数B、中位数C、四分位数D、均值2、离散系数的主要用途是(C)A、反映一组数据的离散程度B、反映一组数据的平均水平C、比较多组数据的离散程度D、比较多组数据的平均水平3、离散系数(C)A、只能消除一组数据的水平对标准差的影响B、只能消除一组数据的计量单位对标准差的影响C、可以同时消除数据的水平和计量单位对标准差的影响D、可以准确反映一组数据的离散程度4、峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值(A)A、等于0B、大于0C、小于0D、等于15、如果峰态系数K>0,表明该组数据是(A)A、尖峰分布B、扁平分布C、左偏分布D、右偏分布6、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。
在上面的描述中,众数是(B)A、1200B、经济管理学院C、200D、理学院7、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用(A)A、众数B、中位数C、四分位数D、均值8、甲、乙两组工人的平均日产量分别为18件和15件。
若甲、乙两组工人的平均日产量不变,但是甲组工人数占两组工人总数的比重下降,则两组工人总平均日产量(B)A、上升B、下降C、不变D、可能上升,也可能下降9、权数对平均数的影响作用取决于(C)。
在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。
A、各组标志值的大小B、各组的次数多少C、各组次数在总体单位总量中的比重D、总体单位总量10、当各个变量值的频数相等时,该变量的(A)A、众数不存在B、众数等于均值C、众数等于中位数D、众数等于最大的数据值11、有8名研究生的年龄分别为21,24,28,22,26,24,22,20岁,则他们的年龄中位数为(B)A、24B、23C、22D、2112、下列数列平均数都是50,在平均数附近离散程度最小的数列是(b)A、0 20 40 50 60 80 100B、0 48 49 50 51 52 100C、0 1 2 50 98 99 100D、0 47 49 50 51 53 10013、如果你的业务是提供足球运动鞋的号码,那么,哪一种平均指标对你更有用?(d)A、算术平均数B、几何平均数C、中位数D、众数14、假定某人6个月的收入分别是1800元,1840元,1840元,1840元,1840元,8800元,反映其月收入一般水平应该采用(C)A、算术平均数B、几何平均数C、众数D、调和平均数15、某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是(B )A、众数>中位数>均值B、均值>中位数>众数C、中位数>众数>均值D、中位数>均值>众数二、填空题1、某班的经济学成绩如下表所示:43 55 56 56 59 60 67 69 73 75 77 77 78 79 80 81 82 83 83 83 84 86 87 88 88 89 90 90 95 97该班经济学成绩的平均数为77 ,众数为83 ,中位数为,上四分位数为,下四分位数为,四分位差为,离散系数为。
统计学导论曾五一第三章数据分布特征的描述
统计学导论曾五⼀第三章数据分布特征的描述第三章数据分布特征的描述第⼀节统计变量集中趋势的测定⼀测定集中趋势的指标及其作⽤集中趋势(Central tendency)较⼤和较⼩的观测值出现的频率⽐较低,⼤多数观测值密集分布在中⼼附近,使得全部数据呈现出向中⼼聚集或靠拢的态势。
测度集中趋势的指标有两⼤类:数值平均数——是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及⼏何平均数;位置代表值——根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。
1.反映变量分布的集中趋势和⼀般⽔平。
如⽤平均⼯资了解职⼯⼯资分布的中⼼,反映职⼯⼯资的⼀般⽔平。
2.可⽤来⽐较同⼀现象在不同空间或不同阶段的发展⽔平。
不受总体规模⼤⼩的影响;在⼀定程度上使偶然因素的影响相互抵消。
3.可⽤来分析现象之间的依存关系。
如研究劳动者的⽂化程度与收⼊的关系。
4.平均指标也是统计推断中的⼀个重要统计量,是进⾏统计推断的基础。
⼆数值平均数(⼀)算术平均数(均值)⼀组数据的总和除以这组数据的项数所得的结果;最常⽤的数值平均数。
1.简单算术平均数把每项数据直接加总后除以它们的项数。
通常⽤于对未分组的数据计算算术平均数。
计算公式:2.加权算术平均数加权算术平均数的计算公式:加权—为了体现各变量值轻重不同的影响作⽤,对各个变量值赋予不尽相同的权数(fi )。
权数(fi ,也称权重)权数——指在计算总体平均数或综合⽔平的过程中对各个数据起着权衡轻重作⽤的变量。
可以是绝对数形式,也可以是⽐重形式(如频率)来表⽰。
事实上⽐重权数更能够直接表明权数的权衡轻重作⽤的实质。
当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。
3.由组距数列计算算术平均数各组变量值⽤组中值来代表。
假定条件是各组内数据呈均匀分布或对称分布。
计算结果是近似值。
4.对相对数求算术平均数由于各个相对数的对⽐基础不同,采⽤简单算术平均通常不合理,需要加权。
第三章统计数据分布特征的描述
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中非常重要的一个概念,它用于对数据进行系统化的描述和分析。
统计数据分布特征的描述包括位置参数、散布参数和形状参数。
位置参数描述了数据集中心位置的特征。
最常用的位置参数是均值和中位数。
均值是指所有数据值的总和除以数据个数,它能够反映数据集的平均水平。
中位数是将数据值按大小排序后的中间值,它能够反映数据集的中心位置。
均值对异常值比较敏感,中位数能够较好地排除异常值的干扰。
散布参数描述了数据集的离散程度。
最常用的散布参数是方差和标准差。
方差是指每个数据值与均值之差的平方和的平均值,它能够反映数据集的离散程度。
标准差是方差的平方根,它与数据的单位相一致,常用于衡量数据的波动性。
方差和标准差越大,表示数据的离散程度越大。
形状参数描述了数据集的分布形状。
常用的形状参数包括偏度和峰度。
偏度是指数据分布的不对称程度,大于0表示右偏,小于0表示左偏,等于0表示对称。
偏度能够反映数据集的分布形态。
峰度是指数据分布的尖锐程度,大于0表示尖锐,小于0表示平坦,等于0表示与正态分布相似。
峰度能够反映数据集的尖峰或扁平程度。
除了这些常见的参数之外,还有其他一些描述统计数据分布特征的方法,如四分位数和箱线图。
四分位数是将数据分为四等分的值,它包括上四分位数、下四分位数和中位数。
上四分位数是四分之三分位数,下四分位数是四分之一分位数。
箱线图是以箱子和线段的形式展示数据分布特征,箱子的上边界和下边界分别代表上四分位数和下四分位数,箱子的中线代表中位数,箱子的长度代表数据的离散程度。
统计数据分布特征的描述对于研究数据的特征、提取有效信息以及进行统计推断都非常重要。
了解数据的位置、散布和形状特征能够帮助研究者更好地理解数据集的性质和规律。
在实际应用中,统计数据分布特征的描述还可以帮助决策者进行决策,例如对于质量控制的判断和产品的质量评估等。
综上所述,统计数据分布特征的描述是对数据集进行系统化描述和分析的重要工具。
(完整版)第3章用统计量描述数据习题答案
第3章用统计量描述数据教材习题答案3.1随机抽取25个网络用户,得到他们的年19152925242321382218302019191623272234244120311723龄数据如下(单位:周岁):计算网民年龄的描述统计量,并对网民年龄的分布特征进行综合分析详细答案:网民年龄的描述统计量如下:平均24中位数2325%四分位数1975%四分位数26.5众数19标准差 6.65方差44.25峰度0.77偏度 1.08极差26最小值15最大值41从集中度来看,网民平均年龄为24岁,中位数为23岁。
从离散度来看,标准差在为6.65岁,极差达到26岁,说明离散程度较大。
从分布的形状上看,年龄呈现右偏,而且偏斜程度较大。
3.2某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验。
一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97 分钟,第二种排队方式的等待时间(单位:分钟)如下:5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8⑴计算第二种排队时间的平均数和标准差。
⑵比两种排队方式等待时间的离散程度。
⑶如果让你选择一种排队方式,你会选择哪一种?试说明理由。
详细答案:(1)兀"(岁);* OR (岁)。
(2)叫"亦4 ;也=0一102。
第一中排队方式的离散程度大。
(3)选方法二,因为平均等待时间短,且离散程度小。
3.3在某地区随机抽取120家企业,按利润额进行分组后结果如下:按利润额分组(万元)企业数(个)300以下19300〜40030400 ~ 50042500 ~ 60018600以上11合计120计算120家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算)。
详细答案:示=426.67 (万元);2 116朋(万元)。
第三章统计数据分布特征的描述
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中的重要概念之一、它是通过对数据进行整理、组织和分析来了解数据的分布情况,帮助我们更好地理解数据的特点和趋势。
一、数据分布特征的描述方法在统计学中,数据分布特征主要通过以下两种方法进行描述:1.图形描述法:通过绘制图表来展示数据的分布情况。
常见的图形描述方法有直方图、条形图、饼图、箱线图等。
直方图是一种用于展示数据分布的图形。
它将其中一范围内的数据分成若干个等宽的区间,并统计每个区间中数据的频数或频率,然后绘制柱状图来表示。
箱线图是一种用于展示数据分布和异常值的图形。
它将数据划分为四个部分:最大值、上四分位数、中位数、下四分位数和最小值,并通过画出盒子和须来表示数据的分布情况。
2.数值描述法:通过使用统计指标和参数来描述数据的分布情况。
常见的数值描述方法有均值、中位数、众数、标准差、方差等。
均值是指将所有数据相加后再除以数据的总个数的得到的值,代表了数据的平均水平。
中位数是指将数据按大小排序后,处于中间位置的值,代表了数据的中心位置。
众数是指数据集中出现次数最多的值,代表了数据的集中趋势。
标准差是指数据在均值附近的波动程度,代表了数据的离散程度。
方差是指数据与均值之间的平均差的平方的平均值,代表了数据的离散程度。
二、数据分布特征的描述步骤要进行数据分布特征的描述,一般需要进行以下步骤:1.数据的整理和搜集:搜集所需的数据,并将其整理成适合进行分析的形式。
2.确定描述方法:根据数据的特点和目标,选择适当的图形描述法或数值描述法。
3.进行描述分析:根据所选的描述方法,对数据进行分析和计算,得出相应的描述结果。
4.解释和应用:根据描述结果,解释数据的分布特征,并根据需要进行相应的应用。
三、数据分布特征的描述应用数据分布特征的描述在实际应用中有很多用途,以下是几个常见的应用:1.判断数据是否符合其中一种分布:通过对数据的分布特征进行描述,可以判断数据是否符合正态分布或其他特定的分布形式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 数据分布特征的统计描述
思考与练习
一、选择题
1.有n 辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是:( C )
A .
n x
∑ B .∑∑f
xf C .∑x n 1 D .∑∑x
m m
2.权数对加权算术平均数的影响,取决于( B )
A. 权数所在组标志值的大小;
B. 权数的大小;
C. 各组单位数的多少;
D. 总体单位数的多少 3.是非标志不存在变异时,意味着:( B ,C )
A. 各标志值遇到同样的成数;
B. 所有单位都只具有某种属性
C. 所计算的方差为0;
D. 所计算的方差为0.25
4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的指标有( A ,C )
A.方差
B.算术平均数
C.标准差
D.全距
二、判断题
1.甲乙两地,汽车去程时速20公里,回程时速30公里,其平均速度为25公里。
[答]错。
本题应采用调和平均法计算平均速度。
2.权数起作用的前提是各组的变量必须互有差异。
[答]对。
3.变量同减某个数再同除于另一数然后求其方差,其方差等于原方差乘于除数的平方。
[答]对。
4.与平均数相比,中位数比较不受极端值的影响。
[答]对。
三、计算题
1.甲乙两企业生产三种产品的单位成本和总成本资料如下表,试比较哪个企业的平均成本高,并分析其原因。
[解]
甲企业的平均成本210030001500660019.4118210030001500340
152030
++=
==++
乙企业的平均成本
3255150015006255
18.2895 325515001500342
152030
++
===
++
由上面的计算得知,甲企业的平均成本高于乙企业。
因为乙企业单位成本低的A产品生产的数量多,占总成本一半以上,即成本低的产品相对权数大,而甲企业生产单位成本低的A产品数量少,仅占总成本的31.8%(=2100/6600)。
由于权数的作用,乙企业的平均成本低于甲企业。
2.甲、乙两市场农产品价格及成交量资料如下表,试比较哪个市场的平均价格高,并分析其原因。
[解]
甲市场的平均价格
1.2
2.8 1.5 5.5
1.375 1.2
2.8 1.54
1.2 1.4 1.5
++
===
++
乙市场的平均价格
1.22 1.41 1.51 5.3
1.325
44
⨯+⨯+⨯
===
由上面的计算得知,甲市场农产品的平均价格高高于乙市场。
因为价格低的甲产品在甲市场成交额少,仅占21.8%(=1.2/5.5);而在乙市场的成交额大,占45.3%(=2.4/5.3),由于权数的作用,甲市场的平均价格高于乙市场。
3.某企业工人平均月工资为1440元,月收入少于1280元的占一半,试估计众数,并对该企业工人工资的分布情况做一简要说明。
[解] 由题中可知,企业工人月工资的中位数=1280
所以众数≈1440-3×(1440-1280)=960
所以众数<中位数<平均数,则该企业的月工资分布为右(正)偏,说明该企业工人的月工资分布中出现极大值,即出现有人拿到高额的工资,导致月工资分布呈右偏。
4.某城市对3000户居民户均月消费支出进行调查,得到下表资料。
要求:
(1)计算居民户总平均月支出;
(2)计算居民户月均支出标准差和变异系数; (3)计算居民月均支出中位数和众数;
(4)分析平均数、中位数和众数之间的数量联系,并阐明分布的特征。
[解](1)居民总平均月支出
525
01.0105002.095004.085006.07501
.065035.05502.045015.035006.025001.0150=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=
(2)居民月均支出标准差
()()()()7492
.93888125052510505253505252505251502222≈=-++-+-+-Λ
(3)居民户数数列向上累计频数为2310,占总户数一半以上,中位数处于在这一组,即月均支出数列500~600中。
用下限公式计算:
8571
.5228571.225001001050
1260
15005002
1=+≈⨯-+
=⨯-+
=-∑e e
e e M M M M e d
f S f
L M
用上限公式计算:
8571
.5221429.776001001050
690
15006002
1=-≈⨯--
=⨯--
=+∑e e
e e M M M M e d
f S f
U M
频数最高的(户数最多)组就是众数所在之组,众数应处于居民月均支出分组500~600这一组,用下限公式计算:
()()
5
.53710030010506001050600
1050500)
()(111
=⨯-+--+
=⨯-+--+=+--o
o o o o o o o M M M M M M M M o d f f f f f f L M
用上限公式计算:
()()
5
.53710030010506001050300
1050600)
()(111
=⨯-+---
=⨯-+---=+-+o
o o o o o o o M M M M M M M M o d f f f f f f U M
5.某生产班组11个工人日生产零件数为:15,17,19,20,22,22,23,23,25,26,
30。
要求:(1)计算平均数和方差;(2)按照15~19、20~24、24以上分成三组,计算组内方差和组间方差;(3)验证总方差等于组间方差与组内方差平均数之和。
[解](1)总平均数2211
30
1715=+++=
Λx ,
总方差()()()11
178
11
2230221722152
222
=-++-+-=
Λσ (2)组一(15~19):15,17,19 ;171=x 组内方差:3
8
2
1=
σ 组二(20~24):20,22,22,23,23 ;222=x ; 组内方差:5
6
2
2=
σ 组三:(24以上):25,26,30 ;273=x ; 组内方差:3
14
2
3=σ ∴组间方差
()()()11
150113222752222322172
222
=⨯-+⨯-+⨯-=δ
(3)证明:
总方差2
16.18σ=,组间方差2
13.64δ=
组内方差的平均值11
28113
314
5563382=
⨯+⨯+⨯=i σ 22211
281115011178i σδσ+=+==
∴总方差=组间方差+组内方差的平均值。
原命题得证。
6.某管理局下属8家企业的产品销售数据如下表所示:.试比较其产品销售额和销售利
润的离散程度。
[解] 产品销售额的平均数=536.25,标准差=289.2204;
∴其标准差系数5393.025
.5362204
.289≈=
销售利润的平均数=32.5125,标准差=21.6004
∴其标准差系数6644.05125
.326004
.21≈=
根据标准差系数的计算结果,产品销售额的标准差系数较小,说明产品销售额离散程度较小,分布比较均匀。
7.某高校学生参加英语四级考试的优秀率和合格率分别为15%和90%,试计算优秀率和合格率分布的方差和标准差。
[解] 该题属于求0-1分布的方差和标准差 由题意得优秀率P 1=15%,合格率P 2=90% ∴优秀率的方差和标准差
21111(1)0.150.850.12750.3571
P P σσ=-=⨯== ∴合格率的方差和标准差
22222(1)0.90.10.09
0.3
P P σσ=-=⨯==
8.某粮食作物的产量和播种面积资料如下,试测定其偏度和峰度。
[解]
2.7200
1440
==
=
∑∑f
xf x (百斤)
,2288.151.1200302===σ; 偏度00614.02288
.12008
.2233
3<-=-==σν
α 峰度06143.033857.2320030220094.10873244<-=-=-⎪⎭
⎫
⎝⎛=-=σν
β
负偏;低峰态。