统计学数据的概括性度量
【统计学】4.数据的概括性度量
【统计学】4.数据的概括性度量【统计学】4.数据的概括性度量4.1 集中趋势的度量4.2 离散程度的度量4.3 偏态与峰态的度量学习⽬标1.集中趋势各测度值的计算⽅法2.集中趋势各测度值的特点及应⽤场合3.离散程度各测度值的计算⽅法4.离散程度各测度值的特点及应⽤场合5.偏态与峰态的测度⽅法6.⽤excel 计算描述统计量并进⾏统计4.1 集中趋势的度量集中趋势(central tendency )1.⼀组数据向其中⼼值靠拢的倾向和程度,反映了⼀组数据中⼼点位置所在2.测度集中趋势就是寻找数据⽔平的代表值或中⼼值3.不同类型的数据不同的集中趋势测度值4.低层次数据的测度值适⽤于⾼层次的测量数据,但⾼层次的数据的测度值并不适⽤于低层次的测量数据4.1.1 分类数据:众数众数(mode )1.⼀组数据中出现次数最多的变量值2.⼀般仅适合数据量较多时使⽤3.不受极端值得影响4.⼀组数据可能没有众数或有⼏个众数(众数可能不唯⼀也可能不存在)5.主要⽤于分类数据(分类数据只对应分类的频数),也可⽤于顺序数据和数值型数据4.1.2 顺序数据:中位数和分位数中位数(median )1.⼀组数据排序后处于中间位置上的值2.中位数不受极端值的影响3.中位数主要⽤于顺序数据,也可⽤于数值型数据,但不适⽤于分类数据中位数(位置和数值的确定)排序位置确定n +12数值确定M e =x (n +12),n 为奇数12[x (n2)+x (n2+1)],n 为偶数因此中位数不⼀定是原数据中的某个变量值四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.计算公式Q L 位置=n4,Q U 位置=3n4,4.如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按⽐例分摊位置两侧数值的差值(加权平均数概念){{4.1.3 数值型数据:平均数平均数(mean )1.也称为均值2.集中趋势的最常⽤测度值3.⼀组数据的均衡点所在4.体现了数据的必然性5.易受极端值的影响6.有简单平均数和加权平均数之分7.根据总体数据计算,称为平均数,即为µ,根据样本数据计算的,称为样本平均数,即为x 简单平均数(算数平均数)设⼀组数据为:x 1,x 2,...x n (总体数据x N )样本平均数¯x =x 1+x 2+...+x n n =∑n i =1x i n 总体平均数µ=x 1+x 2+...+x N N =∑Ni =1x iN加权平均数(Weighted mean )设各组的组中值为:M 1,M 2,...,M k 相应的频数为:f 1,f 2,...f k 样本加权平均¯x =M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑k i =1M i f in总体加权平均µ=M 1f 1+M 2f 2+...M k f kf 1+f 2+...+f k=∑⼏何平均数(geometric mean )1. n 个变量值乘积的n 次⽅根2. 适⽤于对⽐率数据的平均3. 主要⽤于计算平均增长率4. 计算公式为G =nx 1×x 2×...×x n =nn∏i =1xi4.1.4众数、中位数和平均数的⽐较1. 众数不受极端值影响具有不唯⼀性数据量较⼤时众数才有意义数据分布偏斜程度较⼤且有明显峰值时应⽤2. 中位数不受极端值影响数据分布偏斜程度较⼤时应⽤3. 平均数利⽤了全部数据信息,数学性质优良易受极端值影响数据对称分布或接近对称分布时应⽤4.2 离散程度的度量离中趋势1.数据分布的⼀个重要特征2.反映各变量值远离其中⼼值的程度(离散程度)3.从另⼀个侧⾯说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值4.2.1 分类数据:异众⽐率异众⽐率(variation ratio )1. 对分类数据离散程度的测度2. ⾮众数组的频数占总频数的⽐例3. 计算公式v r =∑f i −f m ∑f i=1−f m∑f i4.⽤于衡量众数是否具有代表性4.2.2 顺序数据:四分位差四分位差(quartile deviation )1. 对顺序数据离散程度的测度2. 也称为内距或四分间距3. 上四分位数与下四分位数之差Q d =Q U −Q L4. 反映了中间50%数据的离散程度5. 不受极端值影响√√6. ⽤于衡量中位数是否具有代表性4.2.3 数值型数据:⽅差和标准差极差(range)1. ⼀组数值型数据的最⼤值和最⼩值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布,数据利⽤率低5. 计算公式为R=max(x i)−min(x i)标准差(mean deviation)1. 各变量值与其平均数离差绝对值的平均数2. 能全⾯反映⼀组数据的离散程度3. 数学性质差,实际应⽤较少4. 计算公式未分组数据M d=∑n i=1|x i−¯x|n组距分组数据Md=∑k i=1|M i−¯x|fin⽅差和标准差(variance and standard deviation)1. 各变量与其平均数离差平⽅的平均数2. 数据离散程度的最常⽤测度值3. 反映了各变量与均值的平均差异4. 根据总体数据计算的,称为总体⽅差(标准差)σ2(σ)根据样本数据计算的,称为样本⽅差(标准差)s2(s)⽅差的计算公式未分组数据s2=∑n i=1(x i−¯x)2n−1组距分组数据s2=∑k i=1(M i−¯x)2fin−1标准差的计算公式未分组数据s=∑n i=1(x i−¯x)2n−1组距分组数据s=∑k i=1(M i−¯x)2fin−1为什么是除以n-1⽽不是n?⾃由度(degree of freedom)1. ⾃由度是指数据个数与附加给独⽴观测值的约束或限制的个数之差2. 从字⾯涵义看,⾃由度是指⼀组数据中可以⾃由取值的个数3. 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以⾃由取值,其中必有⼀个数据不能⾃由取值。
统计学第4章学习指导
第4章(数据的概括性度量)学习指导数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
掌握计算、特点及其应用场合。
主要内容学习要点2.1 集中趋势的度量众数▶概念:众数。
▶众数的特点。
中位数和分位数▶概念:中位数,四分位数。
▶中位数和四分位数的特点。
▶中位数和四分位数的计算。
平均数▶概念:平均数,简单平均数,加权平均数,调和平均数,几何平均数。
▶简单平均数和加权平均数的计算。
▶用Excel中的统计函数计算平均数。
▶几何平均数的计算和应用场合。
众数、中位数和平均数的比较▶众数、中位数和平均数在分布上的关系。
▶众数、中位数和平均数的特点及应用场合。
异众比率▶概念:异众比率异众比率的计算和应用场合。
2.2离散程度的度量四分位差(内距)概念:四分位差。
四分位差的计算。
用Excel中的统计函数计算四分位差。
方差和标准差概念:极差,平均差,方差,标准差。
样本方差和标准差的计算。
用Excel计算标准差。
离散系数概念:离散系数。
离散系数的计算。
离散系数的用途。
2.3偏态与峰态的度量偏态及其测度概念:偏态,偏态系数。
用Excel计算偏态系数。
偏态系数数值的意义。
峰态及其测度概念:峰态,峰态系数。
用Excel计算峰态系数。
峰态系数数值的意义。
Excel统计函数的应用。
一)判断题1,各变量值与其平均数的离差之和为最小值。
( )2.当各组的变量值所出现的频率相等时,加权算术平均数中的权数就失去作用,因而,加权算术平均数也就等于简单算术平均数( )3.比较两总体的平均数的代表性,离散系数较小的总体,平均数代表性亦小。
( )4,平均数与次数和的乘积等于各变量值与次数乘积的和。
( )5.若两总体的平均数不同,而标准差相同,则离散系数也相同。
( )6.并非任意一个变量数列都可以计算其算术平均数、中位数和众数。
统计学各章计算题公式及解题方法
统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:;上限公式:,其中,L为众数所在组下限,U为众数所在组上限,为众数所在组次数与前一组次数之差,为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为;组距分组数据为3.未分组数据中位数计算公式:4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组-对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:;上限公式:,其中,为中位数所在组的频数,为中位数所在组前一组的累积频数,为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:;组距分组数据:7.简单均值:8.加权均值:,其中,为各组组中值统计学各章计算题公式及解题方法9.几何均值(用于计算平均发展速度):10.四分位差(用于衡量中位数的代表性):11.异众比率(用于衡量众数的代表性):12.极差:未分组数据:;组距分组数据:13.平均差(离散程度):未分组数据:;组距分组数据:14.总体方差:未分组数据:;分组数据:15.总体标准差:未分组数据:;分组数据:16.样本方差:未分组数据:;分组数据:17.样本标准差:未分组数据:;分组数据:18.标准分数:19.离散系数:第七章参数估计1.的估计值:置信水平α90%0.1 0。
05 1.65495% 0。
05 0.025 1.9699% 0.01 0。
005 2。
58统计学各章计算题公式及解题方法2.不同情况下总体均值的区间估计:总体分布样本量σ已知σ未知大样本(n≥30)正态分布小样本(n<30)非正态分布大样本(n≥30)其中,查p448 ,查找时需查n—1的数值3.大样本总体比例的区间估计:4.总体方差在置信水平下的置信区间为:5.估计总体均值的样本量:,其中,E为估计误差6.重复抽样或无限总体抽样条件下的样本量:,其中π为总体比例第八章假设检验1.总体均值的检验(已知或未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设双侧检验左侧检验右侧检验假设形式已知统计量未知拒绝域值决策,拒绝2.总体均值检验(未知,小样本,总体正态分布)假设双侧检验左侧检验右侧检验统计学各章计算题公式及解题方法假设形式已知统计量未知拒绝域值决策,拒绝注:已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中为假设的总体比例)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝4.总体方差的检验(检验)假设双侧检验左侧检验右侧检验假设形式统计量拒绝域值决策,拒绝5.统计量的参考数值0.1 0。
贾俊平《统计学》考研真题(含复试)与典型习题详解(数据的概括性度量)【圣才出品】
2.统计学期中考试非常简单,为了评估简单程度,教师记录了 9 名学生交上考试试卷
的时间如下(分钟)
33 29
45 60 42 19 52 38 36[东北财经大学
2012 研]
(1)这些数据的极差为( )。
A.3.00
B.-3.00
C.41.00
D.-41.00
【答案】C
【解析】数据按从小到大排序结果如下:
A.0.38
B.0.40
C.0.54
D.2.48
【答案】A
【解析】离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其
计算公式为: vs
s x
。得到 vs
22.85 0.38 。 12.45
9.已知某工厂生产的某零件的平均厚度是 2 厘米,标准差是 0.25 厘米。如果已知该 厂生产的零件厚度为正态分布,可以判断厚度在 1.5 厘米到 2.5 厘米之间的零件大约占 ( )。[浙江工商大学 2011 研]
圣才电子书 十万种考研考证电子书、题库视频学习平台
5.随机变量 X 的方差为 2,随机变量 Y=2X,那么 y 的方差是( )。[中央财经大学 2011 研]
A.1 B.2 C.4 D.8 【答案】D
【解析】Var(cX ) c2Var(X ) 22 2 8
7.设 X1,X2,…,X n 为随机样本,则哪个统计量能较好地反映样本值的分散程度( )。
[中山大学 2012 研] A.样本平均 B.样本中位数 C.样子书
【答案】C
十万种考研考证电子书、题库视频学习平台
【解析】集中趋势是指 一 组 数 据 向 某 一 中 心 值 靠 拢 的 程 度 ,它 反 映 了 一 组 数 据 中 心
统计学第四章习题答案 贾俊平
第四章 统计数据的概括性度量4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求:(1)计算汽车销售量的众数、中位数与平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:Statistics汽车销售数量 10 Missing0 Mean 9、60 Median 10、00Mode10 Std 、 Deviation 4、169 Percentiles25 6、25 50 10、00 75单位:周岁19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 41 20 3117 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布与累计频数分布:网络用户的年龄(2)根据定义公式计算四分位数。
Q1位置=25/4=6、25,因此Q1=19,Q3位置=3×25/4=18、75,因此Q3=27,或者,由于25与27都只有一个,因此Q3也可等于25+0、75×2=26、5。
(3)计算平均数与标准差;Mean=24、00;Std、Deviation=6、652(4)计算偏态系数与峰态系数:Skewness=1、080;Kurtosis=0、773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6、652、呈右偏分布。
如需瞧清楚分布形态,需要进行分组。
1、确定组数:()lg 25lg() 1.398111 5.64lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4、3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图::一种就是所有颐客都进入一个等待队列:另—种就是顾客在三千业务窗口处列队3排等待。
统计学(名词解释及简答)
统计学名词解释统计量:用来描述样本特征的概括性数字度量简单随机抽样:指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。
系统抽样:根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式众数:是一组数据中出现次数最多的变量值中位数:是一组数据排序后处于中间位置上的变量值平均数:也称均值,是一组数据相加后除以数据的个数得到的结果标准差:离均差平方和平均后的方根区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减抽样误差得到。
假设检验:利用样本信息,对提出的命题进行检验的一套程序和方法。
双侧假设检验:当统计量U的观测值的绝对值大于临界值Uα/2即|u0|>Uα/2时,则拒绝原假设H0,此时假设检验的拒绝域在统计量分布的两侧尾部,则称这种假设检验为双侧假设检验。
相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
回归方程:描述因变量y的期望值如何依赖于自变量x的方程。
估计的回归方程:根据估计数据求出的回归方程的估计。
多重共线性:是指线性回归模型中的两个或两个以上的自变量彼此相关。
时间序列:是同一现象在不同时间上的相继观察值排列而成的序列。
趋势:是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势。
季节变动(季节性):时间序列在一年内重复出现的周期性波动。
指数:广义的讲,任何两个数值对比形成的相对数都可以称作指数,狭义的讲,指数是用于测定多个项目在不同场合下综合变动的一种相对数。
消费者价格指数(CPI):反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。
简答一、概率抽样与非概率抽样比较答:非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。
统计学第五版(贾俊平)课后习题答案
300~ 350 400
30 -13520652.3 1036628411.8
400~ 450 42 500
533326.9 12442517.1
500~ 550 600
18
33765928.7 4164351991.6
600以上 650 11 122527587.627364086138.8 合计 — 120 38534964.451087441648.4
7.8已知:总体服从正态分布,但未知,为小样本,,。 根据样本数据计算得:,。 总体均值的95%的置信区间为: ,即(7.11,12.89)。
7.9已知:总体服从正态分布,但未知,为小样本,,。 根据样本数据计算得:,。 从家里到单位平均距离的95%的置信区间为: ,即(7.18,11.57)。
7.10(1)已知: ,,,。 由于为大样本,所以零件平均长度的95%的置信区间为: ,即(148.87,150.13)。 (2)在上面的估计中,使用了统计中的中心极限定理。该定理表明: 从均值为、方差为的总体中,抽取容量为的随机样本,当充分大时(通 常要求),样本均值的抽样分布近似服从均值为、方差为的正态分布。
7.13已知:总体服从正态分布,但未知,为小样本,,。 根据样本数据计算得:,。 网络公司员工平均每周加班时间的90%的置信区间为: ,即(10.36,16.76)。
7.14(1)已知:,,,。 总体总比例的99%的置信区间为: ,即(0.32,0.70); (2)已知:,,,。 总体总比例的95%的置信区间为: ,即(0.78,0.86); (3)已知:,,,。 总体总比例的90%的置信区间为: ,即(0.46,0.50)。
500~600 550 18 9900
600以上 650 11 7150
贾俊平《统计学》(第7版)考研真题与典型题详解-第4章 数据的概括性度量【圣才出品】
第4章数据的概括性度量一、单项选择题1.一组数据的峰度系数为3.5,则该数据的统计分布应具有的特征是()。
[中央财经大学2018研]A.扁平分布B.尖峰分布C.左偏分布D.右偏分布【答案】B【解析】峰度系数用来度量数据在中心的聚集程度。
在正态分布情况下,峰度系数值是3。
大于3的峰度系数说明观察量更集中,有比正态分布更短的尾部;小于3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。
2.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为()。
[中央财经大学2015研] A.425元B.430元C.435元D.440元【答案】D【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。
3.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为()。
[华中农业大学2015研] A.80B.85C.81.3D.90【答案】B【解析】众数是一组数据中出现次数最多的变量值。
题中,85分出现次数最多,故成绩的众数为85分。
4.一组样本的变异系数(CV)等于10,样本均值为5,则样本方差为()。
[厦门大学2014研]A.2B.4C.0.5D.2500【答案】D【解析】变异系数是一组数据的标准差与其相应的平均数之比,因而样本标准差=样本均值×变异系数=5×10=50,样本方差=50×50=2500。
5.现抽取了10个同学,每个同学的月生活费数据排序后为:660,750,780,850,960,1080,1250,1500,1630,2000。
则中位数的位置为()。
[重庆大学2013研]A.5.5B.5C.4D.6【答案】A【解析】中位数是将样本排序后处于中间位置的数据,总共有10个样本,因此中位数的位次=(1+10)/2=5.5。
《统计学考研题库》【章节题库+名校考研真题+模拟试题】数据的概括性度量【圣才出品】
A.动态相对数 B.平均差 C.标准差 D.标准差系数 【答案】D 【解析】标准差系数是反映变量变动程度的相对指标。其计算公式为:标准差系数=样 本标准差/平均数,消除了平均数不相等的影响。
5.右偏分布的特征是( )。[华东师范大学 2013 研]
2.15 位同学的某门课程考试成绩中,70 分出现 3 次,80 分出现 4 次,85 分出现 6 次, 90 分出现 2 次,则他们成绩的众数为( )。[华中农业大学 2015 研]
A.80 B.85 C.81.3 D.90 【答案】B 【解析】众数是一组数据中出现次数最多的变量值。题中,85 分出现次数最多,故成 电子书 十万种考研考证电子书、题库视频学习平台
3.当变量分布呈右偏分布时,( )。[浙江工商大学 2014 研] A.应该用算术平均数来代表变量值的一般水平 B.众数比算术平均数更适合代表平均水平 C.较小变量值的频数比较大 D.较小变量值的频数比较小 【答案】C 【解析】AB 两项,在偏态分布情况下,由于变量值中出现特别大或特别小的极端数值 使其分布曲线在图形上呈现出不对称的情形。当有极大变量值出现时,为右偏分布,此时算 术平均数易受极端值影响,而众数较平均水平偏小,因此二者均不适用于代表变量值的一般 水平;CD 两项,因为在右偏分布情况下,变量的平均数接近于变量值较大的一端,众数接 近于变量值较小的一端,因此较小变量值的频数比较大。
2 / 42
圣才电子书
A.偏态系数大于 0
十万种考研考证电子书、题库视频学习平台
B.偏态系数小于 0
C.偏态系数等于 0
D.只能从直方图上判断,不能用统计量进行描述
统计学第4章数据的概括性度量
https://
REPORTING
• 引言 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据分布形态的图形表示 • Excel在概括性度量中的应用
目录
PART 01
引言
REPORTING
WENKU DESIGN
概括性度量的定义
方差和标准差能够全面反映数据的离散程度,且计算相对简单。其中标
准差具有与原始数据相同的量纲,更便于比较不同数据集之间的离散程
度。
PART 04
偏态与峰态的度量
REPORTING
WENKU DESIGN
偏态及其度量
偏态定义
偏态是指数据分布的不对称性。 在统计学中,偏态通常通过计算 偏态系数来衡量。
特点
算术平均数对极端值敏感,当数 据集中存在极端异常值时,算术
平均数可能会受到较大影响。
中位数
定义
计算公式
中位数是一组数据按照大小顺序排列后, 位于中间位置的数值,用于反映数据集中 趋势的一个统计指标。
中位数 = 第(n+1)/2项数据(n为数据个数 )适用Fra bibliotek围特点
适用于数值型数据,且数据分布呈偏态或 存在极端异常值的情况。
偏态与峰态度量
包括偏态系数和峰态系数 等,用于描述数据分布的 形态特点。
PART 02
集中趋势的度量
REPORTING
WENKU DESIGN
算术平均数
定义
算术平均数是一组数据的总和 除以数据的个数,用于反映数 据集中趋势的一个统计指标。
计算公式
算术平均数 = 数据总和 / 数据 个数
适用范围
适用于数值型数据,且数据之 间没有极端异常值的情况。
《统计学基础》(第7版)第3章 ——数据的概括性测度(J7)
90
× 30 − 1 = 26.1
100
因此,第90个百分位数在第27个值(92)和第28个值(96)之间0.1
的位置上,因此5% = 92 + 0.1 × 96 − 92 = 92.4。
90% 位置 =
统计学基础(第7版)—贾俊平
4-8
第3章
数据的概括性度量
3.1 集中趋势的度量
众数
众数——一组数据中出现次
−1
30 − 1
2
=
2023/4/3
σ=1 − ҧ 2
=
−1
统计学基础(第7版)—贾俊平
3585
= 11.1185
30 − 1
4 - 15
第3章
数据的概括性度量
3.2 离散程度的度量
离散系数——例题分析
离散系数——标准差与其相应的
【 例3-11】 沿用例2-13。计算各月份空气质量指数(AQI)的
=
=
= 9.4
30
统计学基础(第7版)—贾俊平
4 - 13
第3章
数据的概括性度量
3.2 离散程度的度量
方差和标准差
方差——各变量
值与均值的平均
差异
标准差——上四
分位数与下四分
位数之差
原始数据
分组数据
样本方差为 2
样本方差为 2
σ
=1 − ҧ
2
=
−1
样本标准差s
度量偏度与峰度的统计量
各统计量的的特点及应用场合
用Excel计算描述统计量
2023/4/3
统计学基础(第7版)—贾俊平
4-2
第3章
(完整版)统计学贾俊平考研知识点总结
统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
统计学 分析题
问:管理者的层次评分是否对评分有显著影响? 管理者的层次评分是否对评分有显著影响?
H 0 : µ ≥ 1000 H1 : µ < 1000
决策:P= 0.022< α = 0.05,拒 绝原假设,接受备选假设。 结论:该批灯泡的平均寿命 低于合同规定。
例:不拒绝原假设时
Data
某批发商欲从厂家购进 一批灯泡,合同规定灯 泡平均使用寿命不低于 1000小时,已知标准差 为200小时。现随机抽取 100支灯泡,测得平均寿 命为980小时。问该批灯 泡的平均寿命是否低于 合同规定?
总体比例的假设检验总体均值的检验?总体标准差已知时用正态分布确定样本发生概率100nx??应用phstat?总体标准差已知时用t分布确定样本发生概率用样本标准差s代替10nn?10??ntnsx?例
统计学原理
分析题
第4章 数据的概括性度量
分析要点:
1. 离散系数 2. 经验法则 3. 标准化分数
例1
结论:错误在190~210之间的概率为38.29%
第6章 统计量及其抽样分布
要点:
1. 确定样本均值的分布并计算相关概率 2. 确定样本比例的分布并计算相关概率
例1:样本均值的分布
作为市场营销研究的一部分,Food King超市连 锁店随机抽取150名顾客。顾客的平均消费为 31.84美元。取样之前,该公司假定顾客消费的平 均水平为$ 30.00,标准差为8.00美元。如果这些 假定是正确的,那么抽取的顾客平均消费在31.84 美元以上的概率是多少?这个概率对于该公司先 前的假定意味着什么?
Normal Probabilities Common Data Mean Standard Deviation Probability for X <= X Value Z Value P(X<=230) 230 1.5 0.9331928 200 20
贾俊平《统计学》章节题库(数据的概括性度量)详解【圣才出品】
第4章数据的概括性度量一、单项选择题1.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为()。
[中央财经大学2015研] A.425元B.430元C.435元D.440元【答案】D【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。
2.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为()。
[华中农业大学2015研] A.80B.85C.81.3D.90【答案】B【解析】众数是一组数据中出现次数最多的变量值。
题中,85分出现次数最多,故成绩的众数为85分。
3.一组样本的变异系数(CV)等于10,样本均值为5,则样本方差为()。
[厦门大学2014研]A.2B.4C.0.5D.2500【答案】D【解析】变异系数是一组数据的标准差与其相应的平均数之比,因而样本标准差=样本均值×变异系数=5×10=50,样本方差=50×50=2500。
4.现抽取了10个同学,每个同学的月生活费数据排序后为:660,750,780,850,960,1080,1250,1500,1630,2000。
则中位数的位置为()。
[重庆大学2013研]A.5.5B.5C.4D.6【答案】A【解析】中位数是将样本排序后处于中间位置的数据,总共有10个样本,因此1 5.5102+==中位数的位次5.哪种频数分布状态下平均数、众数和中位数是相等的?( )[东北财经大学2011研]A .对称的钟形分布B .左偏的钟形分布C .右偏的钟形分布D .U 形分布【答案】A【解析】在频数对称且单峰分布的状态下,平均数、众数、中位数相等。
6.统计学期中考试非常简单,为了评估简单程度,教师记录了9名学生交上考试试卷的时间如下(分钟)[东北财经大学2012研]33,29,45,60,42,19,52,38,36(1)这些数据的极差为( )。
统计学贾俊平第4章 数据的概括性度量
均值(续)
事实上,各个观察值与平均数差的总和为0
证明
( xi x ) 0
i 1
n
x x x n x
x x n
i 1 i i i
n
xi n x
All rights reserved
30
均值(续)
n
各个观察值与平均数差的平方和为最小
员工每人加薪5000元
Income 3 4 5 3 4 3.8
33
Name A B C D E Average
Raise 0.5 0.5 0.5 0.5 0.5
New income 3.5 4.5 5.5 3.5 4.5 4.3
All rights reserved
i
组中值x i 3.5 4.5 5.5 6.5
x i× f i 119 58.5 132 208 517.5
xf x
i
n
517 .5 103
28
All rights reserved
均值(续)
均值的性质
均值是要找到一平衡点
均值 Min(观察值与该点的距离 )
29
All rights reserved
i i
fi 34 13 24 32 103
xi×f i 102 52 120 192 466
n
26
n
i
f x
i
i
i
f x x n
i
All rights reserved
均值(续)
加权(weighted)问题
27
All rights reserved
《统计学》(贾俊平第七版)课后题及答案-统计学 贾俊平第七版
第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
应用统计硕士(MAS)考试过关必做习题集(含名校考研真题详解)统计学(第3章 数据的概括性度量)【圣
6.以下反映集中趋势的测度指标中,不受极端值影响的是( )。[中央财经大学 2014 研] A.均值 B.中位数 C.众数 D.中位数和众数 【答案】D 【解析】中位数是一组数据中间位置上的代表值,众数是一组数据分布的峰值,二者均不受 极端值的影响。均值是所有数据的加和然后除以样本量,受极端值的影响。
8.移动公司在对人们更换手机的频率的调查中发现,有 40%的人每半年更换一次新手机, 20%的人每 1 年更换一次,30%的人每 2 年更换一次,10%的人每 3 年更换一次,那么人 们更换新手机时长的中位数为( )年。[中山大学 2013 研] A.0.5 B.1 C.1.5 D.2 【答案】B 【解析】中位数是指一组数据排序后处于中间位置上的变量值。本题,按人们更换新手机时 长进行排序后,很容易得出位于中间位置上,即 50%的位置上的变量值为 1,因此,人们 更换新手机时长的中位数为 1 年。
B.
3
C.10010% 110 20% 120 70%
100 /10% 110 / 20% 120 / 70%
D.
10 20 70
【答案】C
1 / 56
圣才电子书 十万种考研考证电子书、题库视频学习平台
【解析】第一、二、三批产品所占的比重分别为 10%、20%和 30%,根据加权平均法计算 公式可知 C 项正确。
统计学第五版课后答案
第四章统计数据的概括性度量4。
1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 710 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数.(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:Statistics10Missing0Mean9.60Median10.00Mode10Std. Deviation 4.169Percentiles256。
255010。
007512。
50单位:周岁19152925242321382218302019191623272234244120311723要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄(2)根据定义公式计算四分位数.Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0。
75×2=26。
5。
(3)计算平均数和标准差;Mean=24。
00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1。
080;Kurtosis=0。
773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
1、确定组数:()lg 25lg() 1.398111 5.64lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 — 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图:一种是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客.得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
甲、乙两个班的统计学成绩
序成 序 成 序成 序成序 成 号绩 号 绩 号绩 号绩号 绩
1 73 10 81 19 88 28 80 37 75 2 77 11 79 20 90 29 85 38 87 3 78 12 75 21 82 30 74 39 51 4 61 13 71 22 95 31 74 40 74 5 73 14 89 23 76 32 85 41 96 6 92 15 84 24 89 33 74 42 77 7 78 16 69 25 95 34 82 43 91 8 81 17 86 26 86 35 82 44 82 9 79 18 76 27 59 36 82 45 72
25% 25% 25% 25%
QL
QM
QU
1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值 3.不受极端值的影响 4.主要用于定序数据,也可用于数值型数据,但不 能用于定类数据
四分位数(位置的确定)
未分组数据:
N+1 下四分位数(QL)位置 = 4
3(N+1) 上四分位数(QU)位置 = 4
序 成序 成 序 成 序成序成 号 绩号 绩 号 绩 号绩号绩
1 86 9 46 17 92 25 69 33 75 2 64 10 79 18 90 26 89 34 96 3 83 11 77 19 86 27 79 35 79 4 74 12 73 20 98 28 74 36 88 5 58 13 85 21 64 29 85 37 94 6 93 14 81 22 92 30 67 38 71 7 71 15 64 23 91 31 84 39 55 8 69 16 75 24 87 32 82 40 95
7+1 =
4
=2
3(N+1) 3(7+1) QU位置 = 4 = 4 = 6
QL= 23
QU = 30
原始数据: 排 序: 位 置:
23 21 30 28 25 26
21 23 25 26 28 30
12 3 456
QL位置 =
N+1 4=
6+1 4
= 1.75
3(N+1) 3(6+1)
QU位置 =
算术平均数又称平均值,是用一组数据中所有值之和 除以该组数据的个数。
(2)基本公式
算术平均数
总体标志总量 总体单位总量
平均数计算公式
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X
X1 X2
XN
Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
相应的频数为: F1 , F2,… ,FK
注意:有些数据可能没有众数或有几个众数
无众数 原始数据:
众数
(众数的不唯一性)
10 5 9 12 6 8
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
众数的计算方法
**品质变量的众数——观察次数,出现次数最多
的变量值就是众数。
例如:企业的所有制结构分布、人口的城乡分布。
某车间50名工人日加工零件数分组表
按零件数分组 频数(人) 累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
M0
&120
(14
14 8 8) (14
10)
5
123(个)
从累计频数看, QL在“不满意” 这一组别中; QU在“一般”这一 组别中。因此
QL =不满意 QU =一般
数值型未分组数据的四分位数
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7
QL位置
= N+1 4
112
0.560
56.0
51
0.255
25..080
8.0
10
0.050
5.0
2
0.010
1.0
合计
200
1
100
解:这里的变量为“广告类 型”,这是个定类变量,不 同类型的广告就是变量值。 我们看到,在所调查的200人 当中,关注商品广告的人数 最多,为112人,占总被调查 人数的56%,因此众数为“ 商品广告”这一类别,即
组距分组数据:
N 下四分位数(QL)位置 = 4
上四分位数(QL)位置 =
3N 4
计算甲城市家庭对住房满意状况评价的四分位数
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:下四分位数(QL)的位置为: QL位置=(300)/4=75 上四分位数(QL)的位置为: QU位置=(3×300)/4=225
加权均值的计算公式为
K
X
X1F1 X 2 F2 X N FN F1 F2 FN
X i Fi
i 1 K
Fi
i 1
简单均值(算例)
原始数据: 10 5 9 13 6 8
N
X
Xi
i 1
X1 X2 X3 X4 X5 X6
N
6
10 5 9 13 6 8 6
请对两个班的成绩进行对比分析,你会从哪几个方面着手?
两班成绩的对比分析
指标
平均
甲
标准误差
班
中位数
成
众数
绩
标准差
的
方差
描 述
峰度
性
偏度
指
最小值
标
最大值
求和
观测数
数值
79.66667 1.378405
80 82 9.246621 85.5 1.31565 -0.70131 51 96 3585 45
指标
平均
乙
标准误差
班
中位数
成
众数
绩 的
标准差
描
方差
述
峰度
性
偏度
指
最小值
标
最大值
求和 观测数
数值
79 1.923872
80 64 12.16763 148.0513 0.037583 -0.62146 46 98 3160 40
学习目的和重难点提示
• 本章学习目的
• 领会数据分布的各种特征:集中趋势、离散趋势、偏 斜程度和峰度。
4.1.2 顺序数据:中位数和分位数
1.中位数me
➢ 集中趋势的测度值之一 ➢ 排序后处于中间位置上的值
50%
50%
Me
➢ 不受极端值的影响
➢ 主要用于定序数据,也可用数值型数据,但不能 用于定类数据
➢ 各变量值与中位数的离差绝对值之和最小,即
n
Xi M e min
i 1
中位数的计算
**数值变量的众数
未分组资料——观察次数,出现次数最多的数据
就是众数。
分组资料
(1)单项式数列——直接观察,次数最多的组的变 量值即为众数。
fi
定类数据的众数
【例】根据表4-1中的数据,计 算众数
表4-1 某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人
口数的众数为3人。
数值型分组数据的众数
1. 众数的值与相邻两组频数的分布有关
2. 相邻两组的频数相等时,众数组的组中值
即为众数
Mo
3. 相邻两组的频数不相等时,众数采用 下列近似公式计算
Mo
该公式假定众数组的频数在众数组内均匀分布
Mo
算例
QU位置=3×50/4=37.5
350 30
QU 125
4 10
5 128.75(个)
4.1.3 数值型数据:均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定
序数据
均值的种类及计算
1.算术平均数** (1)概念
Mo=商品广告
定序数据的众数
【例】根据表4-2中的数据,计算 众数
表4-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市 户数 (户) 百分比 (%)
非常不满意
24
8
不满意
108
36
一般
93
31
满意
45
15
非常满意
30
10
合计
300
100.0
解:这里的数据为定 序数据。变量为“回 答类别”。甲城市中 对住房表示不满意的 户数最多,为108户 ,因此众数为“不满 意”这一类别,即