统计学第三章单变量描述统计
统计学-单变量描述性统计
统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
统计学第三章名词解释
3.1、什么是统计整理?统计整理的程序有哪些?统计整理是根据统计研究任务的要求,对统计调查阶段所取得的各项原始资料进行分类、汇总,使之系统化、条理化、科学化,得出能反映现象总体特征的综合资料的各种过程。
统计资料整理既是统计调查阶段的继续和深入,又是统计分析阶段的基础和前提,在统计工作中起着承前启后的作用。
(1)根据研究目的设计整理汇总方案。
(2)对统计调查资料进行审核、订正。
(3)进行统计分组和汇总。
(4)将汇总整理的资料编制成统计表(5)统计资料的积累、保管和公布。
3.2 统计资料审核哪些内容?统计调查资料的审查检查资料的完整性和及时性应以统计制度和调查方案为准,核实所有被调查单位的资料是否齐全,是否按规定的份数、项目和时间上报。
检查资料的准确性主要是核实调查材料的口径、计算方法、包括的范围、计量单位等是否符合要求。
检查的方法有逻辑检查和计算检查。
逻辑检查是从合理性方面去检查资料的正确性。
计算检查是通过计算,检查在计算方法、计量单位、计算结果、小计、合计、总计间的各项是否正确等等3.3、什么是统计分组?它有什么作用?统计分组根据统计研究的目的和客观现象的内在特点,按某个标志或几个标志把被研究的总体划分为若干个不同性质的组的一种统计方法。
统计分组的对象是总体。
统计分组标志可以是品质标志,也以是数量标志。
(1)划分社会经济现象的类型统计的研究对象是错综复杂的,具有各种不同的类型。
通过统计分组,可以从数量方面说明不同类型现象的数量特征,表明不同类型现象的本质和发展规律。
(2)反映现象的内部结构及其比例关系将所研究现象按某一标志进行分组,计算出各组在总体中的比重,用以说明总体内部的构成。
同时将总体各组之间进行对比,就可以反映各组之间的比例关系。
(3)分析现象之间的依存关系现象不是孤立的,而是相互依存和相互联系的.利用统计分组分析现象之间的依存关系,首先用影响标志对总体进行分组,然后计算出结果标志的数值,从而分析两个标志的联系程度和方向。
孙允午-统计学第三章
城镇电脑拥有量每百户47.2台。
农村网民对互联网各项功能应用 看网络新闻和使用搜索引擎的比例分别比城镇网民低了15和13个百分点;
但在网络音乐、游戏、影视等娱乐功能上,城乡应用程度相当。
资料来源:2007-9-9《解放日报》
M
e
f
L
2
s
m 1
f
i
3-9
m
中位数的特点
将总体次数一分为二 不受极端数值影响
四分位数
将一次数分布顺序排列并四等分,就形成 3 个 分割点。每一分割点的变量值记为M1、M2、M3 ,分别称其为第一、第二、第三个四分位数。 M1
M2 M3
Me 四分位数的确定
M M M
的位次 1
2
一 算术平均数
X
x
i 1 n
设一组数据为x1,x2,…,xn,则
x
x
1
x
2 n
x
n
i
n
(3 - 2)
设原始数据被分成k组,各组组中值为xi,各组 变量值出现的频数为fi,Σ fi=n,则
x
x f
1 k
x f x f f f f
1
1
2
2
k
k
∑ x f
i 1
例子
• 一定总体范围内粮食总产量 • 工农业总产值 • 企业单位数
分类
变量总值 按反映总体的内容分 单位总数 时期数 按反映的时间状态分 时点数 实物量 按计量单位分 价值量
指某变量观 察值之和 观察值的个数 表示一段时 期累积的总 量
统计学(第三章)
四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。
单变量的统计描述分析社会统计学
特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案
高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案一.判断题1.对于连续变量,根据“排除上限”的原则总结其组限。
对。
所谓“上组限不在内”的原则,是对连续变量分组采用重合组限时,习惯上规定一般只包括本组下限变量值的单位,而当个体的变量值恰为组的上限是时,不包括在本组。
2.统计资料的整理不仅是对原始资料的整理,而且还包括对次级资料的整理。
对。
3.确定组限时,最大组上限必须大于最大变量值,最小组下限必须小于最小变量值。
错,这意味着你也可以在封闭的小组中尝试。
4.对统计总体进行分组是由于总体各单位的“同质性”所决定的。
错,将原始数据按照某种标准化分成不同的组别。
5.对连续变量进行分组时,它们的分组极限可以用“不重叠”的形式表示。
对二.单项选择题a组的中值是550组的下限,B组的中值是550组的下限a.550b.650c.700d.750因为它是一个连续变量,所以变量的值是连续的。
由于最后一组的起始下限大于相邻组的中值,请注意这是一个递减变量序列。
一个组的最小值叫做下限。
所以这里的下限实际上是相邻群的上限。
因此,最后一组的下限=相邻组的上限,因此相邻组的上限也为600。
另一个相邻组的组中值为550,因此可以确定相邻组的组距离为100。
重新使用公式:无上限开放组的中值=下限+相邻组的组距离/2,最后一组的中值为650。
2.对一个总体选择三个标志做复合分组,按各个标志所分的组数分别为3、4、5,则所分的全部组数为(a)a、 60b。
12c。
30天。
六3.某小区居民人均月收入最高为5500元,最低为2500元,据此分为6组,形成等距数列,其组距应为(a)a、 500b。
600摄氏度。
550d。
6504.整理统计数据的主要环节是(c)a.编制统计报表b.审核汇总资料c.审核原始资料d.设计整理方案5.对于一年的收入变量序列,分组为10万元以下、10万-20万元、20万-30万元和30万元以上,则为(c)a、10万元应归入第一组b、20万元应归入第二组c、20万元应归入第三组d、30万元应归入第三组6.组号与组距的关系为(a)a.组数越多,组距越小b.级数越多,组距越大c.组数与组距无关d.组数越少,组距越小三.简答题1.简要说明统计排序的意义和内容统计整理,首先要搞清楚教材当中关于统计整理的内容,通常理解的统计整理包括制作次数分布、或者给出排秩、等级的结果,有些还可能包括对数据的类型的判别、编码和对原始数据的必要转换等.有些人认为描述统计也可以视为统计整理的内容,或者是汇总统计的内容.根据统计整理的内容再来回答其意义.主要是可以在正式的描述统计和推断统计之前,预先了解和掌握数据的大致状况,尤其是其分布和次数特征,以便根据数据的类型选择适当的统计方法(不论是描述统计还是推断统计,很重要的一点是依据数据的类型来选择统计法).有些时候,需要对数据进行必要的转换,也是为了便于后继的统计,如由量表原始数据转换成量表得分,原始数据转换成标准分数,或者转换成可统计的某种指标等.简而言之,数据整理就是服务于后续的统计过程,使原始测量数据满足统计方法的需要,为统计方法的选择提供依据。
《统计学》第三章--统计指标
常住单位是在一国经济领土上具有经济利益中
心的机构单位。
机构单位是国民经济统计的基本经济单位,它 是能以自己的名义拥有资产、发生负债、从事经济 活动并与其它实体进行交易的经济实体。
“非常住单位”——也称为“国外” 。
经济领土是由一国政府控制的地理领土组成。 我国的经济领土—— 包括我国大陆的领地、领海、领空和位于国际水 域而我国具有捕捞和海底开采管辖权的大陆架、我 国住外使馆、领馆用地, 不包括位于我国领土范围内的外国使馆、领馆用 地及国际组织用地。
保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP
每万人口医院病床数
年份
每万人口医院病床数(张/万人)
2001 2002 2003 2004 2007
23.9 23.2 23.4 24.0 26.3
强度相对数的特点
相对数是惟一有单位(且为复名数)的相对数 (有的也用无名数形式);
分子分母一般可以互换,故有正指标与逆指标之 分。
4.40 31.20 27.90 63.10
66.40
10.60
7.90 28.10 26.80 61.20
65.10
33.80 29.50 65.50
69.60
2.60 14.50
1.60 10.20
23.20 28.40
20.60 29.80
74.30 57.10
77.80 60.00
2.比例相对数——比例(结构性的比例)
•货币化程度=用货币支付的商品和劳务总量 / 全部商品和劳务总量
国家和地区
中国 日本 韩国
新加坡
美国 俄罗斯联邦
按三次产业分就业人员构成
第一产业
第二产业
第三章 变量分布特征的描述 《统计学》PPT课件
2.四分位差:四分位差作为变异程度的一种度量,能够克服 异常值的影响。它是第三个四分位数与第一个四分位数的差 值。也就是说,四分位差是中间50%的数据的全距。
Qd QU QL
四分位差弥补了全距容易受极端值影响的缺陷。剔除数据中最小25%和最 大25%的数据,反映了中间50%数据的离散趋势。数值越小,说明中间的 数据越集中;数值越大,说明中间的数据越分散。
x me mo
3.根据经验,在轻微偏态时,不论是左偏还是右偏,众数与算术平均
数的距离约等于中位数与算术平均数距离的3倍,即 mo x 3me -x
右偏分布
M0 Me x
对称分布
左偏分布
x
x Me M0
Me
M0
第二节 离中趋势的描述
所谓离中趋势,就是变量分布中各变量值背离中心值的倾向。 如果说集中趋势体现变量分布的同质性,那么离中趋势就是变 量分布变异性的体现。对离中趋势的描述就是要反映变量分布 中各变量值远离中心值的程度,以反映变量分布的特征。
H 20 3
3
15.83
20 20 20 1 1 1
18 16 14 18 16 14
2.加权调和平均数:当各组的标志总量不相等时,所计算的 调和平均数要以各组的标志总量为权数,其结果即为加权调 和平均数。
H m1 m2 m1 m2 x1 x2
k
mk
mk
mi
i 1
k mi
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
n
5
G n x1 x2 x3 xn 5 95%92%90%85%80% 88.24%
2.加权几何平均数:当计算几何平均数的各变量值出现的次 数不等,即数据经过了统计分组时,则应采用加权几何平均 数。
《管理统计学》焦建玲 第03章 描述性统计分析
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
【例3-1】以下是一个班级60名学生数学期末考试成绩,请编制 组距式变量数列。 90 78 81 64 83 75 78 79 81 82 91 93 95 94 84 64 61 87 70 60 20 65 77 73 78 92 88 73 86 73 64 76 71 67 63 69 70 89 90 83 74 79 76 99 75 38 55 82 93 98 85 78 89 66 71 84 70 68 72 80
第三章 描述性统计分析
3.1 统计数据整理与显示
统计分组
统计分组是根据统计研究的任务的要求和现象总体的内 在特点,按照一定的标志,将统计总体区分为不同类型或 不同性质的若干组成部分。这些组成部分中的每一个部分 就叫做一个分组,通过分组把总体内部不同性质的单位分 开,把性质相同的单位归并在一个组内,说明总体内部各 组之间的相互关系及其特征。
下限公式: 上限公式:
Me L
fi 2 Sm1 h fm
Me U
fi 2 Sm1 h fm
第三章 描述性统计分析
3.1 统计数据整理与显示
【例3-2】某高校随机抽取300名学生的身高样本资料,
并根据研究需求对样本进行分组,数据如表3-4所示,试
计算该校学生身高的中位数。
表3-4 某高校学生身高样本数据
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
组限的具体形式有间断组限和重合组限,开口组限和闭口组限。 例如:企业职工按年龄分组,其 组限可表示为:30岁以下,30~39 岁,40~49岁,50~59岁,60岁以 上。
间断组限是每一组的组限与邻组的组限都是间断设置的。
统计学第三章习题答案
7:30
4
8:00
4
8:30
7
9:00
2
总计
20
(2)
第三章
7
第三章
7、 (1)、
(2)
8
第三章
8、 (1)
(2)
(3)
9
第三章
9、 (1)
接收 29 39 49 59 69 79 89
合计
(2)
频率% 10 16 12 16 20 12 4 100
累积 % 10.00 26.00 38.00 64.00 84.00 96.00 100.00 -
多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的
高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开
排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
Stem width: 10.00
Each leaf:
1 case(s)
5、
(1) VAR00003 Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 2.00 1.00 2.00 2.00
11 . 6 12 . 02 12 . 8 13 . 04 13 . 56
Frequency Stem & Leaf
2.00 6.00 8.00 11.00 9.00 7.00 4.00 2.00 1.00
6. 7. 8. 9. 10 . 11 . 12 . 13 . 14 .
89 233566 01123456 12224556788 002466678 2355899 4678 24 1
统计学(第3章)
4、定比尺度(比率尺度 ratio scale)
是对事物之间比值的一种测度,可用
于参数与非参数统计推断。 特征:
除区分事物的类别、进行排序、比较大 小,而且还可以进行加减乘除运算。 具有绝对零点,即“0”表示“没有” 或“不存在”。 所有统计量都可以对其进行分析。与定 距尺度的唯一区别是有绝对固定的零点。
第三章 统计数据的整理 10
3、观察数据和实验数据
观察数据:通过调查或观测而得 到的数据。 实验数据:通过控制实验对象而 收集的数据。
第三章 统计数据的整理
11
4、直接数据和间接数据
直接数据:即原始数据。
间接数据:已加工整理过的数据。
第三章 统计数据的整理
12
第二节 统计整理的含义和步骤
当异距分组时,各组的次数还受 到组距不同的影响。为消除异距 分组的这种影响,须计算频率密 度(或次数密度),计算公式: 频数密度 = 频数/组距 频率密度 = 频率/组距
第三章 统计数据的整理
36
二、分布数列的编制
将原始资料按其数值大小重新排列 2. 确定全距 3. 确定组距和组数 4. 确定组限 5. 编制变量数列 示例3-5
第三章 统计数据的整理
某地人口
21
(三)按分组标志的不同性质分
品质分组(属性分组):是将总体按
品质(或属性)标志进行分组。如企 业按经济成份、企业规模,职工按性 别、文化程度分组等。 数量分组(变量分组):是将总体按 数量标志进行分组,如企业按职工人 数、劳动生产率分组,职工按工龄、 工资分组等。
第三章 统计数据的整理 31
4、开口组的组距与组中值
单变量数据的描述和分析
单变量数据的描述和分析简介:在统计学中,单变量数据(univariate data)是指只有一个单独的变量的数据集合。
这种类型的数据通常用于观察、描述和分析一个特定的量或属性。
本文将讨论如何对单变量数据进行合适的描述和分析,以揭示数据集中的模式、趋势和分布。
一、数据描述1. 数据的基本统计量对于单变量数据,我们需要了解一些基本的统计量,以获得对数据的整体概括。
常见的基本统计量包括:(1)均值(mean):描述数据的平均水平,计算方法为将所有数据值相加后除以观测次数。
(2)中位数(median):描述数据的中间位置,即将数据按照大小顺序排列,取中间位置的值。
(3)众数(mode):描述数据中出现频率最高的值或值的集合。
(4)极差(range):描述数据的范围,即最大值与最小值之间的差异。
(5)方差(variance):描述数据的离散程度,计算方法为每个数据值与均值之差的平方的平均值。
(6)标准差(standard deviation):描述数据的离散程度,是方差的平方根。
2. 数据的分布图表除了基本统计量之外,数据的可视化也是揭示数据特征的重要方法。
以下是几种常见的单变量数据的分布图表:(1)频率分布表(frequency table):将数据按照不同的取值范围划分为区间,统计每个区间的频数或频率。
(2)直方图(histogram):将数据按照取值范围划分为一系列不相交的区间,描绘出每个区间的频数或频率的柱状图。
(3)箱线图(box plot):展示数据的分散情况,包括最大值、最小值、中位数、上四分位数和下四分位数等统计信息。
(4)饼图(pie chart):用于表示数据的比例关系,适用于离散型数据。
二、数据分析1. 总体推断通过单变量数据的描述,我们可以对所研究的总体进行推断。
总体推断是建立在样本数据上的,用于推断整个总体的特征和性质。
常见的总体推断方法包括:(1)参数估计:通过样本数据估计总体的参数,如均值、方差等。
社会统计学 第三章简化两个变量的分布
到这里,有关单变量的描述统计技术已经全部介绍完了。
简单来说,我们共介绍了三种方法,一是化约、简化,即第三章第一节的内容,次数分布、频率分布、统计图、统计表等。
二是集中趋势测量法,即求出一个数值用以代表变量的资料分布,反映资料的集结情况。
三是离散趋势测量法,即求取一个数值来表示个案与个案之间的差异情况。
集中趋势测量法和离散趋势测量法是相互补充的。
我们再一起回顾一下适用于不同测量层次的集中值和离散值。
它们是这一章需要重点掌握的内容,我们先以表格的形式比较一下三个集中值。
四分位差和标准差。
它们在测量层次、敏感程度、计算难度和解释力上也是与这三个集中值一一对应的。
我们不再一一介绍了。
那么极差仅仅考虑了两个极端值,因而带有很大的偶然性,对于大量的处于极端值之间的数值分布情况,以及在中心点周围的集中情况,都无法提供任何信息,主要适用于定序以上层次的变量。
离散系数是一种相对的离散量数统计量,可以用于对同一总体中两种不同的离散值进行比较,或者对两个不同总体中的同一离散值进行比较,适用于定距以上层次的变量。
第三章简化两个变量的分布第一节统计相关的性质大家知道,在社会学研究中,不仅要求我们对社会现象进行描述,而且要求我们对现象的原因进行分析。
因此,我们不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
例如,在某地区调查100名青年人的最大志愿,假定其中有40%选择快乐家庭,50%选择理想工作,10%选择增广见闻。
我们要问:为什么这些青年人的最大志愿会有不同?又假定我们发现这些青年人的教育水平可以分为高(高中或以上程度)、中(初中程度)、低(小学或以下程度)三个等级,每级人数分别占10%、60%、30%。
据此,我们就可以追问:青年人的志愿与其教育水平是否有关系呢?换言之,是否因为教育水平不同,所以人生志愿也不同。
一、什么是相关?由此,我们可以引入相关这个概念。
所谓相关,是指一个变量的值与另一个变量的值有连带性。
第三章 统计学习题
第三章统计数据的描述(1)一、填空题2、动态相对指标有_______和_______两种基本形式。
3、某现象的某一指标在同一时间不同空间上的指标值对比的结果是_______,在同一空间不同时间上的指标值对比的结果是_______。
4、同质总体中部分数值与总体全部数值对比的结果是_______,各部分数值相互对比的结果是_______。
7、相对指标一般都采用______的形式来表现,有些特殊的相对数,则采用_______的形式来表现。
9、强度相对指标的分子、分母一般可以互换,因而有_______和_______之分。
10、长期计划执行结果的检查方法有两种,一种是_______,另一种是_______。
11、计算和应用计划完成程度相对指标时,当计划任务是按最低限额规定时,则计划完成百分数以_______100%为好,当计划任务是按最高限额规定时,则计划完成百分数以_______100%为好。
12、结构相对数的取值介于_______之间,各组结构相对数的和恒等于_______。
15、比例相对数是一种_______性比例,而比较相对数则是一种_______性比例。
二、单选题3、某厂劳动生产率计划比上年提高8%,实际仅提高4%,则其计划完成百分数为()。
A.4% B.50% C.96.30% D.103.85%4、某厂某产品的单位产品成本计划规定比去年降低5%,实际降低了7%,则其计划完成百分数为():、A.97.9% B.140.0% C.102.2% D.71.4%5、联合国粮农组织依据恩格尔系数的高低,提出的富裕标准是恩格尔系数为()。
A.30%以下B.30%—40%C.40%—50%D.50%—59%7、总体各部分结构相对数的和应()。
A.等于100% B.小于100% C.大于100% D.小于或等于100%10、将相对指标与总量指标结合应用,通常是计算()。
A.平均增长水平B.平均发展速度C.平均增长速度D.增长1%的绝对值11、反映总体各部分之间数量联系程度和比例关系协调平衡状况的综合指标是()。
统计学第三章 变量分布特征的描述试题及答案
第三章 变量分布特征的描述二、 单项选择题1、下列情况下次数对平均数不发生影响的是( D )A 、标志值较小而次数较多时B 、标志值较大而次数较少时C 、标志值较小且次数也较少时D 、标志值出现次数全相等时2、在下列两两组合的平均指标中,哪一组的两个平均数完全不受极端数值的影响?( D )A 、算术平均数和调和平均数B 、几何平均数和众数C 、调和平均数和众数D 、众数和中位数3、计算相对数的平均数时,如果掌握了分子资料而没有掌握分母资料,则应采用( C )A 、算术平均数B 、几何平均数C 、调和平均数D 、算术平均和调和平均都可以4、如果所有标志值的频数都减少为原来的1/5,而标志值仍然不变,那么算术平均数( A )A 、不变B 、扩大到5倍C 、减少为原来的1/5D 、不能预测其变化5、某企业有A 、B 两车间,2000年A 车间人均工资720元,B 车间730元,2001年A 车间增加10%工人,B 车间增加8%工人,如果A 、B 两车间2001年人均工资都维持上年水平,则全厂工人平均工资2001比2000( A )A 、提高B 、下降C 、持平D 、不一定 6、计算平均比率最好用( C )A 、算术平均数B 、调和平均数C 、几何平均数D 、中位数 7、对某一钟型数列已知m 0=800,m e =820,则( A ) A 、820>-x B 、800<-x C 、800820<<-x D 、没有一定的关系8、现有一数列:3,9,27,81,243,729,2,187,反映其平均水平最好用(B ) A 、算术平均数 B 、中位数C 、几何平均数D 、众数 9、对某一数列的X i ;计算数值平均数,得则,320=-x (C ) A 、G ≥320而H ≤320 B 、G ≤320而H ≥320 C 、无法判断 D 、G ≥320而H ≥32010、若两数列的标准差相等而平均数不等,则(B ) A 、平均数小代表性大 B 、平均数大代表性大 C 、代表性也相等 D 、无法判断11、某企业年终奖金分配时,有10%的职工人均得10000元,25%的职工人均得9000元,30%的职工人均得8000元,25%的职工人均得7000元,另10%人均得6000元,则计算结果将有( D ) A 、m 0<m e <-x B 、m 0<m e ≠-x C 、m 0>m e >-x D 、-x =m 0=m e12、计算平均指标时最常用的方法和最基本的形式是(D ) A 、中位数 B 、众数 C 、调和平均数 D 、算术平均数13、某班45名学生中,25名男生某门课的平均成绩为78分,20名女生的平均成绩为82分,则全班平均成绩为(C )A 、80B 、79.28C 、79.78D 、80.3814、某商场销售洗衣机,2018年共销售6000台,年底库存50台,这两个指标是( C ) A 、时期指标 B 、时点指标 C 、前者是时期指标,后者是时点指标 D 、前者是时点指标,后者是时期指标15、某小组40名职工,每人工作天数相同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
107.5 112.5 117.5 122.5 127.5 132.5 137.5
—
3
246.49
739.47
5
114.49
572.45
8
32.49
259.92
14
0.49
6.86
10
18.49
184.90
6
86.49
51850
—
3100.5
16
8.0
”来反映城市居民对广告
10
5.0
关注的一般趋势,其代表
2
1.0
性不是很好
合计
200
100
四分位差(定序数据)
离散程度的测度值之一 也称为内距或四分间距 上四分位数与下四分位数之差
QD = QU - QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
对称分布
右偏分布
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
※众数
※中位数
※均值
※均值
适 用
—
四分位数
众数
调和平均数
的
—
众数
中位数 几何平均数
测
—
度
值
—
—
四分位数
中位数
—
—
四分位数
—
—
—
众数
离散趋势及其测度
数据的特征和测度(本节位置)
定类数据 定序数据 定距数据 定比数据
累计次数分布
累计频数
向上累计 将各组次数和比率,由变量值低的组向变量
值高的组逐组累计。 向下累计 将各组次数和比率,由变量值高的组向变量
值低的组逐组累计。 参照P62表3-3
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰度 (形状)
单变量 描述统计
学习提纲
频数与累计频数 集中趋势的度量 离散程度的度量 相对位置与异常值的检验 偏态与峰度的测度
频数与累计频数
频数——次数
对总体经过分组后形成各组单位数在各组间的分布。 也就是各类别中的数据个数。
频数分布——次数分布,分布数列
总体中的各个类别及其相应的频数全部展示出来的 数据集汇总表
方差和标准差
离散程度的测度值之一 最常用的测度值
X = 8.3
反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
各变量值对均值的方差小于对任意值的 方差
根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
方差的计算公式
组距分组数据: 中位数位置 f 1
2
未分组数据的中位数(计算公式)
Me
X
N 1 2
1 2
X
N 2
X
N 2
1
当N为奇数时 当N为偶数时
定序数据中位数
【例2】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的中位数
表2 甲城市家庭对住房状况评价的频数分布
4. 主要用于定序数据,也可用于数值型数据 ,但不能用于定类数据
四分位数(位置的确定)
未分组数据:
下四分位数(QL)位置 =
N+ 14
3(N+1) 上四分位数(QU)位置 = 4
组距分组数据:
下四分位数(QL)位置 =
N 4
上四分位数(QL)位置 =
3N 4
百分位数
P百分位数
p%的数据项的值小于等于P百分位数 (100-p)%的数据项的值大于等于P百分位
平均差(计算过程及结果)
【例6】根据第三章表3-5中的数据,计算工人日加工零件数 的平均差
表 某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
组中值(Xi) 107.5
频数(Fi) 3
四分位差(定序数据的算例)
【例5】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:设非常不满意为1,不 满意为2, 一般为3, 满意 为 4, 非常满意为5 已知 QL = 不满意 = 2,
n
( X i X )2 min
i 1
调和平均数
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 用于定比数据 不能用于定类数据和定序数据 计算公式为
HM
X i Fi X i Fi Xi
X i Fi Fi
几何平均数
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为
股票名称 价格 数量
购买总金额
某高速 3.5
16
某电子 4.1
12
某科技 5.6
18
某药业 9.8
3
某环保 15.6 2
合计
51
56 49.2 100.8 29.4 31.2 266.6
均值
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
集中趋势的测度
定类数据:众数
定序数据:中位数和分位数
定距和定比数据:均值
众数
集中趋势测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数
值型数据
数值型分组数据的众数
出现次数最多的组作为众数所在组 众数的区间范围:众数所在组的区间
数
均值
集中趋势的测度值之一 最常用的测度值 一组数据的均衡点所在 易受极端值的影响 用于数值型数据,不能用于定类数据
和定序数据
均值
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X
X1 X2 XN
Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
离中趋势
数据分布的另一个重要特征
离中趋势的各测度值是对数据离散程度所作的描 述
反映各变量值远离其中心值的程度,因此也称为 离中趋势
从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
作为中心的变量值就是平均指标
同质总体中各单位某一数据所达到的一般水平
集中趋势(Central tendency)
集中趋势
不同类型的数据用不同的集中趋势测度值
一组数据向其中心值靠拢的 倾向和程度
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
【例4】根据下表数据,计算异众比率
表3 某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
112
56.0
在 所 调 查 的 200 人 当 中 ,
51
25.5
关注非商品广告的人数占
9
4.5
44%,异众比率还是比较
大。因此,用“商品广告
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
四分位数
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
| Xi- X | 15.7
112.5
5
10.7
117.5
8
5.7
122.5
14
0.7
127.5
10
4.3
132.5
6
9.3
137.5
4
14.3
—
50
—
K
M D
i 1
Xi
K
X Fi
Fi
312 6.2( 4 个) 50
i 1
|Xi-X |Fi 47.1 53.5 45.6 9.8 43.0 55.8 57.2 312
乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1
X甲
i=1 Xi n
X乙
i=1 Xi n
0×1+20×1+100×8