04 数据的概括性度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.众数主要用于分类数据,也可用于顺序数据和数 值型数据 3.众数是一个位置代表值,它不受极端值的影响。 一组数据可能没有众数,也可能有几个众数。
经管类 核心课程
统计学
一个众数 原始数据: 5
一个众数 原始数据: 5 6
众数(众数的不唯一性)
7
9
8
7
7
6
7
8
7
7
多于一个众数 原始数据: 25 28 28 36 42 42 48 无众数 原始数据:10 5 9 12 6 8
经管类 核心课程
统计学
分类数据的众数(例题)
解:这 里的变 量为 “饮料 品牌 ” ,是 个分类 变量 , 不同 的品牌 就是变 量值 。在 所 调查 的 50人 中,购 买可口 可乐 的人 数 最多 , 为15 人,因 此众数 为 “ 可口可 乐 ”这 一品 牌,即
M =可口可乐
【例4.1】根据第三章表3-4 中的数据,计算“饮料品牌 ”众数
数据类型
品质数据 汇总表 原始数据
数值型数据 分组数据 时序数据 多变量数据
条 饼 环 形 图 形 图 图
茎 叶 图
箱 线 图
直 方 图
线 图
散 点 图
气 泡 图
雷 达 图
经管类 核心课程
统计学
§2.4 合理使用图表
3.4.1 鉴别图形优劣的准则 3.4.2 统计表的设计
经管类 核心课程
统计学
3.4.1 鉴别图形优劣的准则
经管类 核心课程
统计学
数值型数据的四分位数(例题)
【例4.6】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的四分位数。 750 780 850 960 1080 1250 1500 1630 2000
1.一张精心设计的图形是展示数据的最有效工 具,精心设计的图形可以准确表达数据所要 传递的信息。 2.在设计图形时,应绘制得尽可能简洁,以能 够清晰地显示数据、合理地表达统计目的为 依据 3.在绘制图形时,应避免一切不必要的修饰, 过于花哨的修饰往往会使人注重图形本身, 而掩盖了图形所要表达的信息。
一般 满意 非常满意 合计
78 64 38 198 262 300
300 1 中位数位置 2 150 .5
300
-
故M e 一般
经管类 核心课程
统计学
数值型数据的中位数(例题)
【例4.5】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的中位数。 1500 750 780 1080 850 960 2000 1250 1630 解:先将上面的数据排序,结果如下: 750 780 850 960 1080 1250 1500 1630 2000
行 标 题
调查户数 平均每户家庭人口 平均每户就业人口 平均每户就业面 平均一就业者负担人数 平均每人全部年收入 #可支配收入 平均每人消费性支出
3.01 1.58 52.49 1.91 9061.22 8472.20 6510.94
资料来源:《中国统计年鉴2004》,359页,北京,中国统计出版社,2004。 附 注:本表为城镇居民家庭收支抽样调查材料。
Mo=不满意
【例4.2】根据第三章甲城市 家庭对住房状况评价的数据 ,计算众数
表3-6 甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
甲城市
户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
合计
300
பைடு நூலகம்
100.0
经管类 核心课程
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
第四章 数据分布特征的测度
经管类 核心课程
统计学
第四章 数据分布特征的测度
§4.1 集中趋势的测度 §4.2 离散程度的测度 §4.3 偏态与峰态的测度
( 2 )
Me
x
n ( ) 2
x 2
n ( 1) 2
n为 偶 数
经管类 核心课程
统计学
顺序数据的中位数(例题)
【例4.4】根据第三章甲城市 解:这是顺序数据。 家庭对住房状况评价的数据 变量为“回答类别” ,计算中位数 。其中的五个选项即 表3-6 甲城市家庭对住房状况评价的频数分布 为变量值。由于变量 甲城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 24 24 非常不满意 定公式有: 108 132 不满意
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特还提出了5种鉴别图形优劣的准则: (1)一张好的图形应当精心设计,有助于洞察问题 的实质: (2)一张好的图形应当使复杂的观点得到简明、确 切、高效地阐述: (3)一张好的图形应能在最短的时间内以最少的笔 墨给读者提供最大量的信息。 (4)一张好的图形应当是多维的。 (5)一张好的图形应当表述数据的真实情况。
统计学
顺序数据的众数
解:这里的数据 为顺序数据。变 量为“回答类别 ”。乙城市中对 住房表示不满意 的户数最多,为 99户,因此众数 为“不满意”这 一类别,即
Mo=不满意
根 据第 三章乙城市家庭对 住房状况评价的数据,计算 众数
表3-7 乙城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
一般 满意 非常满意 合计 93 45 30 300 225 270 300 -
300 1 中位数位置 2 150 .5
故M e 一般
经管类 核心课程
统计学
顺序数据的中位数(例题)
根据第三章乙城市家庭 解:这是顺序数据。 对住房状况评价的数据,计 变量为“回答类别” 算中位数 。其中的五个选项即 表3-7 乙城市家庭对住房状况评价的频数分布 为变量值。由于变量 乙城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 非常不满意 21 21 定公式有: 不满意 99 120
9 1 中位数位置 5 2
所以中位数是1080,即Me=1080元。
经管类 核心课程
统计学
数值型数据的中位数(例题)
如果数据个数为偶数时怎样计算中位数。假定在例 4.5中抽取了10个家庭,每个家庭的人均月收入数 据排序后为: 660 750 780 850 960 1080 1250 1500 1630 2000
经管类 核心课程
统计学
中位数的位置确定
未分组数据计算中位数的步骤:
(1)对数据进行排序:
设一组数据为: x2, ,xn, x1,
按从小到大排序后:),x( 2), ,x( n), x(1 n 1 (2)确定中位数的位置: 中位数位置 2 (3)求出中位数的值: x n 1 n为 奇 数
经管类 核心课程
统计学
数据的预处理
上节内容总结
1.数据的审核:检查数据中的错误 原始数据:完整性和准确性 二手数据:适用性和时效性 2.数据的筛选:找出符合条件的数据 3.数据排序:升序和降序 数据的整理
1.品质数据的整理:数据的分类 2.数值型数据的整理:数据的分组
经管类 核心课程
统计学
数据的图示
加
经管类 核心课程
统计学
统计表的设计
1.合理安排统计表的结构 2.表头一般包括表号、总标题和表中数据的单位等内 容。总标题内容应满足3W (时间、地点、何种数 据)要求 3.数据计量单位相同时,可放在表的右上角标明,不 同时应放在每个指标后或单列出一列标明 4.表中的上下两条横线一般用粗线,其他线用细线 5.通常情况下,统计表的左右两边不封口 6.表中的数据一般是右对齐,有小数点时应以小数点 对齐,而且小数点的位数应统一 7.对于没有数字的表格单元,一般用“—”表示 8.必要时可在表的下方加上注释
经管类 核心课程
统计学
4.1.1. 4.1.2. 4.1.3. 4.1.4.
§4.1 集中趋势的测度
分类数据:众数 顺序数据:中位数和分位数 数值型数据:平均数 众数、中位数和平均数的比较
经管类 核心课程
统计学
一.
集中趋势
1. 集中趋势(Central tendency)是指一组数据向其中心 值靠拢的倾向和程度,它反映了一组数据中心点 的位置所在。 2. 不同类型的数据用不同的集中趋势测度值
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特(Tufte)指出,一张好的图形应包括以下基 本特征: (1)显示数据。 (2)让读者把注意力集中在图形的内容上,而不是 制作图形的程序上 (3)避免歪曲。 (4)强调数据之间的比较。 (5)服务于一个明确的目的。 (6)具有对图形的统计描述和文字说明
经管类 核心课程
统计学
四分位数的确定
计算四分位数的步骤:
(1)对数据进行排序:
x(1),x( 2), ,x( n),
(2)确定四分位数的位置:
n 3n 下四分位数QL 位置 上四分位数QU 位置 4 4
(3)求出四分位数的值:如果位置是整数,四分位数 就是该位置对应的值;如果是在0.5的位置上,则取 该位置两侧的平均数;如果是在0.25或0.75的位置 上,则四分位数等于该位置的下侧值加上按比例分 摊两侧的差值。
乙城市
户数 (户)
21 99 78 64 38
百分比 (%)
7.0 33.0 26.0 21.3 12.7
合计
300
100.0
经管类 核心课程
统计学
数值型数据的众数(例题)
【例4.3】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的众数。
1080 750 1080 1080 850 960 2000 1250 1630 解:人均月收入出现频数最多的是1080,因此, 众数Mo=1080元。 Excel中的统计函数:利用MODE函数可计算数值 型数据的众数。
经管类 核心课程
统计学
表3-17
项目
3.4.2 统计表的结构
2002~2003年城镇居民家庭抽样调查资料
单位
户 人 人 % 人 元 元 元
表头
列 标 题 数 字 资 料
2002年
45317 3.04 1.58 51.97 1.92 8177.40 7702.80 6029.88
2003年
48028
4.1.2 顺序数据:中位数和分位数 统计学
在一组数据中,可以找出某个位置上的数据,这些 位置上的数据就是相应的分位数,包括中位数、 四分位数、十分位数、百分位数等。 1. 中位数 (1)中位数是一组数据排序后处于中间位置上的变量 值,用Me来表示。
经管类 核心课程
50%
50%
Me
(2)中位数主要用于测度顺序数据的集中趋势,也可 用于数值型数据的集中趋势,但不能用于分类数 据的集中趋势。 (3)中位数不受极端值的影响。
表3-4 不同品牌饮料的频数分布
饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计
户数 (户) 15 11 9 6 9 50
百分比 (%) 30 22 18 12 18 100
经管类 核心课程
统计学
顺序数据的众数(例题)
解:这里的数据 为顺序数据。变 量为“回答类别 ”。甲城市中对 住房表示不满意 的户数最多,为 108 户 , 因 此 众 数为“不满意” 这一类别,即
10 1 中位数位置 5.5 2 960 1080 中位数为:M e 1020 2
Excel中的统计函数:利用MEDIAN函数可计算数 值型数据的中位数。
经管类 核心课程
统计学
四分位数
2. 四分位数 中位数是从中间点将全部数据等分为两部分。与中位 数类似的还有四分位数、十分位数、百分位数等。 它们分别是用3个点、9个点、99个点将数据4等分、 10等分、100等分后各分位点上的值。 四分位数也称四分位点,它是一组数据排序后处于25 %和75%位置上的值。四分位数是通过3个点将全 部数据等分为4部分,其中每部分包含25%的数据 。显然,中间的四分位数就是中位数,因此通常所 说的四分位数是指在25%位置上的数据(称为下四分 位数)和处在75%位置上的数据(称为上四分位数)。 25% 25% 25% 25% QL Me QU
3. 低层次数据的集中趋势测度值适用于高层次的测量 数据,反过来,高层次数据的集中趋势测度值并 不适用于低层次的测量数据 4. 选用哪一个测度值来反映数据的集中趋势,要根据 所掌握的数据的类型来确定
经管类 核心课程
统计学
4.1.1 分类数据--众数
1.众数是指一组数据中出现次数最多的变量值,用 M 0 表示,它是集中趋势的测度值之一
经管类 核心课程
统计学
一个众数 原始数据: 5
一个众数 原始数据: 5 6
众数(众数的不唯一性)
7
9
8
7
7
6
7
8
7
7
多于一个众数 原始数据: 25 28 28 36 42 42 48 无众数 原始数据:10 5 9 12 6 8
经管类 核心课程
统计学
分类数据的众数(例题)
解:这 里的变 量为 “饮料 品牌 ” ,是 个分类 变量 , 不同 的品牌 就是变 量值 。在 所 调查 的 50人 中,购 买可口 可乐 的人 数 最多 , 为15 人,因 此众数 为 “ 可口可 乐 ”这 一品 牌,即
M =可口可乐
【例4.1】根据第三章表3-4 中的数据,计算“饮料品牌 ”众数
数据类型
品质数据 汇总表 原始数据
数值型数据 分组数据 时序数据 多变量数据
条 饼 环 形 图 形 图 图
茎 叶 图
箱 线 图
直 方 图
线 图
散 点 图
气 泡 图
雷 达 图
经管类 核心课程
统计学
§2.4 合理使用图表
3.4.1 鉴别图形优劣的准则 3.4.2 统计表的设计
经管类 核心课程
统计学
3.4.1 鉴别图形优劣的准则
经管类 核心课程
统计学
数值型数据的四分位数(例题)
【例4.6】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的四分位数。 750 780 850 960 1080 1250 1500 1630 2000
1.一张精心设计的图形是展示数据的最有效工 具,精心设计的图形可以准确表达数据所要 传递的信息。 2.在设计图形时,应绘制得尽可能简洁,以能 够清晰地显示数据、合理地表达统计目的为 依据 3.在绘制图形时,应避免一切不必要的修饰, 过于花哨的修饰往往会使人注重图形本身, 而掩盖了图形所要表达的信息。
一般 满意 非常满意 合计
78 64 38 198 262 300
300 1 中位数位置 2 150 .5
300
-
故M e 一般
经管类 核心课程
统计学
数值型数据的中位数(例题)
【例4.5】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的中位数。 1500 750 780 1080 850 960 2000 1250 1630 解:先将上面的数据排序,结果如下: 750 780 850 960 1080 1250 1500 1630 2000
行 标 题
调查户数 平均每户家庭人口 平均每户就业人口 平均每户就业面 平均一就业者负担人数 平均每人全部年收入 #可支配收入 平均每人消费性支出
3.01 1.58 52.49 1.91 9061.22 8472.20 6510.94
资料来源:《中国统计年鉴2004》,359页,北京,中国统计出版社,2004。 附 注:本表为城镇居民家庭收支抽样调查材料。
Mo=不满意
【例4.2】根据第三章甲城市 家庭对住房状况评价的数据 ,计算众数
表3-6 甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
甲城市
户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
合计
300
பைடு நூலகம்
100.0
经管类 核心课程
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
统计表的比较与选用
经管类 核心课程
统计学
第四章 数据分布特征的测度
经管类 核心课程
统计学
第四章 数据分布特征的测度
§4.1 集中趋势的测度 §4.2 离散程度的测度 §4.3 偏态与峰态的测度
( 2 )
Me
x
n ( ) 2
x 2
n ( 1) 2
n为 偶 数
经管类 核心课程
统计学
顺序数据的中位数(例题)
【例4.4】根据第三章甲城市 解:这是顺序数据。 家庭对住房状况评价的数据 变量为“回答类别” ,计算中位数 。其中的五个选项即 表3-6 甲城市家庭对住房状况评价的频数分布 为变量值。由于变量 甲城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 24 24 非常不满意 定公式有: 108 132 不满意
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特还提出了5种鉴别图形优劣的准则: (1)一张好的图形应当精心设计,有助于洞察问题 的实质: (2)一张好的图形应当使复杂的观点得到简明、确 切、高效地阐述: (3)一张好的图形应能在最短的时间内以最少的笔 墨给读者提供最大量的信息。 (4)一张好的图形应当是多维的。 (5)一张好的图形应当表述数据的真实情况。
统计学
顺序数据的众数
解:这里的数据 为顺序数据。变 量为“回答类别 ”。乙城市中对 住房表示不满意 的户数最多,为 99户,因此众数 为“不满意”这 一类别,即
Mo=不满意
根 据第 三章乙城市家庭对 住房状况评价的数据,计算 众数
表3-7 乙城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
一般 满意 非常满意 合计 93 45 30 300 225 270 300 -
300 1 中位数位置 2 150 .5
故M e 一般
经管类 核心课程
统计学
顺序数据的中位数(例题)
根据第三章乙城市家庭 解:这是顺序数据。 对住房状况评价的数据,计 变量为“回答类别” 算中位数 。其中的五个选项即 表3-7 乙城市家庭对住房状况评价的频数分布 为变量值。由于变量 乙城市 回答类别 值本身就是排序的, 户数 (户) 向上累积频数 根据中位数的位置确 非常不满意 21 21 定公式有: 不满意 99 120
9 1 中位数位置 5 2
所以中位数是1080,即Me=1080元。
经管类 核心课程
统计学
数值型数据的中位数(例题)
如果数据个数为偶数时怎样计算中位数。假定在例 4.5中抽取了10个家庭,每个家庭的人均月收入数 据排序后为: 660 750 780 850 960 1080 1250 1500 1630 2000
经管类 核心课程
统计学
中位数的位置确定
未分组数据计算中位数的步骤:
(1)对数据进行排序:
设一组数据为: x2, ,xn, x1,
按从小到大排序后:),x( 2), ,x( n), x(1 n 1 (2)确定中位数的位置: 中位数位置 2 (3)求出中位数的值: x n 1 n为 奇 数
经管类 核心课程
统计学
数据的预处理
上节内容总结
1.数据的审核:检查数据中的错误 原始数据:完整性和准确性 二手数据:适用性和时效性 2.数据的筛选:找出符合条件的数据 3.数据排序:升序和降序 数据的整理
1.品质数据的整理:数据的分类 2.数值型数据的整理:数据的分组
经管类 核心课程
统计学
数据的图示
加
经管类 核心课程
统计学
统计表的设计
1.合理安排统计表的结构 2.表头一般包括表号、总标题和表中数据的单位等内 容。总标题内容应满足3W (时间、地点、何种数 据)要求 3.数据计量单位相同时,可放在表的右上角标明,不 同时应放在每个指标后或单列出一列标明 4.表中的上下两条横线一般用粗线,其他线用细线 5.通常情况下,统计表的左右两边不封口 6.表中的数据一般是右对齐,有小数点时应以小数点 对齐,而且小数点的位数应统一 7.对于没有数字的表格单元,一般用“—”表示 8.必要时可在表的下方加上注释
经管类 核心课程
统计学
4.1.1. 4.1.2. 4.1.3. 4.1.4.
§4.1 集中趋势的测度
分类数据:众数 顺序数据:中位数和分位数 数值型数据:平均数 众数、中位数和平均数的比较
经管类 核心课程
统计学
一.
集中趋势
1. 集中趋势(Central tendency)是指一组数据向其中心 值靠拢的倾向和程度,它反映了一组数据中心点 的位置所在。 2. 不同类型的数据用不同的集中趋势测度值
经管类 核心课程
统计学
鉴别图形优劣的准则
塔夫特(Tufte)指出,一张好的图形应包括以下基 本特征: (1)显示数据。 (2)让读者把注意力集中在图形的内容上,而不是 制作图形的程序上 (3)避免歪曲。 (4)强调数据之间的比较。 (5)服务于一个明确的目的。 (6)具有对图形的统计描述和文字说明
经管类 核心课程
统计学
四分位数的确定
计算四分位数的步骤:
(1)对数据进行排序:
x(1),x( 2), ,x( n),
(2)确定四分位数的位置:
n 3n 下四分位数QL 位置 上四分位数QU 位置 4 4
(3)求出四分位数的值:如果位置是整数,四分位数 就是该位置对应的值;如果是在0.5的位置上,则取 该位置两侧的平均数;如果是在0.25或0.75的位置 上,则四分位数等于该位置的下侧值加上按比例分 摊两侧的差值。
乙城市
户数 (户)
21 99 78 64 38
百分比 (%)
7.0 33.0 26.0 21.3 12.7
合计
300
100.0
经管类 核心课程
统计学
数值型数据的众数(例题)
【例4.3】在某城市中随机抽取9个家庭,调查得到 每个家庭的人均月收入数据如下(单位:元)。要求 计算人均月收入的众数。
1080 750 1080 1080 850 960 2000 1250 1630 解:人均月收入出现频数最多的是1080,因此, 众数Mo=1080元。 Excel中的统计函数:利用MODE函数可计算数值 型数据的众数。
经管类 核心课程
统计学
表3-17
项目
3.4.2 统计表的结构
2002~2003年城镇居民家庭抽样调查资料
单位
户 人 人 % 人 元 元 元
表头
列 标 题 数 字 资 料
2002年
45317 3.04 1.58 51.97 1.92 8177.40 7702.80 6029.88
2003年
48028
4.1.2 顺序数据:中位数和分位数 统计学
在一组数据中,可以找出某个位置上的数据,这些 位置上的数据就是相应的分位数,包括中位数、 四分位数、十分位数、百分位数等。 1. 中位数 (1)中位数是一组数据排序后处于中间位置上的变量 值,用Me来表示。
经管类 核心课程
50%
50%
Me
(2)中位数主要用于测度顺序数据的集中趋势,也可 用于数值型数据的集中趋势,但不能用于分类数 据的集中趋势。 (3)中位数不受极端值的影响。
表3-4 不同品牌饮料的频数分布
饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计
户数 (户) 15 11 9 6 9 50
百分比 (%) 30 22 18 12 18 100
经管类 核心课程
统计学
顺序数据的众数(例题)
解:这里的数据 为顺序数据。变 量为“回答类别 ”。甲城市中对 住房表示不满意 的户数最多,为 108 户 , 因 此 众 数为“不满意” 这一类别,即
10 1 中位数位置 5.5 2 960 1080 中位数为:M e 1020 2
Excel中的统计函数:利用MEDIAN函数可计算数 值型数据的中位数。
经管类 核心课程
统计学
四分位数
2. 四分位数 中位数是从中间点将全部数据等分为两部分。与中位 数类似的还有四分位数、十分位数、百分位数等。 它们分别是用3个点、9个点、99个点将数据4等分、 10等分、100等分后各分位点上的值。 四分位数也称四分位点,它是一组数据排序后处于25 %和75%位置上的值。四分位数是通过3个点将全 部数据等分为4部分,其中每部分包含25%的数据 。显然,中间的四分位数就是中位数,因此通常所 说的四分位数是指在25%位置上的数据(称为下四分 位数)和处在75%位置上的数据(称为上四分位数)。 25% 25% 25% 25% QL Me QU
3. 低层次数据的集中趋势测度值适用于高层次的测量 数据,反过来,高层次数据的集中趋势测度值并 不适用于低层次的测量数据 4. 选用哪一个测度值来反映数据的集中趋势,要根据 所掌握的数据的类型来确定
经管类 核心课程
统计学
4.1.1 分类数据--众数
1.众数是指一组数据中出现次数最多的变量值,用 M 0 表示,它是集中趋势的测度值之一