统计学第五张
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广告”这一类别,即
Mo=商品广告
解释其所代表的含义
定序数据(练习2)
【例】根据表3-2中的数据,计算众数
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
非常不满意 不满意 一般 满意 非常满意 合计
甲城市 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0
第 四 章
数据分布特征的描述
第一节
集中趋势的测度
第二节
第三节
离散程度的测度
偏态与峰度的测度
学习目标
1.
集中趋势各测度值的计算方法 集中趋势不同测度值的特点和应用场合 离散程度各测度值的计算方法 离散程度不同测度值的特点和应用场合
2.
3.
4.
5.
偏态与峰度测度方法
6. 用Excel计算描述统计量并进行分析
解:这里的数据为定序数据。变量为“回答
类别”。甲城市中对住房表示不满意的户数
最多,为108户,因此众数为“不满意”这 一类别,即
Mo=不满意
解释其所代表的含义
数值型分组数据的众数
1. 众数的值与相邻两组频数的分布有关 2. 相邻两组的频数相等时,众数组的组中值即为众数 3. 相邻两组的频数不相等时,众数采用下列近似公式计算
请解释这句话的含义?
引例2
美国哈佛医学院基因诊断研究室主任(博士后) 撰写了一本科普读物: 《人体革命》。书中以详实资料说明我国各个 历史时期的人均平均寿命: 2001年:72岁,上海、广州等76岁左右。 1981年:68岁; 1957年:57岁;
解放前民国时期:35岁; 清代:33岁; 宋代:30岁; 唐朝:27岁; 东汉:22岁; 秦朝:20岁; 夏朝:18岁。
16~18 18~20
20~22 22~24 24~26 26~28
36 25
18 13 9 7
22.50% 15.63%
11.25% 8.13% 5.63% 4.38%
52.50% 68.13%
79.38% 87.50% 93.13% 97.50%
28以上
合计
4
160
2.50%
100.00%
100.00%
M 0 120
14 8 (14 8) (14 10 )
5 123 (个)
另用上限公式计算
解释123所代表的含义
练习4:请计算众数
按销售额分组 12以下 12~14 14~16 人数 6 13 29 频率 3.75% 8.13% 18.13% 累积频率 % 3.75% 11.88% 30.00%
思考:中位数的优缺点
算术平均数
1. 描述数据集中程度和一般水平
2. 最常见的统计量;可靠的统计量 3. 易受异常值影响 4. 分类: 简单;加权 5.用于数值型数据,不能用于定类数据和定 序数据
算术平均数种类及计算方法
一、简单算术平均数
适用于未分组资料(原始资料)
X
Xi
i 1
n
X1 X 2 X n n
26.07
14.26 26.7 17.84 26.93 17.66 27.76 31.16 19.45 21.34 32.55
18.78
17.79 15.76 17.61 15.82 21.53 15.86 17.16 22.84 15.99 16.16
17.31
15.13 18.22 17.25 21.53 17.34 19.46 17.41 23.65 17.43 22.13
引例3
香港中文大学2003年2月13日一项调查 表明,公务员“平均工资”比私人公司 高17%。于是,香港政府有关部门准备 以此为依据给公务员减薪,引起各方争 议,你认为如何?
众数(mode)
1.
出现频率最高的数 不易受极端值影响
2.
3.
有时候会有几个众数或者不存在众数
既适用于数值型数据,也可用于定类数据和 定序数据
19.05
25.64 19.27 12.96 21.16 17.25 13.33 17.25 13.61 21.4 13.68
15.65
17.61 15.46 15.77 17.7 23.16 17.75 15.71 27.5 17.9 25.4
14.52
21.81 14.78 18.28 14.92 15.08 21.42 13.25 15.27 18.94 15.37
M 0 16
36 29 (36 29) (36 25)
2
另用上限公式计算
解释其值所代表的含义
案例:莎士比亚著作中的众数
一些专家用统计侦探方法帮助莎士比亚得到了他的 应得之物,这种统计方法依赖于众数的应用。 在三年的时间里,一个由Claremont学院本科生组成 的莎士比亚诊所,用统计分析对58个作家的作品中 选取片断,并将其分成500字一段的小段。他们对区 组中一些变量进行计数统计,例如,学生们考察52 个关键字的出现情况,并找出其众数。利用各种统 计策略,他们得到了各个作家的主要特征。调查结 束时,27个被选者的诗中没有一个能通过众数检验。 结论:就是莎士比亚写下了他本人的诗篇。
3. 不同类型的数据用不同的集中趋势测度值
4. 类型:众数 、中位数、均值
第一节
一.
集中趋势的测度
众数
位置平均数
二. 中位数 三. 均值(算数平均数、加权算数平均数、调和平 均数、几何平均数) 数值平均数 四. 众数、中位数和均值的比较
引例1: “当代美国的平均人是女人,平均每个女 人有2.1个孩子,且这些女人住在平均价 值为80000$的住房中。”
一、中位数位置的确定
未分组数据:
分组数据:
中位数位置
N 2
二、中位数的计算
1、未分组数据的中位数
Me
X N 1 2 1 X X N 2 2
当N为奇数时 N 1 2
当N为偶数时
中位数例子(1)
原始数据:24.1 22.6 21.5 23.7 22.6 排序数据:21.5 22.6 22.6 23.7 24.1 位置: 1 2 3 4 5
4.
5. 计算方法:直接观察法;插补法
众数类型
没有众数 原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 仅有一个众数 原始数据: 6.3 4.9 8.9 不止一个众数 原始数据: 21
6.3 4.9 4.9
28 28
41
43 43
图 形 显 示
无众数
一个众数
多众数
众数计算
2、分组数据的中位数
(1)根据位置公式确定中位数所在的组(N/2) (2)采用下列近似公式计算:
L 中位数所在组的下限
N Me L 2 S m 1 d fm
fm
中位数所在组的次数
பைடு நூலகம்
d 中位数所在组的组距
S m 1 中位数所在组以下各组的累积次数(按以上累积计算)
(3)该公式假定中位数组的频数在该组内均匀分布
n 1 5 1 3.0 中位数位置 2 2 中位数 22.6
中位数例子(2)
原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 排序数据: 4.9 6.3 7.7 8.9 10.3 11.7 位 置: 1 2 3 4 5 6
3.5 中位数位 2 2 置 中位数 7 .7 8 .9 8 .30 2 n 1 6 1
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状)
数据分布的特征和测度
数据的特征和测度
集中趋势
众 数 中位数 均 值
离散程度
离散系数
四分位差
分布的形状
偏 态
方差和标准差
峰 度
极差
集中趋势 (Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度
2. 测度集中趋势就是寻找数据一般水平的代表值或中心值
8.4
15.88 18.29 21.64 13.97 15.34 14.61 21.88 17.96 18.55 21.16
18.24
14.87 17.39 13.51 18.33 23.45 18.42 18.51 17.48 18.63 18.64
13.61
18.96 14.16 19.25 11.43 19.35 31.34 17.43 19.55 19.91 21.03
中位数(Median)
1. 数据排序后位于中间位置的数值
50%
50%
Me – 若有奇数个数值, 中位数就是正中间的数 – 若有偶数个数值, 中位数等于最中间2个数的平均值 2.中位数位置 =(n+1)/2 3.不容易受异常值影响 4.主要用于定序数据,也可用数值型数据,但不能用于定类 数据
中位数计算
M0 L f f 1 (f f 1 ) (f f 1 ) d
L 为众数组的下限
f
为众数组次数
f 1 为上一组次数
f 1为下一组次数
d 为众数组组距
4. 该公式适用于等距的变量数列。
众数组
M 0 组中值
Mo
M0 L
Mo
f f 1 ( f f 1 ) ( f f 1 )
i
Mo
练习3
【例4.1】根据表3-5中的数据,计算50名工人日加工零件数 的众数
表3-5 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 —
练习1(组距型)
【例】根据表3-5中的数据,计算50 名工人日加工零件 数的中位数
表3-5 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
频数(人) 3 5 8 14 10 6 4
算术平均数的计算方法
【例】
某售货小组5个人,某天的销售额分别为520 元、600元、480元、750元、440元,则平均 每人日销售额为多少?
解:平均每人日销售额为:
X
X
N
520 600 480 750 440 5
2790 5
558元
练习1:某保险公司160名员工月销售额数据
公司160名员工的月销售额统计数据(单位:千元)
25.05 8.81 24.26 9.64 11.05 17.48 22.38 17.57 17.57 15.64 13.8 23.4 21.66 18.73 26.74 25.29 17.93 25.53 12.37 25.83 15.42 18.64 23.94 15.48 16.98 16.22 15.56 17.07 17.14 21.25 21.09 13.22 21.19 17.16 21.31 17.93 21.72 17.97 18.02 32.4 26.51 17.52 18.69 15.43 17.57 22.28 17.75 22.65 15.88 13.85
50
累积频数 3 8 16 30 40 46 50 50 47 42 34 20 10 4
—
50 M e 120 2
16 5 123 .21(个)
14
请用上限公式计算(需要先计算向上累计频数)
解释其含义
练习2(单项型)
【例】根据表3-2中的数据,计算甲城市家庭对住房满 意状况评价的中位数
方法: 观察法:适用于定类数据和定序数据 插补法:适用于数值型分组数据
定类数据
【例】
(练习1)
根据第二章中的数据,计算众数
表3-1 某城市居民关注广告类型的频数分布 广告类型 人数(人) 比例 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
合计
112 51 9 16 10 2
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
甲城市
户数 (户) 24 108 93 45 30 累计频数 24 132 225 270 300
合计
300
—
解:中位数的位置为: 300/2=150 从累计频数看,中位数的在“一般”这一组别中 。因此 Me=一般
200
0.560 0.255 0.045 0.080 0.050 0.010
1
56.0 25.5 4.5 8.0 5.0 1.0
100
解: 这里的变量为“广告类型”,这是个定类变 量 ,不同类型的广告就是变量值。我们看到,在所 调查的200人当中,关注商品广告的人数最多,为
112人,占总被调查人数的56%,因此众数为“商 品
Mo=商品广告
解释其所代表的含义
定序数据(练习2)
【例】根据表3-2中的数据,计算众数
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
非常不满意 不满意 一般 满意 非常满意 合计
甲城市 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0
第 四 章
数据分布特征的描述
第一节
集中趋势的测度
第二节
第三节
离散程度的测度
偏态与峰度的测度
学习目标
1.
集中趋势各测度值的计算方法 集中趋势不同测度值的特点和应用场合 离散程度各测度值的计算方法 离散程度不同测度值的特点和应用场合
2.
3.
4.
5.
偏态与峰度测度方法
6. 用Excel计算描述统计量并进行分析
解:这里的数据为定序数据。变量为“回答
类别”。甲城市中对住房表示不满意的户数
最多,为108户,因此众数为“不满意”这 一类别,即
Mo=不满意
解释其所代表的含义
数值型分组数据的众数
1. 众数的值与相邻两组频数的分布有关 2. 相邻两组的频数相等时,众数组的组中值即为众数 3. 相邻两组的频数不相等时,众数采用下列近似公式计算
请解释这句话的含义?
引例2
美国哈佛医学院基因诊断研究室主任(博士后) 撰写了一本科普读物: 《人体革命》。书中以详实资料说明我国各个 历史时期的人均平均寿命: 2001年:72岁,上海、广州等76岁左右。 1981年:68岁; 1957年:57岁;
解放前民国时期:35岁; 清代:33岁; 宋代:30岁; 唐朝:27岁; 东汉:22岁; 秦朝:20岁; 夏朝:18岁。
16~18 18~20
20~22 22~24 24~26 26~28
36 25
18 13 9 7
22.50% 15.63%
11.25% 8.13% 5.63% 4.38%
52.50% 68.13%
79.38% 87.50% 93.13% 97.50%
28以上
合计
4
160
2.50%
100.00%
100.00%
M 0 120
14 8 (14 8) (14 10 )
5 123 (个)
另用上限公式计算
解释123所代表的含义
练习4:请计算众数
按销售额分组 12以下 12~14 14~16 人数 6 13 29 频率 3.75% 8.13% 18.13% 累积频率 % 3.75% 11.88% 30.00%
思考:中位数的优缺点
算术平均数
1. 描述数据集中程度和一般水平
2. 最常见的统计量;可靠的统计量 3. 易受异常值影响 4. 分类: 简单;加权 5.用于数值型数据,不能用于定类数据和定 序数据
算术平均数种类及计算方法
一、简单算术平均数
适用于未分组资料(原始资料)
X
Xi
i 1
n
X1 X 2 X n n
26.07
14.26 26.7 17.84 26.93 17.66 27.76 31.16 19.45 21.34 32.55
18.78
17.79 15.76 17.61 15.82 21.53 15.86 17.16 22.84 15.99 16.16
17.31
15.13 18.22 17.25 21.53 17.34 19.46 17.41 23.65 17.43 22.13
引例3
香港中文大学2003年2月13日一项调查 表明,公务员“平均工资”比私人公司 高17%。于是,香港政府有关部门准备 以此为依据给公务员减薪,引起各方争 议,你认为如何?
众数(mode)
1.
出现频率最高的数 不易受极端值影响
2.
3.
有时候会有几个众数或者不存在众数
既适用于数值型数据,也可用于定类数据和 定序数据
19.05
25.64 19.27 12.96 21.16 17.25 13.33 17.25 13.61 21.4 13.68
15.65
17.61 15.46 15.77 17.7 23.16 17.75 15.71 27.5 17.9 25.4
14.52
21.81 14.78 18.28 14.92 15.08 21.42 13.25 15.27 18.94 15.37
M 0 16
36 29 (36 29) (36 25)
2
另用上限公式计算
解释其值所代表的含义
案例:莎士比亚著作中的众数
一些专家用统计侦探方法帮助莎士比亚得到了他的 应得之物,这种统计方法依赖于众数的应用。 在三年的时间里,一个由Claremont学院本科生组成 的莎士比亚诊所,用统计分析对58个作家的作品中 选取片断,并将其分成500字一段的小段。他们对区 组中一些变量进行计数统计,例如,学生们考察52 个关键字的出现情况,并找出其众数。利用各种统 计策略,他们得到了各个作家的主要特征。调查结 束时,27个被选者的诗中没有一个能通过众数检验。 结论:就是莎士比亚写下了他本人的诗篇。
3. 不同类型的数据用不同的集中趋势测度值
4. 类型:众数 、中位数、均值
第一节
一.
集中趋势的测度
众数
位置平均数
二. 中位数 三. 均值(算数平均数、加权算数平均数、调和平 均数、几何平均数) 数值平均数 四. 众数、中位数和均值的比较
引例1: “当代美国的平均人是女人,平均每个女 人有2.1个孩子,且这些女人住在平均价 值为80000$的住房中。”
一、中位数位置的确定
未分组数据:
分组数据:
中位数位置
N 2
二、中位数的计算
1、未分组数据的中位数
Me
X N 1 2 1 X X N 2 2
当N为奇数时 N 1 2
当N为偶数时
中位数例子(1)
原始数据:24.1 22.6 21.5 23.7 22.6 排序数据:21.5 22.6 22.6 23.7 24.1 位置: 1 2 3 4 5
4.
5. 计算方法:直接观察法;插补法
众数类型
没有众数 原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 仅有一个众数 原始数据: 6.3 4.9 8.9 不止一个众数 原始数据: 21
6.3 4.9 4.9
28 28
41
43 43
图 形 显 示
无众数
一个众数
多众数
众数计算
2、分组数据的中位数
(1)根据位置公式确定中位数所在的组(N/2) (2)采用下列近似公式计算:
L 中位数所在组的下限
N Me L 2 S m 1 d fm
fm
中位数所在组的次数
பைடு நூலகம்
d 中位数所在组的组距
S m 1 中位数所在组以下各组的累积次数(按以上累积计算)
(3)该公式假定中位数组的频数在该组内均匀分布
n 1 5 1 3.0 中位数位置 2 2 中位数 22.6
中位数例子(2)
原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 排序数据: 4.9 6.3 7.7 8.9 10.3 11.7 位 置: 1 2 3 4 5 6
3.5 中位数位 2 2 置 中位数 7 .7 8 .9 8 .30 2 n 1 6 1
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状)
数据分布的特征和测度
数据的特征和测度
集中趋势
众 数 中位数 均 值
离散程度
离散系数
四分位差
分布的形状
偏 态
方差和标准差
峰 度
极差
集中趋势 (Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度
2. 测度集中趋势就是寻找数据一般水平的代表值或中心值
8.4
15.88 18.29 21.64 13.97 15.34 14.61 21.88 17.96 18.55 21.16
18.24
14.87 17.39 13.51 18.33 23.45 18.42 18.51 17.48 18.63 18.64
13.61
18.96 14.16 19.25 11.43 19.35 31.34 17.43 19.55 19.91 21.03
中位数(Median)
1. 数据排序后位于中间位置的数值
50%
50%
Me – 若有奇数个数值, 中位数就是正中间的数 – 若有偶数个数值, 中位数等于最中间2个数的平均值 2.中位数位置 =(n+1)/2 3.不容易受异常值影响 4.主要用于定序数据,也可用数值型数据,但不能用于定类 数据
中位数计算
M0 L f f 1 (f f 1 ) (f f 1 ) d
L 为众数组的下限
f
为众数组次数
f 1 为上一组次数
f 1为下一组次数
d 为众数组组距
4. 该公式适用于等距的变量数列。
众数组
M 0 组中值
Mo
M0 L
Mo
f f 1 ( f f 1 ) ( f f 1 )
i
Mo
练习3
【例4.1】根据表3-5中的数据,计算50名工人日加工零件数 的众数
表3-5 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 —
练习1(组距型)
【例】根据表3-5中的数据,计算50 名工人日加工零件 数的中位数
表3-5 某车间50名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
频数(人) 3 5 8 14 10 6 4
算术平均数的计算方法
【例】
某售货小组5个人,某天的销售额分别为520 元、600元、480元、750元、440元,则平均 每人日销售额为多少?
解:平均每人日销售额为:
X
X
N
520 600 480 750 440 5
2790 5
558元
练习1:某保险公司160名员工月销售额数据
公司160名员工的月销售额统计数据(单位:千元)
25.05 8.81 24.26 9.64 11.05 17.48 22.38 17.57 17.57 15.64 13.8 23.4 21.66 18.73 26.74 25.29 17.93 25.53 12.37 25.83 15.42 18.64 23.94 15.48 16.98 16.22 15.56 17.07 17.14 21.25 21.09 13.22 21.19 17.16 21.31 17.93 21.72 17.97 18.02 32.4 26.51 17.52 18.69 15.43 17.57 22.28 17.75 22.65 15.88 13.85
50
累积频数 3 8 16 30 40 46 50 50 47 42 34 20 10 4
—
50 M e 120 2
16 5 123 .21(个)
14
请用上限公式计算(需要先计算向上累计频数)
解释其含义
练习2(单项型)
【例】根据表3-2中的数据,计算甲城市家庭对住房满 意状况评价的中位数
方法: 观察法:适用于定类数据和定序数据 插补法:适用于数值型分组数据
定类数据
【例】
(练习1)
根据第二章中的数据,计算众数
表3-1 某城市居民关注广告类型的频数分布 广告类型 人数(人) 比例 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
合计
112 51 9 16 10 2
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意
甲城市
户数 (户) 24 108 93 45 30 累计频数 24 132 225 270 300
合计
300
—
解:中位数的位置为: 300/2=150 从累计频数看,中位数的在“一般”这一组别中 。因此 Me=一般
200
0.560 0.255 0.045 0.080 0.050 0.010
1
56.0 25.5 4.5 8.0 5.0 1.0
100
解: 这里的变量为“广告类型”,这是个定类变 量 ,不同类型的广告就是变量值。我们看到,在所 调查的200人当中,关注商品广告的人数最多,为
112人,占总被调查人数的56%,因此众数为“商 品