2013-2014-1统计学第四章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 数据的描述性分析
本章内容
第一节 集中趋势的描述
第二节 离散程度的描述 第三节 分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心 值靠拢的倾向,在中心附近的数据数目较 多,而远离中心的较少。对集中趋势进行 描述就是寻找数据一般水平的中心值或代 表值。
算术平均数
算术平均数是总体中各个体的某个数量 标志的总和与个体总数的比值,一般用符 号 x表示。
v3
x
n i 1
i
Leabharlann Baidux
3
fi
3
i 1
n
fi
偏态系数的数值一般在0与±3之间,越接近0, 分布的偏斜度越小;越接近±3,分布的偏斜度 越大。
峰度
峰度是分布集中趋势高峰的形状。在变量数列的 分布特征中,常常以正态分布为标准,观察变量数 列分布曲线顶峰的尖平程度,统计上称之为峰度。
10、在某地区抽取的120家企业按利润额进行分组, 结果如下表所示.
计算120家企业利润额的均值和标准差.
11、某管理局抽查了所属的8家企业,其产品销售数据如 下表所示,试比较产品销售额和销售利润的离散程度.
12、假定某班学生先后两次进行了难度不同的大学英语 综合考试,第一次考试成绩的均值和标准差分别为80分和 10分,而第二次考试成绩的均值和标准差分别为70分和7 分.张三第一、二次考试的成绩分别为92分和80分,那么 全班相比较而言,他哪一次考试的成绩更好呢?
……… ………
第12年末的本利和为:
4 2 2
V 1 3﹪ 1 5﹪ 1 8﹪ 110﹪ 115﹪
3
第12年的计 息基础
则该笔本金12年总的本利率为: 4 2 总的本利和 V 1 0.03 1 0.05 L 1 0.15
本金
4
V
2
1 0.03 1 0.05 L 1 0.15
v4 3
x
n i 1 n i 1
i
x fi
i
4
4
f
3
4
正态分布的峰度系数为0,当>0时为尖峰分 布,当<0时为平顶分布。
第四章讨论题 1、任何平均数都受变量数列中的极端值的影 响。 2、中位数把变量数列分成了两半,一半数值 比他大,一半数值比他小。 3、任何变量数列都存在众数。 4、算术平均数、中位数和众数三者的数量关 系说明什么样的变量分布特征? 5、什么是众数?有什么特点?试举例说明其 应用。 6、极差越小说明数据的代表性越好,数据越 稳定;
30
8 4 1
案例3:丙班《统计学》考试情况如下表: 60分以下 2
60-70
70-80 80-90 90分以上
5
12 25 7
问题
1、计算甲、乙、丙三个班的平均成绩;该平均值是 真实值还是近似值?如是近似值,什么情况下会是 真实值? 2、计算甲、乙、丙三个班的中位数、众数; 3、如要选择从算术平均数、中位数和众数三个平均 数中选择一个数来分别代表甲、乙、丙三个班的整 体水平,请问你会选择哪个平均数?为什么? 4、如要分别反映甲、乙、丙三个班的考试情况,你 会选择用哪些指标来衡量? 5、如要比较甲、乙、丙三个班的考试情况的优劣, 你又会选择什么样的指标来衡量?
16
分析:
设最初投产100A个单位 ,则 第一道工序的合格品为100A×0.95; 第二道工序的合格品为(100A×0.95×0.92) ; …… 第五道工序的合格品为 (100A×0.95×0.92×0.90×0.85×0.80;
因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
某数量标志的总和 算术平均数 对应的个体总数
◆简单算术平均数 ◆加权算术平均数 ◆算术平均数的数学性质
案例1:甲班《统计学》考试情况如下表: 60分以下
60-70 70-80
2
8 22
80-90
90分以上
10
4
案例2:乙班《统计学》考试情况如下表: 60分以下 2
60-70
70-80 80-90 90分以上
解: 总合格品 100A 0.95 0.92 0.90 0.85 0.80
总产品 100A 0.95 0.92 0.90 0.85 0.80
X 5 0.95 0.92 0.90 0.85 0.80 5 0.5349 88.24﹪
【例】某金融机构以复利计息。近12年来 的年利率有4年为 3﹪,2年为5﹪,2年为 8﹪,3年为10﹪,1年为15﹪。求平均年 利率。
分析: 设本金为V,则至各年末的本利和应为:
V ﹪ 第1年末的本利和为: 1 3
第2年的 计息基础
第2年末的本利和为:V 1 3﹪1 3﹪
L
为中位数组的下限;
i
f m 为中位数组的次数;
为中位数组的组距。
众数
众数是一组数据中出现次数最多的那 个变量值,通常用M0表示。
◆由未分组数据确定众数 ◆由单项数列确定众数 ◆由组距数列确定众数
组距式变量数列计算众数的公式:
1 M0 L i 1 2 M 0 :众数,L:众数组的下限值; 1:众数组次数与下一组次数之差; 2:众数组次数与上一组次数之差; i:众数组的组距。
总合格品 100A 0.95 0.92 0.90 0.85 0.80 总产品 100A 0.95 0.92 0.90 0.85 0.80
即该流水线总的合格率等于各工序合格 率的连乘积,符合几何平均数的适用条 件,故需采用几何平均法计算。
因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
对比
1. 众数、中位数和算术平均数的关系
2. 众数、中位数和算术平均数的特点与应用场合
2、几何平均数
用处:用于计算比率、发展速度的平均值。 使用几何平均数的条件:
各个比率或速度的连乘积等于总比率
或总速度; 相乘的各个比率或速度不为零或负值。
15
【例】某流水生产线有前后衔接的五道工 序。某日各工序产品的合格率分别为95﹪、 92﹪、90﹪、85﹪、80﹪,求整个流水生 产线产品的平均合格率。
即12年总本利率等于各年本利率的连乘积,符 合几何平均数的适用条件,故计算平均年本利 率应采用几何平均法。 解:
X
4 2 L 1
1 0.03 1 0.05
4
2
L 1 0.15
12 2.2154 106.85 ﹪ 平均年利率 X G 1 106.85 1 6.85 ﹪ ﹪
数据标准化
标准化数值是变量值与其平均数的离差 除以标准差后的值,也称为z分数或标准分 数。设标准化数值为z,则有:
z
xi x
偏态
偏态是对分布偏斜方向和程度的测度。变量分 组后,总体中各个体在不同的分组变量值下分布 并不均匀对称,而呈现出偏斜的分布状况,统计 上将其称为偏态分布。
3
7、四分位差、平均差和标准差衡量的是哪个平均指 标的代表性?上述三个指标哪些优越? 8、如果某同学在英语竞赛中的标准得分为2,并且 知道1%为一等奖,5%为二等奖,10%为三等奖, 则 则他( )。 A.获一等奖 B.获二等奖 C.获三等奖 D.无缘奖项 9、想知道某班同学统计学考试成绩的稳定性,需要 用哪些指标比较好?相比较某班同学统计学考试成 绩和大学英语考试成绩的稳定性,用哪些指标比较 好?
• 加权几何平均数
当计算几何平均数的各种变量值出现的次数不 等时,即数据经过了统计分组时,则应采用加权 几何平均数。若以 xi表示第 i 组的变量值,以 fi i 表示第i 组的频数,以k 表示分组数,则加权几 k (i 何平均数的计算公式为: 1, 2, 3,, k )
f i x f1 x f 2 L x f k f i x f i ; x 1 2 k i
6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?
由组距数列确定中位数
先计算各组的累计次数,再按公式
f
i 1
n
i
确定
中位数的位置,并对照累计次数确定中位数。 下限公式:
2
f
i 1
n
i
Me L
2
s m 1 fm
i
f 为总次数;
Sm 1 为中位数组前一组的向上累计次数;
本章内容
第一节 集中趋势的描述
第二节 离散程度的描述 第三节 分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心 值靠拢的倾向,在中心附近的数据数目较 多,而远离中心的较少。对集中趋势进行 描述就是寻找数据一般水平的中心值或代 表值。
算术平均数
算术平均数是总体中各个体的某个数量 标志的总和与个体总数的比值,一般用符 号 x表示。
v3
x
n i 1
i
Leabharlann Baidux
3
fi
3
i 1
n
fi
偏态系数的数值一般在0与±3之间,越接近0, 分布的偏斜度越小;越接近±3,分布的偏斜度 越大。
峰度
峰度是分布集中趋势高峰的形状。在变量数列的 分布特征中,常常以正态分布为标准,观察变量数 列分布曲线顶峰的尖平程度,统计上称之为峰度。
10、在某地区抽取的120家企业按利润额进行分组, 结果如下表所示.
计算120家企业利润额的均值和标准差.
11、某管理局抽查了所属的8家企业,其产品销售数据如 下表所示,试比较产品销售额和销售利润的离散程度.
12、假定某班学生先后两次进行了难度不同的大学英语 综合考试,第一次考试成绩的均值和标准差分别为80分和 10分,而第二次考试成绩的均值和标准差分别为70分和7 分.张三第一、二次考试的成绩分别为92分和80分,那么 全班相比较而言,他哪一次考试的成绩更好呢?
……… ………
第12年末的本利和为:
4 2 2
V 1 3﹪ 1 5﹪ 1 8﹪ 110﹪ 115﹪
3
第12年的计 息基础
则该笔本金12年总的本利率为: 4 2 总的本利和 V 1 0.03 1 0.05 L 1 0.15
本金
4
V
2
1 0.03 1 0.05 L 1 0.15
v4 3
x
n i 1 n i 1
i
x fi
i
4
4
f
3
4
正态分布的峰度系数为0,当>0时为尖峰分 布,当<0时为平顶分布。
第四章讨论题 1、任何平均数都受变量数列中的极端值的影 响。 2、中位数把变量数列分成了两半,一半数值 比他大,一半数值比他小。 3、任何变量数列都存在众数。 4、算术平均数、中位数和众数三者的数量关 系说明什么样的变量分布特征? 5、什么是众数?有什么特点?试举例说明其 应用。 6、极差越小说明数据的代表性越好,数据越 稳定;
30
8 4 1
案例3:丙班《统计学》考试情况如下表: 60分以下 2
60-70
70-80 80-90 90分以上
5
12 25 7
问题
1、计算甲、乙、丙三个班的平均成绩;该平均值是 真实值还是近似值?如是近似值,什么情况下会是 真实值? 2、计算甲、乙、丙三个班的中位数、众数; 3、如要选择从算术平均数、中位数和众数三个平均 数中选择一个数来分别代表甲、乙、丙三个班的整 体水平,请问你会选择哪个平均数?为什么? 4、如要分别反映甲、乙、丙三个班的考试情况,你 会选择用哪些指标来衡量? 5、如要比较甲、乙、丙三个班的考试情况的优劣, 你又会选择什么样的指标来衡量?
16
分析:
设最初投产100A个单位 ,则 第一道工序的合格品为100A×0.95; 第二道工序的合格品为(100A×0.95×0.92) ; …… 第五道工序的合格品为 (100A×0.95×0.92×0.90×0.85×0.80;
因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
某数量标志的总和 算术平均数 对应的个体总数
◆简单算术平均数 ◆加权算术平均数 ◆算术平均数的数学性质
案例1:甲班《统计学》考试情况如下表: 60分以下
60-70 70-80
2
8 22
80-90
90分以上
10
4
案例2:乙班《统计学》考试情况如下表: 60分以下 2
60-70
70-80 80-90 90分以上
解: 总合格品 100A 0.95 0.92 0.90 0.85 0.80
总产品 100A 0.95 0.92 0.90 0.85 0.80
X 5 0.95 0.92 0.90 0.85 0.80 5 0.5349 88.24﹪
【例】某金融机构以复利计息。近12年来 的年利率有4年为 3﹪,2年为5﹪,2年为 8﹪,3年为10﹪,1年为15﹪。求平均年 利率。
分析: 设本金为V,则至各年末的本利和应为:
V ﹪ 第1年末的本利和为: 1 3
第2年的 计息基础
第2年末的本利和为:V 1 3﹪1 3﹪
L
为中位数组的下限;
i
f m 为中位数组的次数;
为中位数组的组距。
众数
众数是一组数据中出现次数最多的那 个变量值,通常用M0表示。
◆由未分组数据确定众数 ◆由单项数列确定众数 ◆由组距数列确定众数
组距式变量数列计算众数的公式:
1 M0 L i 1 2 M 0 :众数,L:众数组的下限值; 1:众数组次数与下一组次数之差; 2:众数组次数与上一组次数之差; i:众数组的组距。
总合格品 100A 0.95 0.92 0.90 0.85 0.80 总产品 100A 0.95 0.92 0.90 0.85 0.80
即该流水线总的合格率等于各工序合格 率的连乘积,符合几何平均数的适用条 件,故需采用几何平均法计算。
因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
对比
1. 众数、中位数和算术平均数的关系
2. 众数、中位数和算术平均数的特点与应用场合
2、几何平均数
用处:用于计算比率、发展速度的平均值。 使用几何平均数的条件:
各个比率或速度的连乘积等于总比率
或总速度; 相乘的各个比率或速度不为零或负值。
15
【例】某流水生产线有前后衔接的五道工 序。某日各工序产品的合格率分别为95﹪、 92﹪、90﹪、85﹪、80﹪,求整个流水生 产线产品的平均合格率。
即12年总本利率等于各年本利率的连乘积,符 合几何平均数的适用条件,故计算平均年本利 率应采用几何平均法。 解:
X
4 2 L 1
1 0.03 1 0.05
4
2
L 1 0.15
12 2.2154 106.85 ﹪ 平均年利率 X G 1 106.85 1 6.85 ﹪ ﹪
数据标准化
标准化数值是变量值与其平均数的离差 除以标准差后的值,也称为z分数或标准分 数。设标准化数值为z,则有:
z
xi x
偏态
偏态是对分布偏斜方向和程度的测度。变量分 组后,总体中各个体在不同的分组变量值下分布 并不均匀对称,而呈现出偏斜的分布状况,统计 上将其称为偏态分布。
3
7、四分位差、平均差和标准差衡量的是哪个平均指 标的代表性?上述三个指标哪些优越? 8、如果某同学在英语竞赛中的标准得分为2,并且 知道1%为一等奖,5%为二等奖,10%为三等奖, 则 则他( )。 A.获一等奖 B.获二等奖 C.获三等奖 D.无缘奖项 9、想知道某班同学统计学考试成绩的稳定性,需要 用哪些指标比较好?相比较某班同学统计学考试成 绩和大学英语考试成绩的稳定性,用哪些指标比较 好?
• 加权几何平均数
当计算几何平均数的各种变量值出现的次数不 等时,即数据经过了统计分组时,则应采用加权 几何平均数。若以 xi表示第 i 组的变量值,以 fi i 表示第i 组的频数,以k 表示分组数,则加权几 k (i 何平均数的计算公式为: 1, 2, 3,, k )
f i x f1 x f 2 L x f k f i x f i ; x 1 2 k i
6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?
由组距数列确定中位数
先计算各组的累计次数,再按公式
f
i 1
n
i
确定
中位数的位置,并对照累计次数确定中位数。 下限公式:
2
f
i 1
n
i
Me L
2
s m 1 fm
i
f 为总次数;
Sm 1 为中位数组前一组的向上累计次数;