样本数据的分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2
3
4
5
6
方法1
7
8
9
9 QL 位置 2.25 4
3 9 QU 位置 6.75 4
QL 780 (850 780) 0.25 QU 1250 (1500 1250) 0.75 1437.5 797.5
数值型数据的四分位数
(9个数据的算例)
M
i 1
k
i
fi
n
总体加权平均
M
i 1
k
i
fi
N
加权平均数
(例题分析)
某电脑公司销售量数据分组表
按销售量分组 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计 组中值(Mi) 145 155 165 175 185 195 205 215 225 235 — 频数(fi) 4 9 16 27 20 17 10 8 4 5 120 Mi fi 580 1395 2640 4725 3700 3315 2050 1720 900 1175 22200
Gm n x1 x2 xn 3 109% 116% 120% 114.91%
年平均增长率=114.91%-1=14.91%
几何平均数
(例题分析)
【 例 】 一 位 投 资 者 购 持 有 一 种 股 票 , 在 2000 、 2001 、 2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。 计算该投资者在这四年内的平均收益率
几何平均:
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787% 算术平均: G 4.5% 2.1% 25.5% 1.9% 4 8.5%
四分位数
(quartile)
1.
排序后处于25%和75%位置上的值
25%
QL
25%
n 1 10 1 位置 5.5 2 2
960 1080 中位数 1020 2
加权平均数
(Weighted mean)
设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 样本加权平均
M 1 f1 M 2 f 2 M k f k x f1 f 2 f k M 1 f1 M 2 f 2 M k f k f1 f 2 f k
(x
i 1
n
i
x ) min
2
中位数和平均数数学性质的验证
几何平均数
(geometric mean)
1. 2. 3. 4.
n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为
Gm n x1 x2 xn n
5. 可看作是平均数的一种变形
甲城市家庭对住房状况评价的累积频数分布
宽度
未分组数据—茎叶图
(例题分析)
某电脑公司销售量分布的茎叶图
未分组数据—茎叶图
(扩展的茎叶图)
分组方法
分组方法
单变量值分组
组距分组
等距分组
异距分组
单变量值分组
(要点)
1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况
非常不满意 不满意 一般 满意 非常满意 合计
24 108 93 45 30 300
8 36 31 15 10 100.0
顺序数据的图示—累计频数分布图
(例题分析)
累 积 300 户 数 200
(户) 100 0 非常 不满意 132
400 300
225
270
24
不满意 一般 (a)向上累积 满意 非常 满意
25%
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
刻度级数据的四分位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据(4种方法计算)
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
x百度文库
i 1
n
i
n
1 lg Gm (lg x1 lg x 2 lg x n ) n
lg x
i 1
i
n
几何平均数
(例题分析)
【例】某水泥生产企业 1999 年的水泥产量为 100 万吨, 2000 年与 1999 年相比增长率为 9%, 2001 年 与 2000 年相比增长率为 16% , 2002 年与 2001 年相 比增长率为20%。求各年的年平均增长率
x
M
i 1
k
i
fi
n 22200 185 120
加权平均数
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 人数分布(f ):8 20 1 100 1
1
2
3
4
5
6
7
8
9
n 1 9 1 位置 5 2 2 中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 位 序: 置: 660 750 780 850 960 1080 1250 1500 1630 2000
1 2
3
4
5
6
7
8
9
10
顺序数据的频数分布表
(例题分析)
【例】在一项城 市住房问题的研 究中,研究人员 在甲乙两个城市 各抽样调查300户 ,其中的一个问 题是:“您对您 家庭目前的住房 状况是否满意? ”
1.非常不 满意;2.不满意 ; 3 .一般; 4 . 满意;5.非常满 意。
甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 户数 (户) 百分比 (%) 向上累积 户数 (户) 24 132 225 270 300 — 百分比 (%) 8.0 44.0 75.0 90.0 100.0 —
x甲
x
i 1
n
i
0 8 20 1 100 1 x乙 12(分) n 10
i 1 i
x
n
n
0 1 20 1 100 8 82(分) 10
平均数
(数学性质)
1. 各变量值与平均数的离差之和等于零
(x x) 0
i 1 i
n
2. 各变量值与平均数的离差平方和最小
未分组数据—单批数据箱线图
(箱线图的构成)
X 最小值 QL 中位数
QU
X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
重合式组
组中值
组中值
上限 下限 2
2
非重合式组
本组下限 后一组下限
缺下限组的组中值=上限-(邻组组距/2) 缺上限组的组中值=下限+(邻组组距/2)
频数分布表的编制
(例题分析)
【例】表中 是某电脑公 司2005年前 四个月各天 的销售量数 据 ( 单位:台 ) 。试对数据 进行分组
【例】:9个家庭的人均月收入数据
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
1
2
3
4
5
6
7
8
9
方法2
9 1 3(9 1) QL 位置 2.5 QU 位置 7.5 4 4 780 850 1500 1630 QL 815 QU 1565 2 2
组距=( 最大值 - 最小值)÷ 组数
2.
确定组数:组数的确定应以能够显示数据的分 布特征和规律为目的。在实际分组时,组数一 般为5K 15,
3. 统计出各组的频数并整理成频数分布表
组距分组
(几个概念)
1. 2. 3. 4.
下限(low limit) :一个组的最小值 上限(upper limit) :一个组的最大值 组距(class width) :上限与下限之差 组中值(class midpoint) :
组距分组
(要点)
1.
2.
3. 4. 5.
将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等 距分组
~ ~ ~ ~ ~
组距分组
(步骤)
1. 确定组距:组距 (class width)是一个组的上限与下限 之差,可根据全部数据的最大值和最小值及所分的组 数来确定,即
等距分组表
(上下组限重叠)
等距分组表
(上下组限间断)
等距分组表
(使用开口组)
数值型数据的中位数
(9个数据的算例)
【例】
原始数据: 排 序: 位 置:
9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000