第一章数据分析的基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
85.0
18
30
110— 130
5
8.3
56
93.3
9
15.0
130以上 4 6.7
60
100.0
4
6.7
合计 60 100
—
—
—
—
⑶洛伦茨曲线 累计频数(或频率)分布曲线可用来研究财富、
土地、和工资收入是否公平,最早是由美国洛伦 茨博士(Dr.M.O.Lorenz)提出,故又称洛伦茨曲 线图.
绘图方法见课本P9例1.3.
布表
成绩(分)
人数(人)
比率(%)
50-60
2
5.00
60-70
8
20.00
70-80
14
35.00
80-90
12
30.00
90-100
4
10.00
合计
40
100.00
组别
次数(频数)
频率
变量数列2大要素:
⑴由不同变量值所划分的组(组别) ⑵频数(各组变量值出现的次数)
备注: ⑴频数越大的组所对应的变量值对其平均水 平的作用越大,反之亦然;
表1-3:某超市60位顾客购货金额的次数分布表
购货金额(元) 顾客数(个) 比重(%)
10—30
7
11.7
30—50
15
25.0
50—70
12
20.0
70—90
8
13.3
90—110
9
15.0
110—130
5
8.3
130以上
4
6.7
合计
60
100
组别
次数(频数)
频率
3. 累计频数与累计频率
向上累计
组距分组数列(适用于连续型变量或取值较 多)表1-2
表1-1:某城市居民家庭人口数分布表
居民家庭人口 数分组(人)
1 2 3 4 合计 组别
户数(户)
50 300 1200 130 1680 次数(频数)
比率(%)
2.98 17.86 71.17 7.99 100.00 频率
表1-2:某班级40名学生数学考试考试成绩分
d 151.0 12.0 19.86
7
选择整数 d 20
③确定组限:上限和下限 原则:上限不在内
变量最小值为整数,可将此值作为最低一组下限 变量最小值不为整数时,可将比此值Байду номын сангаас一点的整 数作为最低一组下限.
下限→上限→下一组下限→上限→ … →最高组上限
④计算各组的次数(频数)
⑤编制变量数列:依各组变量值的变动范围、各组的 次数,将各组变量值按照从小到大排列,并写出相应 次数.
2.变量数列的编制
⑴单项数列的编制:列出组别、频数、频率即可; ⑵组距数列的编制:
①确定组数:通常在5-20多之间 异距分组:适用于变动不均匀,变化幅度很大 等距分组:适用于变动较均匀,优点为便于比较、 分析.
斯特吉斯(H.A.Sturges)给出等距分组中大致计算 组数的公式:
m 1 3.322lg N
4.变量数列分布图
变量的次数分布: 次数分布表
次数分布图
柱状图,直方图,折线图等
变量的次数分布显示不同取值出现的次数,概括 变量取值整体上的分布状况. 缺点:无法全面、系统地评价
第二节 分布中心的测度
一.分布中心的测度指标及计算方法
分布中心:指距离变量的所有的取值最近的位置.
能反映取值的一般水平.
⑵频数:绝对数权数,用 f 表示,
频率:相对数权数,用 f 表示.
f
例1.1.根据抽样调查,某超市某天60位顾客的 购货金额数据资料如下(单位:元):
50.1 44.2 38.6 77.5 82.3 20.4 80.2 79.8 96.0 60.7 29.6 62.1 136.5 85.8 98.6 116.3 39.4 65.0 106.7 48.4 98.5 126.7 117.9 67.6 61.3 151.0 36.8 19.4 54.6 90.8 90.0 131.5 115.2 35.6 109.9 52.1 120.5 31.9 59.2 59.5 86.5 12.0 49.3 92.1 36.8 57.3 30.0 15.0 39.7 26.3 43.6 132.5 40.7 72.5 37.0 76.5 100.0 24.5 66.2 38.8 要求: 编制组距数列.
⑴累计频数(或频率)分布数列
向下累计
向上累计:描述“上限以下” 向下累计:描述“下限以上”
⑵累计频数(或频率)分布曲线: 将以分组变量为横坐标,以累计频数(或频率)
为纵坐标的点用折线连接起来.
向上累计曲线:“呈上升趋势” 向下累计曲线:“呈下降趋势”
表1-4:某超市60位顾客购货金额的分布累计表
购货金 额(元)
顾客 数
(个)
比重 (%)
向上累 计频数
向上累 计频率
向下累 计频数
向上累 计频率
10—30 7 11.7
7
11.7
60
100
30—50 15 25.0
22
36.7
53
88.3
50—70 12 20.0
34
56.7
38
63.3
70—90 8 13.3
42
70.0
26
43.3
90—110 9 15.0 51
本章教学内容
第一节 数据分组与变量数列 第二节 分布中心的测度 第三节 离散程度的测度 第四节 偏度与峰度 第五节 两个变量的相关关系
第一节 数据分组与变量数列
一、变量数列 1.定义:在对变量取值进行分组的基础上,将各
组不同的变量值与其变量值出现的次数排列成的 数列,称为变量数列.
单项分组数列(适用于离散型变量且仅取值不 多个时)表1-1
中位数
众数
算术平均数
分布中心的测度 1.算术平均数:简单算术平均数
加权算术平均数
⑴单项数列的算术平均数
设某一变量 x 的不同取值为 x1, x2,L xn,则算术平
均数公式为:
x x1 x2 L xn xi
n
n
设 x1, x2 ,L xn 代表各组的变量值, f1, f2 ,L fn 分别 对应出现的次数,则加权平均值的公式为:
其中 m 为组数,N 为变量个数; 在例1.1中,N 60 ,由斯特吉斯公式求出组数:
m 1 3.322lg 60 7
②确定组距:
变量最大值 max ,最小值为 min ,可大致计算组
距的最低值 d ,则有:
d max min m
如例1.1中,顾客购货金额变量的最大值151.0,最 小值12.0,等距分组为7组,则最低组距为:
高等教育自学考试
管理数量方法与分析
课程代码:00150 主讲教师:DD
第一章 数据分析的基础
本章学习要求
在这一章中,我们将讨论分组数据分析;中心 趋势分析;离散程度分析;相关系数的测度与分析。 学完本章后,你应当知道:
本章的基本概念; 数据分组与变量数列编制的方法及其应用; 分布中心与离散程度的指标的种类、测定方法 及其应用; 偏度、峰度以及相关系数的作用及计算方法.