数据、模型与决策第三、四章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

极差
1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布
7 8 9 10 5. 计算公式为
7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据
R
. =
最高组上限
-
最低组下限
极差是离散程度的最简单测度值,它只利用了 一组数据的两个极端值,易受极端值的影响, 且不能反映中间数据的分散状况。
离散趋势的测度
离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数 列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、 平均差和标准差等。
1. 极差
极差是指一个数列中两个极端值即最大值与最小值之间的差异。 根据极差的大小能说明标志值变动范围的大小。其计算公式为:
极差=最大标志值-最小标志值 根据组距数列求极差的计算公式为:
均数,则算术平均数的基本计算公式为
1 2 n
n
1 n
n
j
j 1
✓ 特殊考虑:对于已经过分组并形成频数分布的资料,此时 计算算术平均数就要采用加权的办法。计算加权算术平均 数时,需要对各个组的变量值与相应组的频数的乘积求和, 然后除以频数之和
加权均值
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8
3.对于观察值大量重复的现象,中位数未必准确
四分位数
(概念要点)
1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
4. 主要用于定序数据,也可用于数值型数据, 但不能用于定类数据
集中趋势
✓截尾均值 含义:去掉观察值中部分最大值和最小值, 由保留下来的数据计算平均值称为截尾均值。
比如:1,6,6,6,6,6,10这一组数据,极 差是?
R=10-1=9
和上一组极差值相同,都是9,如果以此断言两 组数据离散程度相同,恐怕很不合适,直觉 告诉我们后一组数据的差异比前一组数据大 的多。
2. 四分位差
四分位差是根据四分位数计算的。首先把变量各单位标志值从 小到大排序,再将数列四等分,处于四分位点位次的标志值就 是四分位数,记作 M1,M2,M3 ,M1 为第一四分位数(也称为下 四分位数),M2 为第二四分位数,就是中位数 Me ,M3 为第三 四分位数。
K
X
X i Fi
i 1 K
Fi
6160 123.( 2 个) 50
i 1
集中趋势
✓ 计算和运用算术平均数是需要注意:
I. 算术平均同时受到两个因素的影响,一个是各组的观察 值的大小,另一个是各组分布频数的多少
II. 算术平均值易受极端值干扰
集中趋势
中位数
MEDIAN
✓ 含义:把观察值按从小到大的顺序排列,位置居中的数叫 做中位数
四分位差的计算公式为: IQR M 3 M1
四分位差与极差相比较:
四分位差是对极差的一种改进。与极差相比,四分位差因不受 极值的影响,在反映数据的离散程度方面比极差准确,具有较 高的稳定性;同时,对于存在开口的组距数列,不能计算极差, 但可以计算四分位差。
四分位差和极差一样,不能充分利用数据的全部信息,也无法 反映标志值的一般变动。
✓ 求下列各组数据的中位数
1)1 ,2,3,3,3,4,6,8,8,8,9,9
中位数是:5
2)1 ,2,3,3,3,4,8,8,8,9,9 中位数是:4
✓公式
Me
(
n1 2
)
,
1
2
n 2
n为奇数
,n为偶数
n 2
1
集中趋势
✓ 中位数是一种较为常用的反映集中趋势的特征数 字
1.不受极端值的影响,具有很强的抗干扰性 2.由组距频数分布资料计算中位数时,要求等距组 数,且要求观察值在中位数所在的组中近似服从对 称分布,否则计算结果可能存在误差
4. 方差和标准差
未分组资料时,方差的公式为:
s2
2
Xi X
n
标准差的公式为:
s
2 Xi X
n
k
分组资料时,方差的公式为:
s2 (xi x)pi i 1
标准差的公式为:
s
k
(xi x) pi
i 1
式中: X
X N
——变量值 ——算术平均数 ——总体单位数
pi ——各组频率 s2 ——方差 s ——标准差
乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1
K
X甲
X i Fi
i 1 K
Fi
wk.baidu.com
0 1 20 1100 8 8( 2 分) 11 8
i 1
K
X乙
X i Fi
i 1 K
Fi
0 8 20 1 100 1 1( 2 分) 8 11
i 1
加权均值
计算50 名工人日加工零件数的均值
极差=最高组上限-最低组下限
在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。 在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超 过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测 定结果往往不能反映数据的实际离散程度。
例子
• 1,3,4,7,8,9,10 • 求极差 • R=10-1=9
数据、模型与决策
秀秀老师
Contents
第三章 统计资料描述分析
1 第一节 图表描述分析 2 第二节 数量资料的特征数字 3 第三节 属性资料的特征数字
第一节 图表描述分析
图表 描述 分析
统计表的种类与应用
单变量的频数分布
频数分布的编制
两变量交叉分类的频数分布
统计资料的图像描述
直方图、折线图与曲线图 累积分布图 饼形图与圆环图
帕累图 散点图 雷达图 茎叶图
第二节 数量资料的特征数字
集中趋势 离散趋势 相关性测量 软件应用
原始数据: 10 5 9 13 6 8
X X1 X2 X3 X4 X5 X6 6
10 5 9 13 6 8 6
8.5
集中趋势
① 算术平均数:
✓ 含义:假定 1,2, n为样本观察值,用 表示算术平
5. 离散系数
上述的各种标志变异度指标,都是对总体中各单位指标 值变异测定的绝对量指标。而离散系数是测定总体中各 单位标志值变异的相对量指标,以消除不同总体之间在 计量单位、平均水平方面的不可比因素。常用的离散系
数主要有平均差离散系数 VA.D. 和标准差离散系数 V
相关文档
最新文档