数据分布特征的测度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
左偏的
均值 中位数 众数
对称的
均值 = 中位数 = 众数
右偏的
众数 中位数 均值
探测性数据分析 Exploratory Data Analysis
筛选原始数据的技术: Techniques to Screen Raw Data 1. 检查关于形状的假设Assumptions 2. 确定数据中的极端值的位置
Locate Outliers in the Data 使用盒须图
Box-and-Whisker Plot
盒须图 Box-and-Whisker Plot
用5个度量值概括表述数据特征
Graphical Display of Data Using 5-Number Summary
X最小值 Q1 中位数 Q3 X最大值
集中趋势
均值 中位数 众数 值域中点 中轴数
数值数据 的特征
变异程度
分布形状
全距 四分位间距 方差 标准差 变异系数
偏态
全 距(极差)Range
1. 度量数据的离散程度Measure of
Dispersion
2. 最大和最小观测值之差 全距 X 最大值 X 最小值
3. 不考虑数据是如何分布的
思考题 Thinking Challenge
你是Prudential-Bache 证 券公司的金融分析员. 你 已经收集了新发行股票 的下列收盘价:
17, 16, 21, 18, 13, 16, 12, 11.
描述股票价格的不稳定 性(volatility).
数值数据的特征和度量 Properties & Measures
管理统计学
第四章 数据分布特征的测度 Summarizing & Describing Numerical Data
学习目标 Learning Objectives
1. 解释数值数据的特征
Explain Numerical Data Properties
2. 综合度量描述Describe Summary
Xi
i 1
X1 X2
...
Xn
n
n
中位数 Median
1. 用于度量数据的集中趋势(Central Tendency) 2. 为排序序列的中间值(In Ordered Sequence)
如果 n 是奇数, 即为序列的中间值 如果 n 是偶数, 则为两个中间值的均值
3. 中位数在序列中的位置
Measures 集中趋势 Central Tendency 变异程度 Variation 分布形状 Shape
3. 数值数据的综合度量分析
数值数据的特征和度量 Properties & Measures
集中趋势
均值 中位数 众数 值域中点 中轴数
数值数据的 特征
变异程度
分布形状
全距 四分位间距 方差 标准差 变异系数
安全在于心细,事故出在麻痹。20.10.1620.10.1613: 21:0213:21:02October 16, 2020
踏实肯干,努力奋斗。2020年10月16日下午1时21分 20.10.1620.10.16
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午1时21分 2秒13: 21:0220.10.16
一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1613: 2113:21:0213: 21:02Oct-20
牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五1时21分 2秒Fri day, October 16, 2020
相信相信得力量。20.10.162020年10月 16日星 期五1时21分2秒20.10.16
2. 把排序数据等分为四个区间Quarters
25% 25% 25% 25%
Q1
Q2
Q3
3. 第i个四分位数的位置
定位点
Qi
i (n 1) 4
中 轴 数 Midhinge
1. 用于度量数据的集中趋势(Central
Tendency)
2. 是第一和第三四分位数的中点 中轴数 Q1 Q3 2
集中趋势
均值 中位数 众数 值域中点 中轴数
数值数据 的特征
变异程度
分布形状
全距 四分位间距 方差 标准差 变异系数
偏态
形状 Shape
1. 表明数据是如何分布的
How Data Are Distributed?
2. 形状的度量Measures of Shape
偏态 与 对称 Skew vs. Symmetry
2
(Xn X)
n1
变异系数 Coefficient of Variation
1. 度量相对离散程度 (Measure of Relative Dispersion)
2. 总是一个百分比
3. 表现了相对于均值的变异
4. 用来比较两组或更多组数据
5. 公式 (样本)
C X S 1
7 8 9 10
7 8 9 10
四分位间距
Interquartile Range
1. 度量数据的离散程度Measure of
Dispersion
2. 也称为伸展中心Midspread
3.
为第三和第一四分位数之差 四分位间距 Q3 Q1
4. 此间距包括中间50%的数据 5. 不受极值影响
严格把控质量关,让生产更加有保障 。2020年10月 下午1时 21分20.10.1613:21O ctober 16, 2020
作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五1时21分2秒13:21:0216 October 2020
好的事情马上就会到来,一切都是最 好的安 排。下 午1时21分2秒 下午1时 21分13:21:0220.10.16
定位点 n 1 2
4. 不受极值的影响
众 数 Mode
1. 用于度量数据的集中趋势Central
Tendency
2. 为出现次数最多的数值
Value That occurs Most Often
3. 不受极值的影响 4. 可能会出现没有众数或多个众数的情形 5. 对数值数据和类型数据均适用
偏态
均 值 (平均数) Mean
1. 用于度量数据的集中趋势(Central Tendency)
2. 是最常见的集中趋势的度量 3. 如同平衡点(Balance Point) 4. 易受极端数值(Extreme Values)影响 5. 公式 (样本均值) (Sample Mean)
n
X
值域中点 Midrange
1. 用于度量数据的集中趋势(Central
Tendency)
2. 是最小和最大观测值的中点
值域中点 X最小值 X最大值
3. 易受极值影响
2
Affected by Extreme Values
四分位数 Quartiles
1. 用于度量数据的非集中趋势
Measure of Noncentral Tendency
4 6 8 10 12
数据形状(Shape)与盒须图
Left-Skewed 左偏的
Q1 中位数 Q3
Symmetric 对称的
Q1 中位数 Q3
Right-Skewed 右偏的
Q 中位数
1
Q3
树立质量法制观念、提高全员质量意 识。20.10.1620.10.16F riday, October 16, 2020
3. 不受极值的影响
Not Affected by Extreme Values
思考题
你是 PrudentialBache 证券公司的金 融分析员。你已经收 集了新发行股票的下 列收盘价:
17, 16, 21, 18, 13, 16, 12, 11.
试描述股票价格的集 中趋势
数值数据的特征和度量
n
2
(Xi X)
S2 i 1
n 1
分母是(n - 1) ! (如果 是总体方差就用N)
2
(X1 X)
(X2
2
X)
...
2
(Xn X)
n 1
样本标准差公式 Sample Standard Deviation
Leabharlann BaiduS S2
n
(Xi X) 2
i 1 n 1
2
(X1 X)
(X2 X) 2 ...
人生得意须尽欢,莫使金樽空对月。13:21:0213:21: 0213:2110/16/2020 1:21:02 PM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1613:21:0213:21O ct-2016-Oct-20
加强交通建设管理,确保工程建设质 量。13: 21:0213:21:0213:21F riday, October 16, 2020
方差和标准差 Variance & Standard Deviation
1. 度量数据的离散程度Measures of
Dispersion
2.
是最为常见的度量 X
3. 考虑数据是如何分布的
4. 表现了相对于均值( X 或者 )的变异
X = 8.3
4 6 8 10 12
样本方差公式 Sample Variance Formula
谢谢大家!