数据的描述统计数值法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一位投资者购持有一种股票,在2000、2001、2002 和 2003 年 收 益 率 分 别 为 4.5% 、 2.1% 、 25.5% 、 1.9%。计算该投资者在这四年内的平均收益率
几何平均:
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
3-40
3.4 加权与分组数据
某些数值相对于其它数值可能更重要
变量值的重要程度,通常称为权重 (weight)
加权均值与加权方差
x

w ixi wi


w ixi
wi
s2
Wi Xi x 2 n -1
3-41
案例:支持率的计算
民调地区 东北部 南部 中南部 西部
Q3+3IQR)区间 胡须的画法:找到Q1到内栏间的最小值
以及Q3到内栏间的最大值
3-37
找出异常值
轻微异常值(mild outlier):内栏与外 栏间的数值
极端异常值(extreme outlier):外栏之 外的数值
3-38
Figure 3.19
3-39
MegaStat绘制的盒式图
N
Xi
i=1
N
n
xi
x i=1 n
3-6
Example: 汽车里程油耗案例
计算如下5个数的平均数
30.8, 31.7, 30.1, 31.6, 32.1
5
x
xi
i 1

x1 x2 x3 x4 x5
5
5
x 30.8 31.7 30.1 31.6 32.1 156.3 31.26
Chapter 3
描述性统计: 数值方法
Chapter Outline
3.1 数据集中趋势的度量 3.2 数据离散程度的度量 3.3 百分位数、四分位数与盒式图 3.4 加权平均与分组数据数值 3.5 几何平均数 3.6 偏度与峰度
3-2
3.1 描述集中趋势
除了数据的分布外,我们也想知道数据 的集中趋势
2. 适用于对比率数据的平均,尤其是时序数据
3. 主要用于计算平均增长率、平均收益率
4. 计算公式为
Gm n x1 x2
n
xn n xi i1
5. 可看作是均值的一种变形
lg Gm

1 (lg n
x1
lg
x2

n
lg xi
lg xn )
i 1
n
45
案例:股票投资平均收益率
47
案例:人口2000年-2007年平均增长率
2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 126743 127627 128453 129227 129988 130756 131448 132129
样本均值、方差 样本比例
3-4
集中趋势测度量
Mean, 均值 Median, Md 中位数 Mode, Mo 众数
3-5
均值
Population X1, X2, …, XN
Sample x1, x2, …, xn
x
总体均值(Population Mean) 样本均值(Sample Mean)
选民(百万) 26.9 50.6 34.6 32.5
支持率 40.1% 47.2% 45.1% 39.2%
Xw
fi x i fi

26.9 40.1% 50.6 47.2% 34.6 45.1% 32.5 39.2% 26.9 50.6 34.6 32.5
• 约有99%的数据在平均数加减3个标准差 的范围之内
3-20
标准分(z Scores)
计算公式
Z

X
X S
对某一个数值在一组数据中相对位置的度量
可用于判断一组数据是否有离群点
Fra Baidu bibliotek量纲及标准化处理
3-21
高考的标准分
Z

X
X S
T=500+100Z
考号
姓名 语文 数学 外语 物理 理综 综合分
5
5
3-7
中位数
将数据从小到大排序,排在正中间的数, 即有50%的数大于它,有50%的数小于 它
如果数据个数是奇数,中位数就是排在正中 间的数
如果数据个数是偶数,中位数是两个中间数 的均值
3-8
Example: 汽车里程油耗案例
计算以下5个数的中位数: 30.8, 31.7, 30.1, 31.6, 32.1
数(percentile) 第10百分位数 第90百分位数
3-31
第25百分位数称为下四分位数或第一四 分位数(first quartile )记为Q1
中位数、第50百分位数、第二四分位数
第75百分位数称为上四分位数或第三四
分位数(third quartile )记为Q3

((Qin3te- rQq1u)a内rti距le
7,524 11,070 18,211 26,817 36,551 41,286 49,312 57,283 72,814 90,416 135,540 190,250
i = (10/100)12 = 1.2 不是整数,取2 第10百分位数为11,070
3-34
五数概括法
1. 最小值 2. 第一四分位数Q1 3. 中位数Md 4. 第三四分位数Q3 5. 最大值
算术平均:
G 4.5% 2.1% 25.5% 1.9% 4 8.5%
46
平均发展速度、增长速度
通常用几何平均法求得。计算公式为:
G n a1 a2 an 1 n
a0 a1
an1
ai 1 ai1
n an 1 (i 1, 2, , n) a0
10050516 张华 592 598 642 581 619 636
百分等级
821 837 922 791 883 913
IQ分数的标准分含义
IQ分数具有正态分布,其均值为100,标准差 为15
IQ分数在85-115之间的人士占多大百分比
P85 x 115 Px 115 Px 85
Age
100.00
75.00
50.00
25.00

Africa
Europe
South America
Asia and Pacific
North America
Re gion
3-35
盒子-胡须图 (Box-and-Whiskers Plots)
五数概括的一种扩展,用Q1、Md、Q3以及 四分位差绘制
43.6%
Xs

40.1% 47.2% 45.1% 39.2% 4

42.9%
3-42
分组数据的统计描述
概括成频数分布或直方图的数据 原始数据无法观测到,只能看到每组的
上下限和频数 利用组中值和频数计算均值和方差 属于加权形式
3-43
分组数据的均值和方差
Sample
数据的集中趋势反映了数据的中心 当代美国人的平均人是女人,每个女人
平均有2.1个孩子,且这些女人住在平均 价值是80000美元的住房中。
3-3
参数与统计量
参数:总体的描述性测度,
总体的均值(期望值) 总体方差 总体概率
统计量:样本的函数且不含有未知总体 参数,关于样本的描述性测度,
排序: 30.1, 30.8, 31.6, 31.7, 32.1
奇数,中位数是31.6
3-9
众数
总体或样本中出现次数最多的变量值
频数分布图中最大频数所对应的变量值 最高频数可以多次出现
当有两个众数时,数据称为双峰分布 当有多个众数时,数据称为多峰分布 定性数据(分类数据),其众数是某种类别 众数用来描述定性数据时更有用
3-15
标准差
总体标准差
2
样本标准差
s s2
3-16
Example: Chris’s Class Sizes This Semester
2 60 362 41 362 15 362 30 362 34 362
5
576 25 441 36 4 1082 216.4
Franklin风险最小
3-26
基尼系数(Gini coefficient)
基尼系数= A/(A+B)
3-27
世界的基尼系数:2009
3-28
中国的基尼系数:1978-2008
3-29
3-30
3.3 百分位数、四分位数与盒式图
将数据递增排序,对于某个数值X,如果 有p%的数据小于它,则称X为第p百分位
5
5
216.4 14.71
3-17
Example: Sample Variance and Standard Deviation
5
xi x2
s2 i1 5 1
30.8 31.262 31.7 31.262 30.1 31.262 31.6 31.262 32.1 31.262
3-14
方差
总体方差
N
xi 2
2 i1 N

x1 2 x2 2 xN 2 N
样本方差
n xi x 2
s2

i 1
n
1

x1 x 2 x2 x 2 xn x 2 n 1
1355788888
8 9 9 9 9 9 10 10 10 10
随机抽取20顾客对某品牌电脑的满意度 进行评分(1-10分)
3-36
计算
Q1=7.5,Md=8,Q3=9,IQR=1.5 内栏(inner fence):(Q1-1.5IQR)至
(Q3+1.5IQR)区间 外栏(outer fence):(Q1-3IQR)至(
4 2.572 0.643
4 s s2 0.643 0.8019
3-18
正态分布总体的经验法则
Figure 3.14
3-19
经验法则表明:当一组数据近似正态分布 时
• 约有68%的数据在平均数加减1个标准差 的范围之内
• 约有95%的数据在平均数加减2个标准差 的范围之内
(115 100) (85 100) 2(1)-1 68.3%
15
15
IQ分数超过125的人士占多大百分比
Px

125

1-p

x
100 15

125 100 15


1-(1.65)=5%
23
变异系数
(coefficient of variation)
3-10
三者之间的关系
Figure 3.3
3-11
3.2 离散程度的测量
Figure 3.13
3-12
四种常用的统计量
Range
极差
Variance 方差
Standard 标准差 Deviation
Coefficient 变异系数 of variant
3-13
极差
最大值与最小值间的差 测度数据的波动幅度 温差 股票的振幅
或四分位差 range)记为
IQR
3-32
计算百分位数
1. 将数据按递增排序 2. 计算指数i = (p/100)n ,n为样本容量 3. 如果i不是整数,取比i的整数,这个整数表示
p百分位数的位置 4. 如果i是整数,则p百分位数是递增顺序排列中
位置i与i+1的平均值
3-33
Example (p=10th Percentile)
标准差与其相应的均值之比
对数据相对离散程度的测度
用于对不同组别数据离散程度的比较
可以用来度量风险
计算公式为
v

S X
案例:哪种基金的收益波动大?
RS internet age 基金的平均年收益率 10.93%,标准差是41.96%;
Franklin income A基金的平均年收益率 13%,标准差是9.36%;
x
fi M i fi

fi M i n
s 2
fi M i x 2 n 1
Population

fi M i fi

fi M i N
2
fi M i x 2 N
3-44
3.5 几何平均数(geometric mean)
1. n 个变量值乘积的 n 次方根
Jacob internet基金的平均年收益率 34.45%,标准差是41.16%
3-25
变异系数计算
RS Internet Age : 41.96 / 10.93 =3.839 Franklin Income A : 9.36 / 13 = 0.72 Jacob Internet : 41.14 / 34.45 = 1.194 RS Internet 风险最大, Jacob 次之,
相关文档
最新文档