第二章 数据描述和描述性统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
33 34
协方差和相关性的应用
投资组合P : n项风险资产,资产i的收益率Ri, 投资权重为wi。 投资组合P的收益率RP : RP = ∑ wi Ri
2 投资组合P的方差σ P : 2 σP = E ( RP − E ( RP )) 2
单项资产的风险
资产收益率的方差或标准差来度量 投资组合收益率的方差或标准差来度量
4
3
2.3 数据描述
数据描述-图
频率分布图 相对频率分布图 累积频率分布图 直方图
(相对)频率分布图
纵轴—用高度表示(相对)频率 横轴—用宽度表示等级区间
相对频率
频率
2 1 -8
5
2/51 1/51 -7 -6 收益率 -8 -7 -6 收益率
6
累积频率分布图
累积频率 3 2 1 -8 -7 -6 收益率
Corr ( X , Y ) = ρ XY =
Cov ( X , Y )
σ Xσ Y
Corr ( X , X ), Corr ( X , Y ), Corr ( X , Z ) 相关系数矩阵 = Corr (Y , X ), Corr (Y , Y ), Corr (Y , Z ) Corr ( Z , X ), Corr ( Z , Y ), Corr ( Z , Z ) ρ XX , ρ XY , ρ XZ 1, σ XY , σ XZ = ρYX , ρYY , ρYZ = σ YX ,1, σ YZ ρ , ρ , ρ σ , σ ,1 ZX ZY ZZ ZX ZY
高度 40.04 35.38
高度=相对频率/等级区间宽度
当A=0时,称为k阶原点矩。 当A=平均值时,称为k阶中心矩。 一阶原点矩 算术平均值 方差 偏度 峰度
10
相对 频率
二阶中心矩 三阶中心矩 四阶中心矩
-0ຫໍສະໝຸດ Baidu01
0
0.01
收益率
9
定位度量
众数 中位数 算术平均值 几何平均值
组数据计算公式
σ=
∑ f (X
i =1 i
m
i
− X )2
方案A 方案B
n −1 i:第i个等级区间;X i :第i个等级区间的中点; X所有观测值的平均值;f i : 第i个等级区间的频率; n是全部观测的样本数
21
启示:
统计学上的风险,是事后风险,是样本收益对平均收益的偏差 风险计量方法,不能反应投资者真实的心理感受,应设立标杆
组数据中位数的计算
例子:P44-表2.5 中位数位置:53/2=26.5,利用插值法将中位数计算出 来。
宽度:100 中位数: ? 2500 1 8.5 26.5 频率:9 9
2400 0
重点关注组数据的相关计算。
2400 +
18 19 27
52 + 1 − 19 + 1 2 *100 ≈ 2494.4 9
2.1 引言
统计学
第二章 数据描述和描述性统 计
暨南大学金融系 朱滔
统计学是应用数学的一个分支,是一门关于数 据资料的收集、整理、分析和推断的科学。 统计学的主要内容
描述性统计学 描述收集的数据(手段:图、表、数) 推断统计学 在样本数据基础上,对有关总体作出推断。
1
2
2.2 数据类型
投资组合风险
投资组合P : n项风险资产,资产 i的收益率Ri, 投资权重为wi。 问题:投资组合 P的收益率和方差如何计 算? (? wi )
35
= ∑ wi2σ i2 + 2∑∑ wi w j Cov ( Ri , R j )
i =1 j >i n
n
= ∑ w σ + 2∑∑ wi w jσ ij
非系统风险 系统风险
40
39
例子P61:
2 2 σA = 15%, σ B = 14%
上式表明
(i) ρ AB = 1, σ P = 14.5% =
σ A +σ B
2
组合的风险不仅与风险资产自身有关,还与资产之间的 相关性有关。 问题:资产之间的相关系数,如何影响组合的风险?
(ii ) ρ AB = 0.6, σ P = 12.97% < (iii ) ρ AB = −1, σ P = 0.5% <
31 32
相关系数
随机变量
1、 − 1 ≤ ρ XY ≤ 1 2、相关系数度量的是线性相关关系 3、相关关系 不等于 因果关系
随机变量的期望与方差
E (ξ ), E (aξ ) = aE (ξ )
D(ξ ) = Var (ξ ) = E (ξ − E (ξ )) 2 D(aξ ) = a 2 D(ξ ) Cov (ξ ,η ) = E (ξ − E (ξ ))(η − E (η ))
相关系数
例子:三种风险资产X,Y,Z
协方差由于量纲的影响,并不具有可比性
Cov( X , X ), Cov( X , Y ), Cov( X , Z ) V = Ω = Cov(Y , X ), Cov(Y , Y ), Cov(Y , Z ) Cov( Z , X ), Cov( Z , Y ), Cov( Z , Z )
问:哪种方法是正确的?为什么?
16
P48-50
P49
分位数
组数据低四分位数的计算
n +1 −F Q1 = L + i 4 f
低分位数
位置= n +1 , Q1 4
高分位数
3( n + 1) , Q3 4 半四分为数-中位数 位置= 位置= n +1 , Q2 2
2 i 2 i i =1 j >i n
= ∑ wi2σ i2 + 2∑∑ wi w j ρ ijσ iσ j
i =1 j >i
36
投资多样化的风险减少效应
投资多样化的风险减少效应
一个特例:两种风险资产(A和B)
2 投资组合P的方差σ P : 2 2 2 2 2 σP = wA σ A + wB σ B + 2wi w j ρ ABσ Aσ B
28
2.5 相关的度量
相关的度量:度量两个变量之间的线性关 系关系的方法
协方差 相关系数
(修正样本)协方差
Cov( X , Y ) = σ XY =
∑(X
i =1
n
i
− X )(Yi − Y ) n −1
注意:这些方法只能度量线性相关
如何理解协方差? P58 图2.7
29
30
方差-协方差矩阵
组数据:
X=
∑fX
i =1 i
m
i
n
5
算术平均:35%/5=7% 平均收益率:(127.51-100/100)/5=5.5% 几何平均:
i:第i个等级区间;X i :第i个等级区间的中点; f i : 第i个等级区间的频率; n是全部观测的样本数
15
(1 + 10%)(1 + 20%)(1 + 15%)(1 − 30%)(1 + 20%) − 1 = 4.98%
4
峰度系数 =
n −1
相对频率
相对频率
( X i − X )2 ∑ i =1 n −1
n n i =1
如何理解峰度系数? 正态分布的峰度系数为3
收益率 高峰态 低峰态
收益率
27
∑(X
i =1
n
i
2 − X ) 4=∑ ( X i − X ) 2 ( X i − X)
描述性统计学—数
取值方式划分
给定统计数据,如何分别使用一个数来概括描 述数据某一方面的基本特征。
连续型 离散型
数据构成方式划分
定位度量或中心趋势度量 离中心趋势度量 偏度度量 峰度度量 相关性度量
横截面数据 时间序列数据 面板数据
按数据是否分组划分
组数据 非组数据
2 : 投资组合P的方差σ P 2 σP = ∑ w i2 σi2 + 2∑∑ w i w jσij i =1 j> i N 1 1 = ∑ 2 σi2 + 2∑∑ 2 σij N N i =1 j> i N
1 ) N
N → +∞
lim (σ 2 P ) = lim (
N → +∞
1 2 N −1 σ + σij ) = σij N N
22
负半方差
方差系数(变异系数)
投资者设定设定标杆t。 半方差计算公式
方差本身由于度量单位的影响,并不具有可比性。
σ
2 SV
=
Ri ≤t
∑ (R − t)
i Ri ≤t
2
容易验证,如果t=0,
2 2 则上例中:σ SV , B < σ SV , A
∑1 − 1
2
CV =
σ
X
一个特例负半方差:
绘制(相对)频率、累积频率图的过程
构建频率分布表(表2.4) 划分等级区间 统计(相对)频率、累积频率 绘制图形
7
8
2.4 描述统计学
直方图(Histogram)-估计的密度函数
纵轴—用面积表示相对频率 横轴—用宽度表示等级区间
矩的公式
∑(X
i =1
n
i
− A) k
n
i =1 i
m
i
− X )2
n −1 i:第i个等级区间;X i :第i个等级区间的中点; X所有观测值的平均值;f i : 第i个等级区间的频率; n是全部观测的样本数
19
20
(修正)样本标准差
负半方差
非组数据计算公式
σ=
∑(X
i =1
n
i
− X )2
方差、标准差在度量风险时的局限
方差和标准差将偏离于均值的所有波动,都算作风险。
11
区间:9
12
组数据中位数的计算
组数据中位数的计算
例子:P45-表2.6 中位数位置:52/2=26,利用插值法将中位数计算出来。
宽度:1% 中位数:
一般化公式(P45)
0% 0 23 1 24 2 25 频率:3 区间:3
1% 3 26
51 + 1 − 24 + 1 0% + 1% * ( 2 ) = 1% 3
2 σX , σ XY , σ XZ σ XX , σ XY , σ XZ 2 , σ YZ = σ YX , σ YY , σ YZ = σ YX , σ Y σ ,σ ,σ 2 ZX ZY ZZ σ ZX , σ ZY , σ Z
n +1 2 −F L + i f
14
算术平均值
非组数据:
几何平均值
X=
∑X
i =1
n
i
n
例子:股票指数5年中按以下比例增长: 10%,20%,15%,-30%,20%。5年前开始的指数为100 点,因此,5年中指数分别为:110, 132, 151.80, 106.26, 127.51。 三种计算收益率计算方法
2 = σ NSV Ri ≤ R
∑ (R − R )
i Ri ≤ R
∑1 − 1
23 24
相对频率
偏度
偏度:随机变量分布的对称性
随机变量分布的对称性
收益率 负偏度
∑(X
i =1
n
i
− X )3
3
偏度系数 =
n −1 − X )2 n −1
i
相对频率
相对频率
σ A +σ B
2 2
38
σ A +σB
37
投资多样化的风险减少效应
问题:随着资产组合P的投资范围不断扩大,组合 的风险会如何?
2 : 投资组合P的方差σ P 2 ?σ P →0 2 ?σ P →∞ 2 ?σ P → 其他
假定: (1)风险资产组合P有N种风险资产, 为等权组合(w i = (2)∃K ∈ R + , ∀i, j, σi < K, σ ij < K
17
组数据高四分位数的计算
3(n + 1) −F Q3 = L + i 4 f
18
离散性度量
方差、标准差 半方差、半标准差 方差系数
(修正)样本方差
非组数据计算公式
σ2 =
∑(X
i =1
n
i
− X )2
n −1
组数据计算公式
σ =
2
∑ f (X
∑(X
i =1
n
如何理解偏度系数? 对称分布的偏度系数为0
收益率 正偏度
收益率 无偏度(对称)
25
∑(X
i =1
n
i
2 − X ) 3=∑ ( X i − X )( X i − X) i =1
n
26
相对频率
峰度
峰度:随机变量分布的尖端程度
随机变量分布的尖端程度
收益率 常峰态
∑(X
i =1
n
i
− X )4
(−0.8 + 0.2) 2 + (0.2) 2 + (0.2 + 0.2) 2 3 −1 (−0.2 − 0.2) 2 + (0.2) 2 + (0.8 − 0.2) 2 2 σB = 3 −1 2 2 σA =σB
2 σA =
n −1
一个例子(非正式):
收益率 平均 0.2 0.8 -0.2 0.2 -0.8 -0.2 0 0
协方差和相关性的应用
投资组合P : n项风险资产,资产i的收益率Ri, 投资权重为wi。 投资组合P的收益率RP : RP = ∑ wi Ri
2 投资组合P的方差σ P : 2 σP = E ( RP − E ( RP )) 2
单项资产的风险
资产收益率的方差或标准差来度量 投资组合收益率的方差或标准差来度量
4
3
2.3 数据描述
数据描述-图
频率分布图 相对频率分布图 累积频率分布图 直方图
(相对)频率分布图
纵轴—用高度表示(相对)频率 横轴—用宽度表示等级区间
相对频率
频率
2 1 -8
5
2/51 1/51 -7 -6 收益率 -8 -7 -6 收益率
6
累积频率分布图
累积频率 3 2 1 -8 -7 -6 收益率
Corr ( X , Y ) = ρ XY =
Cov ( X , Y )
σ Xσ Y
Corr ( X , X ), Corr ( X , Y ), Corr ( X , Z ) 相关系数矩阵 = Corr (Y , X ), Corr (Y , Y ), Corr (Y , Z ) Corr ( Z , X ), Corr ( Z , Y ), Corr ( Z , Z ) ρ XX , ρ XY , ρ XZ 1, σ XY , σ XZ = ρYX , ρYY , ρYZ = σ YX ,1, σ YZ ρ , ρ , ρ σ , σ ,1 ZX ZY ZZ ZX ZY
高度 40.04 35.38
高度=相对频率/等级区间宽度
当A=0时,称为k阶原点矩。 当A=平均值时,称为k阶中心矩。 一阶原点矩 算术平均值 方差 偏度 峰度
10
相对 频率
二阶中心矩 三阶中心矩 四阶中心矩
-0ຫໍສະໝຸດ Baidu01
0
0.01
收益率
9
定位度量
众数 中位数 算术平均值 几何平均值
组数据计算公式
σ=
∑ f (X
i =1 i
m
i
− X )2
方案A 方案B
n −1 i:第i个等级区间;X i :第i个等级区间的中点; X所有观测值的平均值;f i : 第i个等级区间的频率; n是全部观测的样本数
21
启示:
统计学上的风险,是事后风险,是样本收益对平均收益的偏差 风险计量方法,不能反应投资者真实的心理感受,应设立标杆
组数据中位数的计算
例子:P44-表2.5 中位数位置:53/2=26.5,利用插值法将中位数计算出 来。
宽度:100 中位数: ? 2500 1 8.5 26.5 频率:9 9
2400 0
重点关注组数据的相关计算。
2400 +
18 19 27
52 + 1 − 19 + 1 2 *100 ≈ 2494.4 9
2.1 引言
统计学
第二章 数据描述和描述性统 计
暨南大学金融系 朱滔
统计学是应用数学的一个分支,是一门关于数 据资料的收集、整理、分析和推断的科学。 统计学的主要内容
描述性统计学 描述收集的数据(手段:图、表、数) 推断统计学 在样本数据基础上,对有关总体作出推断。
1
2
2.2 数据类型
投资组合风险
投资组合P : n项风险资产,资产 i的收益率Ri, 投资权重为wi。 问题:投资组合 P的收益率和方差如何计 算? (? wi )
35
= ∑ wi2σ i2 + 2∑∑ wi w j Cov ( Ri , R j )
i =1 j >i n
n
= ∑ w σ + 2∑∑ wi w jσ ij
非系统风险 系统风险
40
39
例子P61:
2 2 σA = 15%, σ B = 14%
上式表明
(i) ρ AB = 1, σ P = 14.5% =
σ A +σ B
2
组合的风险不仅与风险资产自身有关,还与资产之间的 相关性有关。 问题:资产之间的相关系数,如何影响组合的风险?
(ii ) ρ AB = 0.6, σ P = 12.97% < (iii ) ρ AB = −1, σ P = 0.5% <
31 32
相关系数
随机变量
1、 − 1 ≤ ρ XY ≤ 1 2、相关系数度量的是线性相关关系 3、相关关系 不等于 因果关系
随机变量的期望与方差
E (ξ ), E (aξ ) = aE (ξ )
D(ξ ) = Var (ξ ) = E (ξ − E (ξ )) 2 D(aξ ) = a 2 D(ξ ) Cov (ξ ,η ) = E (ξ − E (ξ ))(η − E (η ))
相关系数
例子:三种风险资产X,Y,Z
协方差由于量纲的影响,并不具有可比性
Cov( X , X ), Cov( X , Y ), Cov( X , Z ) V = Ω = Cov(Y , X ), Cov(Y , Y ), Cov(Y , Z ) Cov( Z , X ), Cov( Z , Y ), Cov( Z , Z )
问:哪种方法是正确的?为什么?
16
P48-50
P49
分位数
组数据低四分位数的计算
n +1 −F Q1 = L + i 4 f
低分位数
位置= n +1 , Q1 4
高分位数
3( n + 1) , Q3 4 半四分为数-中位数 位置= 位置= n +1 , Q2 2
2 i 2 i i =1 j >i n
= ∑ wi2σ i2 + 2∑∑ wi w j ρ ijσ iσ j
i =1 j >i
36
投资多样化的风险减少效应
投资多样化的风险减少效应
一个特例:两种风险资产(A和B)
2 投资组合P的方差σ P : 2 2 2 2 2 σP = wA σ A + wB σ B + 2wi w j ρ ABσ Aσ B
28
2.5 相关的度量
相关的度量:度量两个变量之间的线性关 系关系的方法
协方差 相关系数
(修正样本)协方差
Cov( X , Y ) = σ XY =
∑(X
i =1
n
i
− X )(Yi − Y ) n −1
注意:这些方法只能度量线性相关
如何理解协方差? P58 图2.7
29
30
方差-协方差矩阵
组数据:
X=
∑fX
i =1 i
m
i
n
5
算术平均:35%/5=7% 平均收益率:(127.51-100/100)/5=5.5% 几何平均:
i:第i个等级区间;X i :第i个等级区间的中点; f i : 第i个等级区间的频率; n是全部观测的样本数
15
(1 + 10%)(1 + 20%)(1 + 15%)(1 − 30%)(1 + 20%) − 1 = 4.98%
4
峰度系数 =
n −1
相对频率
相对频率
( X i − X )2 ∑ i =1 n −1
n n i =1
如何理解峰度系数? 正态分布的峰度系数为3
收益率 高峰态 低峰态
收益率
27
∑(X
i =1
n
i
2 − X ) 4=∑ ( X i − X ) 2 ( X i − X)
描述性统计学—数
取值方式划分
给定统计数据,如何分别使用一个数来概括描 述数据某一方面的基本特征。
连续型 离散型
数据构成方式划分
定位度量或中心趋势度量 离中心趋势度量 偏度度量 峰度度量 相关性度量
横截面数据 时间序列数据 面板数据
按数据是否分组划分
组数据 非组数据
2 : 投资组合P的方差σ P 2 σP = ∑ w i2 σi2 + 2∑∑ w i w jσij i =1 j> i N 1 1 = ∑ 2 σi2 + 2∑∑ 2 σij N N i =1 j> i N
1 ) N
N → +∞
lim (σ 2 P ) = lim (
N → +∞
1 2 N −1 σ + σij ) = σij N N
22
负半方差
方差系数(变异系数)
投资者设定设定标杆t。 半方差计算公式
方差本身由于度量单位的影响,并不具有可比性。
σ
2 SV
=
Ri ≤t
∑ (R − t)
i Ri ≤t
2
容易验证,如果t=0,
2 2 则上例中:σ SV , B < σ SV , A
∑1 − 1
2
CV =
σ
X
一个特例负半方差:
绘制(相对)频率、累积频率图的过程
构建频率分布表(表2.4) 划分等级区间 统计(相对)频率、累积频率 绘制图形
7
8
2.4 描述统计学
直方图(Histogram)-估计的密度函数
纵轴—用面积表示相对频率 横轴—用宽度表示等级区间
矩的公式
∑(X
i =1
n
i
− A) k
n
i =1 i
m
i
− X )2
n −1 i:第i个等级区间;X i :第i个等级区间的中点; X所有观测值的平均值;f i : 第i个等级区间的频率; n是全部观测的样本数
19
20
(修正)样本标准差
负半方差
非组数据计算公式
σ=
∑(X
i =1
n
i
− X )2
方差、标准差在度量风险时的局限
方差和标准差将偏离于均值的所有波动,都算作风险。
11
区间:9
12
组数据中位数的计算
组数据中位数的计算
例子:P45-表2.6 中位数位置:52/2=26,利用插值法将中位数计算出来。
宽度:1% 中位数:
一般化公式(P45)
0% 0 23 1 24 2 25 频率:3 区间:3
1% 3 26
51 + 1 − 24 + 1 0% + 1% * ( 2 ) = 1% 3
2 σX , σ XY , σ XZ σ XX , σ XY , σ XZ 2 , σ YZ = σ YX , σ YY , σ YZ = σ YX , σ Y σ ,σ ,σ 2 ZX ZY ZZ σ ZX , σ ZY , σ Z
n +1 2 −F L + i f
14
算术平均值
非组数据:
几何平均值
X=
∑X
i =1
n
i
n
例子:股票指数5年中按以下比例增长: 10%,20%,15%,-30%,20%。5年前开始的指数为100 点,因此,5年中指数分别为:110, 132, 151.80, 106.26, 127.51。 三种计算收益率计算方法
2 = σ NSV Ri ≤ R
∑ (R − R )
i Ri ≤ R
∑1 − 1
23 24
相对频率
偏度
偏度:随机变量分布的对称性
随机变量分布的对称性
收益率 负偏度
∑(X
i =1
n
i
− X )3
3
偏度系数 =
n −1 − X )2 n −1
i
相对频率
相对频率
σ A +σ B
2 2
38
σ A +σB
37
投资多样化的风险减少效应
问题:随着资产组合P的投资范围不断扩大,组合 的风险会如何?
2 : 投资组合P的方差σ P 2 ?σ P →0 2 ?σ P →∞ 2 ?σ P → 其他
假定: (1)风险资产组合P有N种风险资产, 为等权组合(w i = (2)∃K ∈ R + , ∀i, j, σi < K, σ ij < K
17
组数据高四分位数的计算
3(n + 1) −F Q3 = L + i 4 f
18
离散性度量
方差、标准差 半方差、半标准差 方差系数
(修正)样本方差
非组数据计算公式
σ2 =
∑(X
i =1
n
i
− X )2
n −1
组数据计算公式
σ =
2
∑ f (X
∑(X
i =1
n
如何理解偏度系数? 对称分布的偏度系数为0
收益率 正偏度
收益率 无偏度(对称)
25
∑(X
i =1
n
i
2 − X ) 3=∑ ( X i − X )( X i − X) i =1
n
26
相对频率
峰度
峰度:随机变量分布的尖端程度
随机变量分布的尖端程度
收益率 常峰态
∑(X
i =1
n
i
− X )4
(−0.8 + 0.2) 2 + (0.2) 2 + (0.2 + 0.2) 2 3 −1 (−0.2 − 0.2) 2 + (0.2) 2 + (0.8 − 0.2) 2 2 σB = 3 −1 2 2 σA =σB
2 σA =
n −1
一个例子(非正式):
收益率 平均 0.2 0.8 -0.2 0.2 -0.8 -0.2 0 0