CART决策树在制造业中的选股效果(PPT)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们的行业内六因子优选按照如下的流程进行:选定某行业内某只股票, 将某时期样本内六因子数据作为自变量,将下一期该股票的收益率作为 因变量进行逐步回归,得到对于该股票的显著因子。同理,将该行业内 所有的股票逐个计算,得出所有股票各自的显著因子。根据行业内每个 因子作为显著因子出现的总的次数,我们将出现次数大于出现次数中位 数的因子保留,作为该行业的显著因子,并应用于决策树选股之中。
公布截止期 4月30日 5月31日 8月31日 10月30日
月度时间 财报分类 1月 上年三季度报 2月 上年三季度报 3月 上年三季度报 4月 上年年报 5月 当年一季度报 6月 当年一季度报
月度时间 财报分类 7月 当年一季度报 8月 当年半年报 9月 当年半年报 10月 当年三季度报 11月 当年三季度报 12月 当年三季度报
我们选取所有科技板块152只股票过去82个月(2003.1-2009.10)中的历史数据样本, 以2003-2006作为样本内数据,2007-2009做为样本外数据。
Sales-Price CashFlow-Price EPS-Price ROA EPS-MOM Price-MOM
论文指标 市销率倒数 市现率倒数 未来12月一致预期EPS比股价 ROA变化率 EPS一致预期12周变化 前一月股票收益率
医药生物
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
33
26
36
18
37
19
42
16
52
14
53
14
53
15
58
10
50
9
32
3
多头占比 28.21% 30.77% 31.62% 35.90% 44.44% 45.30% 45.30% 49.57% 42.74% 27.35%
多头组合 空头组合
101
78
94
71
97
69
92
61
83
51
105
58
99
43
84
41
61
38
60
51
多头占比 32.17% 29.94% 30.89% 29.30% 26.43% 33.44% 31.53% 26.75% 19.43% 19.11%
空头占比 24.84% 22.61% 21.97% 19.43% 16.24% 18.47% 13.69% 13.06% 12.10% 16.24%
收益率
Time 2 Time 3 Time 4
首篇报告回顾(1)
Eric H, Keith L, Chee K(2000)对美国科技股 1993至1999年的数据,利用EPS-Price、PriceMOM等6个指标构建了固定样本的静态和不断新 增样本的动态树
Eric等人通过静态树得到的买入组合每月平均跑 赢卖出组合1.40%,而动态树则可跑赢1.47%
我们认为1993至1999年正是整个美国股市的牛市 时期,期间经济周期、市场规律以及所选的行业 经营环境没有发生显著的变化,因此动态的调整 决策树并未明显提升策略效果。
Eric H, Keith L和Chee K静态树模型 Eric H, Keith L和Chee K动态树模型
首篇报告回顾(2)
我们将国内电子与信息技术类股票合并为科技股板块,选用EPS-Price、EPS-MOM、 ROA等六项指标(根据国内情况进行定义调整)构建决策树进行实证。
好
好
好
中
好
中
中
差
差
好
小结(2)
虽然决策树模型在纺织服装行业效果较差,但我们不能认为DT模型对该行业无 效,这很有可能是样本数据过少,或这些因子并不适合应用在该行业中等因素造 成的。我们现在能证明的是,在前面的六个因子下,DT模型对食品饮料,石油 化工,电子,机械设备与医药生物这五个行业有较好的选股效果。
空头占比 24.34% 24.34% 23.68% 21.05% 15.79% 17.76% 18.42% 15.13% 14.47% 23.03%
机械设备
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
•我们发现2010年7月市场的突然反弹,也造成了一些问题,尤其是原本在食品饮 料行业长期有效的模型突然给出了收益率较差的多头组合。由于决策树模型根本
上可以理解为是一种因子动量模型,我们期待在过去某些产生超额收益的因子, 在未来依然会产生超额收益。在因子动量失效的情况下,模型结果有可能较差。
占比情况
月度收益率效果
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
逐步回归的因子优选法
逐步回归的定义如下:在建立多元回归方程的过程中,按偏相关系数的 大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系 数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下 一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引 入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变 得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著 的自变量。直至不再引入和剔除自变量为止,从而得到最优的回归方程。
空头占比 20.83% 15.28% 18.06% 19.44% 13.89% 13.89% 12.50% 9.72% 12.50% 15.28%
纺织服装
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
空头占比 26.67% 21.67% 22.22% 20.56% 22.78% 18.89% 18.33% 18.89% 20.56% 26.67%
电子
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
动态树效果从直观经验上和实际效果上都更好!
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
Βιβλιοθήκη Baidu 数据来源
制造业
食品、饮料 纺织、服装、皮毛 木材、家具 造纸、印刷 石油、化学、塑胶、塑料 电子 金属、非金属 机械、设备、仪表 医药、生物制品 其他制造业
成份股个数 成交金额(亿元)
1184
1310.87
74
86.06
78
67.62
8
6.74
39
23.06
210
198.68
102
115.93
171
210.81
346
418.78
125
155.85
31
27.33
总市值(亿元)
84363.33 9166.79 3095.28 265.47 1407.6 10732.86 5664.51 16769.63 26674.98 9296.87 1289.34
含义 负债总额/资产总额*100% 截止到月底对该年EPS的预测/截止到上月底对该年EPS的预测-1 月底A股流通市值 (本期的ROA/去年同期的ROA-1)*100% (月底收盘价*汇率*总股本)/净利润(归属于母公司股东) (月底的复权价/月初的复权价-1)*100%
财报分类 年报
一季度报 半年报 三季度报
行业
多头 空头
1期
2期
3期
4期
5期
6期
7期
8期
9期
10期 累 积 收 益 效 果
食品饮料
高
低
好
中
好
好
中
好
好
好
好
差
好
纺织服装
低
低
好
中
好
差
中
差
差
差
差
差
差
石油化工
中
低
好
好
好
差
好
好
中
差
差
好
好
电子仪器
低
低
好
好
差
差
好
好
好
差
差
差
好
金属非金属
中
低
好
好
差
差
好
好
差
差
差
好
中
机械设备
中
低
好
好
中
差
好
好
差
差
差
好
好
医药生物
高
低
好
多头组合 空头组合
10
30
6
24
16
25
11
25
12
23
25
22
27
22
22
21
22
30
20
24
多头占比 10.87% 6.52% 17.39% 11.96% 13.04% 27.17% 29.35% 23.91% 23.91% 21.74%
空头占比 32.61% 26.09% 27.17% 27.17% 25.00% 23.91% 23.91% 22.83% 32.61% 26.09%
样本数据的采样期被限制在2005年2月至2010年7月,共66个月。我们 将前56个月数据做为样本内数据建立静态树,然后接下来的10个月数据 为样本外数据,用其交替建立动态树并同时做选股预测。
因子选择
DTA FEPS MV ROA PE RETURN
本报告指标 资产负债率 EPS一致预期变化率 流通市值 总资产净利率变化率 市盈率 股票收益率
食品饮料
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
25
15
31
11
41
13
43
14
47
10
37
10
26
9
41
7
13
9
25
11
多头占比 34.72% 43.06% 56.94% 59.72% 65.28% 51.39% 36.11% 56.94% 18.06% 34.72%
多头组合 空头组合
17
15
3
14
5
11
11
12
2
18
7
14
13
13
17
11
19
6
16
8
多头占比 25.37% 4.48% 7.46% 16.42% 2.99% 10.45% 19.40% 25.37% 28.36% 23.88%
空头占比 22.39% 20.90% 16.42% 17.91% 26.87% 20.90% 19.40% 16.42% 8.96% 11.94%
石油化工
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
44
48
49
39
98
40
80
37
72
41
67
34
78
33
61
34
31
37
32
48
多头占比 24.44% 27.22% 54.44% 44.44% 40.00% 37.22% 43.33% 33.89% 17.22% 17.78%
空头占比 22.22% 15.38% 16.24% 13.68% 11.97% 11.97% 12.82% 8.55% 7.69% 2.56%
小结(1)
•从选股的累积收益来看,纺织服装是决策树样本外检验唯一失败的行业,此外 金属非金属效果也一般,其余行业效果较好。
•从日期来看,市场的因素对模型的效果影响很大,1,2期表现都很好,但在4期 几个行业选股效果集体减弱,在8,9期则出现了集体失效的情况。我们相信 2010年4月开始的市场持续下跌,股指期货上市对市场结构的改造等因素可以部 分解释模型失效的原因。
首篇报告指标 最近12个月市销率倒数 最近12个月市现率倒数 最近12个月市盈率倒数
ROA年同比变化率 净利润一致预期12周变化
前一月股票收益率
首篇报告回顾(3)
经过修正后的静态CART 决策树在检验期中,多头 组合平均每月跑赢空头组 合的幅度达到2.19%
经过修正后的动态CART 决策树在检验期中,多 空组合平均月度收益差 达到2.98%。在2009年 的10个月度检验样本中, 多头组合全部取得了正 超额收益
CART决策树在制造业中的选股效果
联系人:赵学昂 分析师:焦健 SAC执业证书编号:S0980210040012
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
4
CART决策树选股原理(静态树)
因子1 Time 1 Time 2 Time 3
因子N Time 1 Time 2 Time 3
金属非金属
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
42
37
65
37
63
36
51
32
47
24
67
27
82
28
60
23
36
22
30
35
多头占比 27.63% 42.76% 41.45% 33.55% 30.92% 44.08% 53.95% 39.47% 23.68% 19.74%
收益率 Time 2 Time 3 Time 4
因子1<3
因子3<4
多头类
空头类
多头类
CART决策树选股原理(动态树)
因子1<3
因子1
Time 4
因子N
Time 4
收益率
Time 5
因子3<2
因子N<3
空头类
多头类 空头类
多头类
因子1
Time 1 Time 2 Time 3
因子N
Time 1 Time 2 Time 3
公布截止期 4月30日 5月31日 8月31日 10月30日
月度时间 财报分类 1月 上年三季度报 2月 上年三季度报 3月 上年三季度报 4月 上年年报 5月 当年一季度报 6月 当年一季度报
月度时间 财报分类 7月 当年一季度报 8月 当年半年报 9月 当年半年报 10月 当年三季度报 11月 当年三季度报 12月 当年三季度报
我们选取所有科技板块152只股票过去82个月(2003.1-2009.10)中的历史数据样本, 以2003-2006作为样本内数据,2007-2009做为样本外数据。
Sales-Price CashFlow-Price EPS-Price ROA EPS-MOM Price-MOM
论文指标 市销率倒数 市现率倒数 未来12月一致预期EPS比股价 ROA变化率 EPS一致预期12周变化 前一月股票收益率
医药生物
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
33
26
36
18
37
19
42
16
52
14
53
14
53
15
58
10
50
9
32
3
多头占比 28.21% 30.77% 31.62% 35.90% 44.44% 45.30% 45.30% 49.57% 42.74% 27.35%
多头组合 空头组合
101
78
94
71
97
69
92
61
83
51
105
58
99
43
84
41
61
38
60
51
多头占比 32.17% 29.94% 30.89% 29.30% 26.43% 33.44% 31.53% 26.75% 19.43% 19.11%
空头占比 24.84% 22.61% 21.97% 19.43% 16.24% 18.47% 13.69% 13.06% 12.10% 16.24%
收益率
Time 2 Time 3 Time 4
首篇报告回顾(1)
Eric H, Keith L, Chee K(2000)对美国科技股 1993至1999年的数据,利用EPS-Price、PriceMOM等6个指标构建了固定样本的静态和不断新 增样本的动态树
Eric等人通过静态树得到的买入组合每月平均跑 赢卖出组合1.40%,而动态树则可跑赢1.47%
我们认为1993至1999年正是整个美国股市的牛市 时期,期间经济周期、市场规律以及所选的行业 经营环境没有发生显著的变化,因此动态的调整 决策树并未明显提升策略效果。
Eric H, Keith L和Chee K静态树模型 Eric H, Keith L和Chee K动态树模型
首篇报告回顾(2)
我们将国内电子与信息技术类股票合并为科技股板块,选用EPS-Price、EPS-MOM、 ROA等六项指标(根据国内情况进行定义调整)构建决策树进行实证。
好
好
好
中
好
中
中
差
差
好
小结(2)
虽然决策树模型在纺织服装行业效果较差,但我们不能认为DT模型对该行业无 效,这很有可能是样本数据过少,或这些因子并不适合应用在该行业中等因素造 成的。我们现在能证明的是,在前面的六个因子下,DT模型对食品饮料,石油 化工,电子,机械设备与医药生物这五个行业有较好的选股效果。
空头占比 24.34% 24.34% 23.68% 21.05% 15.79% 17.76% 18.42% 15.13% 14.47% 23.03%
机械设备
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
•我们发现2010年7月市场的突然反弹,也造成了一些问题,尤其是原本在食品饮 料行业长期有效的模型突然给出了收益率较差的多头组合。由于决策树模型根本
上可以理解为是一种因子动量模型,我们期待在过去某些产生超额收益的因子, 在未来依然会产生超额收益。在因子动量失效的情况下,模型结果有可能较差。
占比情况
月度收益率效果
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
逐步回归的因子优选法
逐步回归的定义如下:在建立多元回归方程的过程中,按偏相关系数的 大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系 数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下 一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引 入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变 得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著 的自变量。直至不再引入和剔除自变量为止,从而得到最优的回归方程。
空头占比 20.83% 15.28% 18.06% 19.44% 13.89% 13.89% 12.50% 9.72% 12.50% 15.28%
纺织服装
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
空头占比 26.67% 21.67% 22.22% 20.56% 22.78% 18.89% 18.33% 18.89% 20.56% 26.67%
电子
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
动态树效果从直观经验上和实际效果上都更好!
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
Βιβλιοθήκη Baidu 数据来源
制造业
食品、饮料 纺织、服装、皮毛 木材、家具 造纸、印刷 石油、化学、塑胶、塑料 电子 金属、非金属 机械、设备、仪表 医药、生物制品 其他制造业
成份股个数 成交金额(亿元)
1184
1310.87
74
86.06
78
67.62
8
6.74
39
23.06
210
198.68
102
115.93
171
210.81
346
418.78
125
155.85
31
27.33
总市值(亿元)
84363.33 9166.79 3095.28 265.47 1407.6 10732.86 5664.51 16769.63 26674.98 9296.87 1289.34
含义 负债总额/资产总额*100% 截止到月底对该年EPS的预测/截止到上月底对该年EPS的预测-1 月底A股流通市值 (本期的ROA/去年同期的ROA-1)*100% (月底收盘价*汇率*总股本)/净利润(归属于母公司股东) (月底的复权价/月初的复权价-1)*100%
财报分类 年报
一季度报 半年报 三季度报
行业
多头 空头
1期
2期
3期
4期
5期
6期
7期
8期
9期
10期 累 积 收 益 效 果
食品饮料
高
低
好
中
好
好
中
好
好
好
好
差
好
纺织服装
低
低
好
中
好
差
中
差
差
差
差
差
差
石油化工
中
低
好
好
好
差
好
好
中
差
差
好
好
电子仪器
低
低
好
好
差
差
好
好
好
差
差
差
好
金属非金属
中
低
好
好
差
差
好
好
差
差
差
好
中
机械设备
中
低
好
好
中
差
好
好
差
差
差
好
好
医药生物
高
低
好
多头组合 空头组合
10
30
6
24
16
25
11
25
12
23
25
22
27
22
22
21
22
30
20
24
多头占比 10.87% 6.52% 17.39% 11.96% 13.04% 27.17% 29.35% 23.91% 23.91% 21.74%
空头占比 32.61% 26.09% 27.17% 27.17% 25.00% 23.91% 23.91% 22.83% 32.61% 26.09%
样本数据的采样期被限制在2005年2月至2010年7月,共66个月。我们 将前56个月数据做为样本内数据建立静态树,然后接下来的10个月数据 为样本外数据,用其交替建立动态树并同时做选股预测。
因子选择
DTA FEPS MV ROA PE RETURN
本报告指标 资产负债率 EPS一致预期变化率 流通市值 总资产净利率变化率 市盈率 股票收益率
食品饮料
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
25
15
31
11
41
13
43
14
47
10
37
10
26
9
41
7
13
9
25
11
多头占比 34.72% 43.06% 56.94% 59.72% 65.28% 51.39% 36.11% 56.94% 18.06% 34.72%
多头组合 空头组合
17
15
3
14
5
11
11
12
2
18
7
14
13
13
17
11
19
6
16
8
多头占比 25.37% 4.48% 7.46% 16.42% 2.99% 10.45% 19.40% 25.37% 28.36% 23.88%
空头占比 22.39% 20.90% 16.42% 17.91% 26.87% 20.90% 19.40% 16.42% 8.96% 11.94%
石油化工
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
44
48
49
39
98
40
80
37
72
41
67
34
78
33
61
34
31
37
32
48
多头占比 24.44% 27.22% 54.44% 44.44% 40.00% 37.22% 43.33% 33.89% 17.22% 17.78%
空头占比 22.22% 15.38% 16.24% 13.68% 11.97% 11.97% 12.82% 8.55% 7.69% 2.56%
小结(1)
•从选股的累积收益来看,纺织服装是决策树样本外检验唯一失败的行业,此外 金属非金属效果也一般,其余行业效果较好。
•从日期来看,市场的因素对模型的效果影响很大,1,2期表现都很好,但在4期 几个行业选股效果集体减弱,在8,9期则出现了集体失效的情况。我们相信 2010年4月开始的市场持续下跌,股指期货上市对市场结构的改造等因素可以部 分解释模型失效的原因。
首篇报告指标 最近12个月市销率倒数 最近12个月市现率倒数 最近12个月市盈率倒数
ROA年同比变化率 净利润一致预期12周变化
前一月股票收益率
首篇报告回顾(3)
经过修正后的静态CART 决策树在检验期中,多头 组合平均每月跑赢空头组 合的幅度达到2.19%
经过修正后的动态CART 决策树在检验期中,多 空组合平均月度收益差 达到2.98%。在2009年 的10个月度检验样本中, 多头组合全部取得了正 超额收益
CART决策树在制造业中的选股效果
联系人:赵学昂 分析师:焦健 SAC执业证书编号:S0980210040012
目录
1
CART决策树选股原理及回顾
2
经典六因子决策树模型
3
因子加工后的决策树模型
4
CART决策树选股原理(静态树)
因子1 Time 1 Time 2 Time 3
因子N Time 1 Time 2 Time 3
金属非金属
时间 2009-10 2009-11 2009-12 2010-01 2010-02 2010-03 2010-04 2010-05 2010-06 2010-07
多头组合 空头组合
42
37
65
37
63
36
51
32
47
24
67
27
82
28
60
23
36
22
30
35
多头占比 27.63% 42.76% 41.45% 33.55% 30.92% 44.08% 53.95% 39.47% 23.68% 19.74%
收益率 Time 2 Time 3 Time 4
因子1<3
因子3<4
多头类
空头类
多头类
CART决策树选股原理(动态树)
因子1<3
因子1
Time 4
因子N
Time 4
收益率
Time 5
因子3<2
因子N<3
空头类
多头类 空头类
多头类
因子1
Time 1 Time 2 Time 3
因子N
Time 1 Time 2 Time 3