量化投资与机器学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 近期实证研究表明,随着神经网络层
数的增加,测试集的准确度逐渐提升; 此外,在不增加神经网络层数,仅仅
增加参数个数的情况下,模型的效果
提升不明显;而在不改变参数个数的 情况下,将层数从3层增加至11层,则 可以显著提升模型效果。
Source: Goodfellow, I. J., Bengio, Y., & Courville, A. (2017). Deep Learning
Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 汇添富基金
2018/12/20
机器学习模型
• 通过对大量非结构化的数据进行处理,Leabharlann Baidu成为数字化、向量化的数据集,进而 通过机器学习算法进行建模和训练, 是目前机器学习领域的主要方法论。
2018/12/20
汇添富基金
2. 量化投资与机器学习
我们的实践以及思考
机器学习,从入门到放弃?
• 数据少,噪声大,投入还小,只能做toy model? • 我们对股票市场有独到的理解!不需要大量数据和大量投入就能搞出好模型! • 相比于现有的量化模型,机器学习的模型和方法能够更好克服人为观测的偏差,如: • 市值因子为什么是市值取对数?
• 反转因子为什么是区间收益率?
• 风险为什么可以用标准差表示? • 现有量化投资的模型都是基于简单的人为观测逻辑,进行历史检验,获得较好效果之后进行使用的。
• 而机器学习方法论是:对更为广泛的数据,基于机器学习的观测逻辑,进行历史检验,获得较好效果之
后进行使用。 • 已有一些成果超越了现有量化模型的效果。我们认为,随着数据量提升、投入资源加大,未来机器学习 方法将带来量化投资领域的重大变革!
2018/12/20
汇添富基金
广阔天地,大有可为
• 我们用机器学习得到的因子的效果: • 测试区间:2011年至2017年 • 样本空间:中证全指 • 在所有市值分层和行业分类上均有效,
IC 通信 商贸零售 房地产 医药 轻工制造 电子元器件 传媒 0.1033 0.1064 0.1043 0.0962 0.1105 0.1066 0.1043 IR 0.6520 0.7175 0.7728 0.8293 0.6358 0.8369 0.5569 0 24.44% 22.57% 27.69% 22.88% 24.91% 28.58% 20.21% 1 16.62% 12.57% 10.40% 13.32% 12.95% 16.64% 20.23% 2 9.30% 2.66% 1.88% 0.88% 2.85% -1.04% 0.06% 3 -3.65% -8.07% -5.91% -6.73% -7.77% -6.66% -5.88% 4 -34.31% -22.24% -27.20% -26.80% -20.67% -31.90% -17.43%
家电
建材 基础化工 纺织服装 汽车 有色金属
0.1010
0.1101 0.1168 0.1148 0.1112 0.1091 0.0993 0.1069 0.1170 0.1082 0.1238 0.0994 0.1117
2018/12/20
自然语言处理技术
• 从数据处理和特征提取角度来看,目 前自然语言处理技术已经较为成熟, 可以对诸如新闻、公告等文本信息进 行大规模处理。
• 中文分词技术是处理中文文本数据的
基础;词向量技术是将高维且正交的 one-hot向量,转变为低维且具有几何
意义的向量的技术。
2018/12/20
• 从海外经验来看,投资领域对于另类 数据的使用已经起步,数据使用范围 可谓相当多样。 • 从数据获取来看,主要来源如下:舆
情文本、卫星图像、交通信息、物流
信息、网络搜索、电商信息等。 • 对应于这些数据来源,所需要的数据
处理技术包括:自然语言处理、计算
机视觉等。
Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 汇添富基金
汇添富基金
计算机视觉技术
• 卷积神经网络(CNN)为处理具有空间结构的数据提供了极大可能。 • GPU硬件技术的突飞猛进大大提升了CNN的数据处理能力,使得工业界目前已经可以处理大规模的图像 和视频数据。
2018/12/20
汇添富基金
计算机视觉技术
• 海外某公司通过计算机视觉技术,识别卫星图像等原始图像当中的停车场停车数量信息,进而构建零售、 餐饮、酒店等场景的高频经营数据。通过这些高频经营数据可以构建相应的交易信号。 • 该公司提供了一种交易方法:计算每月的停车量同比增速,季度计算累计同比增速,计算过去6个月同 比增速的布林带,当季度累计同比增速穿越布林带上下轨时,触发买入卖出交易。
量化投资与机器学习
汇添富基金 吴振翔 2018.5.6
0. 量化投资需要什么技术?
量化投资与机器学习,问题的定义是什么?
需要先定义量化投资,进而才能思考机器学习技术在其中的应用。
1. 我们感兴趣的机器学习技术
机器学习技术发展日新月异,但在狭义的量化投资领域的应用才刚刚开 始。
数据获取与数据处理
• 工业界的机器学习模型主要解决以下
问题: • 分类(classification)
• 回归/预测(regression)
• 其他,如生成模型,强化学习模 型等
2018/12/20
汇添富基金
机器学习模型的表述能力
• 以深度神经网络模型为例,早在1993 年,就有学术研究从数学上证明:多 层神经网络+非线性激励函数可以近似 任何函数。
汇添富基金
自然语言处理技术
• 海外某公司现在已经开始提供实时的Twitter舆情数据,直观来看,Tweet Volume和Sentiment都没有很 强的领先性,但也不排除精细化处理后对投资能够起到作用。
2018/12/20
Source: http://isentium.com/charts/#charts-10