量化投资与机器学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
量化投资
• 将基于历史数据的统计模型应用于当时的投 资问题
• 为什么模型失效? • 历史不重演了? • 历史不会完全重演; • 模型是历史的不完全表述; • 我们认为,除非市场出现重大变故 (类似熔断,股指期货限仓),历史 规律不会断然变化,而连续变化的历 史规律是可以捕捉的。虽然历史不会 完全重演,但量化投资仅需要把握部 分重演的历史。 • 让模型更好表述历史、预测未来,是 量化投资研究的努力方向。
量化投资与机器学习
汇添富基金 吴振翔
2018.5.6
0. 量化投资需要什么技术?
量化投资与机器学习,问题的定义是什么? 需要先定义量化投资,进而才能思考机器学习技术在其中的应用。
我们如何看待量化投资
资金端
投资
量化投资
• 根据不同的资金端收益风险需求,使用量化 手段进行资产端配置,为客户提供投资管理 服务。
汇添富基金
传统量化投资技术
历史数据
• 历史行情数据 • 历史财务数据 • 历史研究、舆情、公告…… • ……
2020/2/9
经典统计学方法论
• 将数据结构化,提取特征 • 按照特定逻辑,通过统计方法对特征建立模
型: • 因子选股:要统计因子IC等指标,传统 因子模型也是基于对收益率的线性回归; • 择时策略:要统计信号的胜率、赔率、 频率,并在样本内样本外做比对; • 交易策略:类似于择时; • 风险控制:绩效分析是基于线性模型的, 其他风险控制手段也基于一些风险特征 在历史上的表现。
机器学习模型
• 通过对大量非结构化的数据进行处理, 成为数字化、向量化的数据集,进而 通过机器学习算法进行建模和训练, 是目前机器学习领域的主要方法论。
• 工业界的机器学习模型主要解决以下 问题: • 分类(classification) • 回归/预测(regression) • 其他,如生成模型,强化学习模 型等
汇添富基金
量化投资需要解决的问题
无论是绝对收益目标还是相对收益目标,无论何种投资期限,
量化投资需要解决的问题都可以总结为 “挖掘收益”和“控制风险”
挖掘收益
• 维度之一:选股,what • 维度之二:择时,when • 维度之三:交易执行,how
2020/2/9
控制风险
• 市场风险:市场波动风险,跟踪误差风险…… • 黑天鹅风险:财务造假,负面新闻…… • ……
自然语言处理技术
• 从数据处理和特征提取角度来看,目 前自然语言处理技术已经较为成熟, 可以对诸如新闻、公告等文本信息进 行大规模处理。
• 中文分词技术是处理中文文本数据的 基础;词向量技术是将高维且正交的 one-hot向量,转变为低维且具有几何 意义的向量的技术。
2020/2/9
汇添富基金
自然语言处理技术
2020/2/9
汇添富基金
机器学习模型的表述能力
• 以深度神经网络模型为例,早在1993 年,就有学术研究从数学上证明:多 层神经网络+非线性激励函数可以近似 任何函数。
• 近期实证研究表明,随着神经网络层 数的增加,测试集的准确度逐渐提升; 此外,在不增加神经网络层数,仅仅 增加参数个数的情况下,模型的效果 提升不明显;而在不改变参数个数的 情况下,将层数从3层增加至11层,则 可以显著提升模型效果。
• 该公司提供了一种交易方法:计算每月的停车量同比增速,季度计算累计同比增速,计算过去6个月同 比增速的布林带,当季度累计同比增速穿越布林带上下轨时,触发买入卖出交易。
2020/2/9
Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 汇添富基金
• 卷积神经网络(CNN)为处理具有空间结构的数据提供了极大可能。 • GPU硬件技术的突飞猛进大大提升了CNN的数据处理能力,使得工业界目前已经可以处理大规模的图像
和视频数据。
2020/2/9
汇添富基金
计算机视觉技术
• 海外某公司通过计算机视觉技术,识别卫星图像等原始图像当中的停车场停车数量信息,进而构建零售、 餐饮、酒店等场景的高频经营数据。通过这些高频经营数据可以构建相应的交易信号。
• 对应于这些数据来源,所需要的数据 处理技术包括:自然语言处理、计算 机视觉等。
2020/2/9
Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 汇添富基金
• 量化手段主要体现于资产端的投资管理。
收益/风险
2020/2/9
资产端
汇添富基金
量化投资的应用场景
期限
投资标的
2020/2/9
目标
按照投资期Biblioteka Baidu划分
• 长期 • 短期 • 日内高频
按照投资标的划分
• 权益类资产 • 固定收益类资产 • 商品期货类资产 • 大类资产配置
按照投资目标划分
• 绝对收益目标 • 相对收益目标
汇添富基金
量化投资需要什么技术?
数据
大数据 = 新世界
处理 异构数据的流水线
建模 特征工程 结构工程
2020/2/9
大数据时代来临,量化投资可以使用的基础 数据充满可能性,大数据有望提升模型表述 能力。
利用工程学方法构造数据分析的流水线, 不断提高数据的时效性。
统计模型基于人类对于数据的观测,依赖 于经营性的特征提取,深度学习可以通过 定义结构进一步挖掘信息。
• 海外某公司现在已经开始提供实时的Twitter舆情数据,直观来看,Tweet Volume和Sentiment都没有很 强的领先性,但也不排除精细化处理后对投资能够起到作用。
2020/2/9
Source: http://isentium.com/charts/#charts-10
汇添富基金
计算机视觉技术
汇添富基金
1. 我们感兴趣的机器学习技术
机器学习技术发展日新月异,但在狭义的量化投资领域的应用才刚刚开 始。
数据获取与数据处理
• 从海外经验来看,投资领域对于另类 数据的使用已经起步,数据使用范围 可谓相当多样。
• 从数据获取来看,主要来源如下:舆 情文本、卫星图像、交通信息、物流 信息、网络搜索、电商信息等。