分类
比特币交易平‪台

量化投资学习


量化投资学习必读书目(一)——《高频交易》

量化投资学习

量化投资学习必读书目(一)——《高频交易》

在这里插入图片描述


量化投资学习必读书目(一)——《高频交易》

机器学习该如何应用到量化投资系列(一)

机械的定义避开不谈,回答也不追求全面准确。明确一点,机器学习的主要目的在于发现规律重现规律。(此处不谈非监督学习、强化学习,也不谈降维、集成算法)。什么是发现规律?譬如将决策树应用于多因子模型,试图从样本数据中找出具有较高收益的因子组合。什么是重现规律?譬如,拿来一篮子股票的样本(“训练样本”),假定当中y的值(连续值为回归、离散值为分类)与x1,x2. xn之间一些规律,那么我们用一个模型去学习这个规律,目的是使得这个模型应用于训练样本时误差最小,那么,当下一次出现一只新的股票,希望通过此模型预测这只股票未来的表现。而这个预测的原理是从训练样本中(过去的样本)学习得到的。

二、为什么机器学习重要

■ 例子1: 前段时间比较火的《跟踪聪明钱-从分钟线到选股因子》,作者认为聪明钱应该“订单报价更激烈”,因此构造一个指标衡量聪明程度,利用这个指标的确定投资策略。

如上划分找到聪明钱之后,我们就可以通过这些聪明钱的交易数据来构造聪明钱的情绪因子 Q

■ 例子2:

那么问题来了,上述两个例子的发现规律重现规律过程能否用机器学习代替?

上述两个例子本质也是分析过去的数据,从而发现规律或重现规律,这一过程与机器学习模型的本质是无异的。但是很遗憾,就目前的成果来看,若想在非监督情况下,利用机器学习模型来发现规律,这一点还是比较困难的(你就想象模型怎么找出例1研报中的“聪明程度”指标表达式),但是重现规律这一点,机器学习还是可以轻松做到的。

三、谈谈应用

■ 例子1:【国信证券——SVM 算法选股以及 Adaboost 增强】。以每个因子作为一层特征, 在 68 个因子的维度下,支持向量机算法能够有效的对股票组合的标签进行分类与预测。

SVM 算法的样本数据的标准化采用排序法。 因此,计算每个股票按某因子的排序然后除以总股票数,这样因子的值归到(0,1]。

然后,对下一期收益率从大到小排序,取前 30%作为强势股,后 30%作为弱势股,强势股划分类标为+1,弱势股划分类标为-1;中间百分之 40%的股票排出训练集,因为中间百分之 40%的股票收益并不强势也不弱势,相当于噪声数据。为了充分利用数据,找出相对稳定有效的因子,确保算法的稳定性,用过去 12 个月的因子数据作为输入样本。从 SVM 理论推导可以知道, 在得到最优超平面的解之后, 样本被划分为两类,而样本距离超平面的距离,则可以代表样本被正确分类的程度。 用公式表达为:

其中 x 为新的样本点, w, b 为 SVM 求解超平面的输出结果。根据距离结果, 同样将股票组合分为 10 档,选择收尾两档分别作为强势组合和弱势组合,并观察回测结果。

■ 例子2:你认为股指期货Tick数据的盘口与成交与价格未来的走势有关,就可以用机器学习模型(神经网络、深度学习网络)学习过去数据中盘口价量与之后的价格走势的规律,再应用于当前;诸如此类。(此处没有谈及也较常用的聚类算法,如GMM等。)

三、谈谈机器学习的利弊

数据样本的选取(因子变量的选取)、数据样本的预处理(变量的预处理、样本的平衡处理、极端样本的处理等)、人为的处理(一些变换等)、模型的选取、模型算法的选取、模型参数的选取,对欠拟合、过拟合的避免等等……撇开这些不讲,即使上述提及的过程合部处理恰当,训练结果良好,哪怕是测试样本效果也不错,应用于实际投资效果也不能保证一定好。为什么呢?

第一,这是因为我们的样本大多数时候是带有时间维度的(即训练样本、测试样本、实际投资所处的时间段都是不同的),它们并非截面数据,模型学习的市场“规律”或“偏好”,是会随时间变化的。第二,我们的模型往往只是学习某一些因子反映的规律,而除去这些因子以外的因素,影响市场变化的因素有很多很多(汇率、政策等),这些都是模型没有考虑的,一旦这些模型以外的因素成为主导市场“偏好”的时候,时间短还好说,最多也只是短期的一个回撤,如果时间较长,模型在此期间的效果就会大打折扣。

对于第二个问题,在股票多头策略中使用对冲、在多空投机策略中设置止损和失效判断(如连续n次投机连续失败时,可考虑一段时间内不再开仓投机等)也许是个好方法,对于第一个问题,使用时间跨度更长的样本进行训练并不一定能解决问题。(例如市值因子,哪怕从3年的回测跨度变成5年、7年,在过去都是较为显著的因子,但未来呢?)笔者认为这个问题需要具体分析。从数据的实际背景分析,模型所学习的规律是否可持续;如果担心这种规律变化过快,可以缩短训练样本的长度,并且采用时间滚动的样本作为训练样本。

机器学习在量化投资中的应用研究

机器学习在量化投资中的应用研究

第1章 绪论 1
1.1 背景与意义 1
1.2 国内外研究现状 3
1.2.1 金融时间序列方法 3
1.2.2 机器学习方法 6
1.2.3 小波与流形方法 10
1.3 本书主要内容与逻辑结构 15
1.3.1 内容安排 15
1.3.2 逻辑结构 17
第2章 统计学习与机器学习 19
2.1 计算学习理论 19
2.1.1 学习问题表述 19
2.1.2 统计学习理论 21
2.1.3 可能近似正确学习模型 22
2.2 神经网络模型 23
2.2.1 多层感知器神经网络模型 23
2.2.2 广义回归神经网络模型 26
2.3 支持向量机理论 28
2.3.1 线性支持向量分类机 29
2.3.2 非线性支持向量分类机 31
2.3.3 支持向量回归机 33
2.4 本章小结 34
第3章 基于模糊神经网络的股票预测模型分析 35
3.1 引言 35
3.2 模糊神经网络模型研究 36
3.2.1 模糊逻辑推理系统结构 36
3.2.2 模糊神经网络分类器 37
3.2.3 模糊神经网络回归机 38
3.3 基于模糊神经网络的股票预测 40
3.3.1 模糊神经网络设计 40
3.3.2 实验结果与分析 42
3.4 本章小结 43
第4章 基于高斯核支持向量机的股票预测模型分析 44
4.1 引言 44
4.2 核函数研究 45
4.2.1 核的构造条件 45
4.2.2 核的构造原则 46
4.2.3 核的主要类型 49
4.3 基于高斯核支持向量机的股票预测 52
4.3.1 数据处理与性能指标 52
4.3.2 量化投资学习 实验结果与分析 53
4.4 本章小结 57
第5章 基于小波支持向量机的股票收益模型分析 58
5.1 引言 58
5.2 股票收益的理论研究 59
5.2.1 有效市场假说与布朗运动模型 59
5.2.2 分形市场假说与分数布朗运动模型 61
5.2.3 Hurst指数与重标极差分析 62
5.2.4 量化投资学习 混沌动力学模型与Lyapunov指数 64
5.3 基于小波支持向量机的收益模型 65
5.3.1 小波变换与多分辨分析 66
5.3.2 小波核构造与证明 68
5.3.3 实验结果与分析 70
5.4 本章小结 77
第6章 基于小波支持向量机的波动模型分析 79
6.1 引言 79
6.2 波动率模型研究 79
6.2.1 ARCH模型 80 量化投资学习
6.2.2 GARCH模型 81
6.2.3 随机波动SV模型 82
6.3 基于小波支持向量机的GARCH模型 84
6.3.1 仿真实验 84
6.3.2 真实数据集实验 86
6.4 本章小结 95
第7章 基于流形小波核的收益序列分析 96
7.1 引言 96
7.2 微分几何基本理论 96
7.3 核函数的几何解释 100
7.4 构造融合先验知识的流形小波核 量化投资学习 101
7.5 实验结果与分析 102
7.6 本章小结 107
第8章 基于样条小波核的波动序列分析 量化投资学习 108
8.1 引言 108
8.2 样条小波模型研究 108
8.3 样条空间与函数 110
8.3.1 样条函数空间 110
8.3.2 B样条函数定义与性质 112
8.4 样条小波核构造与证明 113
8.5 实验结果与分析 115
8.6 本章小结 119
第9章 结论与展望 120
9.1 本书主要贡献 120
9.2 后续研究展望 122
附录A 微积分 124
A.1 基本定义 124
A.2 梯度和Hesse矩阵 126
A.3 方向导数 126
A.4 Taylor展开式 128
A.5 分离定理 129
附录B Hilbert空间 131
B.1 向量空间 131
B.2 内积空间 134
B.3 Hilbert空间 136
B.4 算子、特征值和特征向量 138
附录C 专题研究期间学术论文与科研项目 140
后记 143
参考文献 144
· · · · · · (收起)

量化投资与对冲基金丛书 (共9册), 这套丛书还有 《量化投资与对冲基金入门(量化投资与对冲基金基础入门必读图书)》,《量化投资与对冲基金 量化投资——策略与技术(典藏版)》,《解密对冲基金指数与策略》,《量化投资与对冲基金丛书 量化投资系统:平台、原理和可信性》,《量化投资:数据挖掘技术与实践(MATLAB版)》 等。

喜欢读"机器学习在量化投资中的应用研究"的人也喜欢 · · · · · ·

短评 · · · · · · ( 全部 7 条 )

4 有用 阿道克 2014-12-04 22:33:08

1 有用 Meva 2017-02-11 01:27:56

0 有用 李斌 2015-08-01 23:36:57

1 有用 Bing 2015-08-30 15:26:30

跟量化投资不大, 有些章节流于浅尝辄止,定价59元也实在偏高。 书不能这么随意起名字, 也不能这么动不动就动用“华尔街。。。”这样的宣传语, 有误导读者之嫌。书中最重要的预测值与真实值的比较图也是画的一般, 这种图竟然不画的一目了然一点。

量化投资学习

那么问题来了,上述两个例子的 发现规律 或 重现规律 过程能否用机器学习代替?

上述两个例子本质也是分析过去的数据,从而发现规律或重现规律,这一过程与机器学习模型的本质是无异的。但是很遗憾,就目前的成果来看,若想在非监督情况下,利用机器学习模型来 发现规律 ,这一点还是比较困难的(你就想象模型怎么找出例1研报中的“聪明程度”指标表达式),但是 重现规律 这一点,机器学习还是可以轻松做到的。

■ 例子1:【国信证券——SVM 算法选股以及 Adaboost 增强】。以每个因子作为一层特征, 在 68 个因子的维度下,支持向量机算法能够有效的对股票组合的标签进行分类与预测。

SVM 算法的样本数据的标准化采用排序法。 因此,计算每个股票按某因子的排序然后除以总股票数,这样因子的值归到(0,1]。

然后,对下一期收益率从大到小排序,取前 30%作为强势股,后 30%作为弱势股,强势股划分类标为+1,弱势股划分类标为-1;中间百分之 40%的股票排出训练集,因为中间百分之 40%的股票收益并不强势也不弱势,相当于噪声数据。为了充分利用数据,找出相对稳定有效的因子,确保算法的稳定性,用过去 12 个月的因子数据作为输入样本。从 SVM 理论推导可以知道, 在得到最优超平面的解之后, 样本被划分为两类,而样本距离超平面的距离,则可以代表样本被正确分类的程度。 用公式表达为:

其中 x 为新的样本点, w, b 为 SVM 求解超平面的输出结果。根据距离结果, 同样将股票组合分为 10 档,选择收尾两档分别作为强势组合和弱势组合,并观察回测结果。

机器学习应用于量化投资的过程中仍有很多环节、细节尚未谈及,重述笔者今天最想分享的观点,就是量化投资中 重现规律 这一环节,可以考虑使用机器学习模型,或许会比主观建立的模型更加简单快捷、精细有效。