皮下脂肪瘤治疗

注册

 

发新话题 回复该主题

准确预测股市论经验资产定价的机器学习方法 [复制链接]

1#
从事白癜风的临床研究 http://m.39.net/disease/a_5488012.html

耶鲁大学经济学教授罗伯特·席勒,曾两次准确预言金融泡沫破裂:

一次是在年出版的《非理性繁荣》中,他精准预言股市暴跌;另一次是在雷曼兄弟破产的前一年,他撰文预言美国即将出现房地产崩盘,并引发严重的金融恐慌。

图1:罗伯特·希勒(RobertJ.Shiller)

年,这位“预言大师罗伯特·席勒同尤金·法马、拉尔斯·皮特·汉森一起获得诺贝尔经济学奖,表彰他们的就是对“资产价格的经验主义分析”做出的贡献。

金融市场可以准确预测吗?本文我们就来聊聊经验资产定价与机器学习方法。

01

背景

经验主义(empirical),在金融里也可以被翻译为“实证”,表明这套研究体系,是通过大量的实验,来发现资产价格的一般规律。

年,Fama和French发表的著名论文,让市场组合、市值和账面市值比这三个因子广为人知,该论文也被称为经验资产定价的开山之作。随后的几十年里,诸多不同类型的因子,也被研究人员挖掘出来,它们试图去解释和预测权益资产的价格变动。

图2:EugeneF.Fama和KennethR.French

目前,业内已经累积了一系列具有预测收益能力的因子,粗略统计,个股层面的预测因子有几百篇文献,针对预测市场的宏观因子有几十篇。不过,由于部分因子是高度互相关的,如何增加因子信息的利用效率,这给研究人员带来了巨大挑战。传统的做法是通过先验知识来做主观筛选,并且采用一些简单的方法将因子进行合成。

近年来,随着人工智能技术的发展,人们开始引入机器学习模型来进行预测,这样的好处有很多。例如,当因子数目较多,且互相关程度较高时,利用机器学习模型中的特征选择和特征降维技术,可以压缩多余的因子信息;当因子与预测目标存在一些非线性关系时,传统的线性模型无法捕捉到这层关系,机器学习却提供了更多的可能。

总的来说,价格波动的预测十分困难,这恰好是机器学习模型擅长的地方。伴随着模型归因技术的发展,机器学习模型的可解释性逐渐提升,这也促进了研究人员重新将视线放回到机器学习模型上。

02

理论

为了更好的对下文进行阐述,这里先简单介绍一些理论知识。在经验资产定价领域,预测股票横截面收益是最重要的目标。

横截面收益是指,全市场所有的股票在同一个时点的收益率,例如一个月。预测股票横截面收益,不仅可以从因子层面,解释某只股票的价值比另一只股票的价值高的原因,为投资经理提供选股依据,还可以衡量一个投资组合未来一个月的收益,这在基金推荐场景下也十分有帮助。

一个好的模型,能够在当期去预测股票下一期的横截面收益。模型的预测性能,一般采用样本外R^2来衡量,该值越大越好。

除此之外,在众多机器学习模型中,如何挑选合适的模型?利用Diebold-Mariano统计量可以衡量一个模型的预测精度是否显著比另一个模型要高。

在解释模型过程中,一般会采用两个指标来衡量因子的重要性:

第一个指标,当我们把某个因子的值全部设为0,同时保持其他因子值不变,测算此时的R^2的减少量。

第二个指标是偏导数平方和,用于衡量当某个因子值变化一个微小量时,模型输出的变化量大小。

既然经验资产定价是个实证的过程,下面我们引用一篇在美股上实证的论文[1]进行阐述。

03

实例

该文献测试了从年3月至年12月,共60年近值股票,其中,共使用94个个股因子,74个行业因子和8个宏观因子。文章使用了13种模型,分别预测股票的月度收益率。下面是一些实证结果,首先展示的是模型的预测性能。

图3:美股月度收益率-模型预测性能实证分析(来自论文[1])

图4:美股月度收益率-模型两两之间的DM统计量(来自论文[1])

第一幅图中展示的数值为样本外的R^2,单位是%,第二幅图展示了模型两两之间的DM统计量。

可以得到以下结论:

(1)作为基准模型的标准线性回归模型(OLS)的R^2等于-3.46%,表明当因子数量较多时,标准线性回归模型容易失效。不过,在此基础上做一定程度的努力,就可以得到还不错的结果。例如,因子筛选(OLS-3),降维(PLS、PCR)、或者增加惩罚项(ENet),都可以降低模型的过拟合程度,从而提升模型的预测性能。

(2)非线性模型(RF、GBRT、NN)的预测性能普遍好于线性模型,且结果是显著的。这也说明模型捕捉到了因子间有意义的非线性关系。

(3)由于金融数据中的低信噪比现象,使得要做资产定价的工作十分困难,样本外R^2普遍很小,最大的也才0.4%(NN3)。即便如此,也说明了模型是具有一定的预测能力,可以给我们投资做参考。

接着文章试图去解释各模型。下面两幅图是分别从R^2减小量和偏导数平方和的角度来衡量因子的重要性的。因子的排序是所有模型对因子重要性进行汇总过后的结果。颜色深浅代表了在某一个模型中,该因子的重要性。

图5:模型因子重要性排序-基于R^2减小量(来自论文[1])

图6:模型因子重要性排序-基于偏导数平方和(来自论文[1])

可以看出,基本上,所有模型归因的结果都很一致,在这些因子中,最重要的一部分是基于近期价格趋势类,在前6个因子中占据了5个,分别是(mom1m、mom12、chmom、maxret、indmom),接着是流动性变量(turn、std_turn、dolvol)、风险指标(retvol、idiovol、beta)和基本面信号(ep、sp)。

文章后续还对各种投资组合进行了分析,得出的结论是:我们可以将个股层面上取得的预测能力自底向上汇总到组合层面,无论是预测组合的收益,还是构建投资策略获得更多的超额收益,都有着不错的表现。推荐有兴趣的读者阅读原文。

利用机器学习进行资产定价成为学术圈的研究热点,除了本文介绍的诸多统计机器学习模型之外,深度学习模型也可以发挥其强大的数据拟合能力,取得不错的预测。这里面就包含了自动编码器[2]和循环神经网络[3]的资产定价。

04

思考

在预测收益上取得的成功,是机器学习在金融科技行业的一次落地。

通联数据作为一家金融科技公司,开发的萝卜投资产品就拥有大量的机器学习模型的实践。萝卜投资为了践行量本投资的理念,开发了基于投研框架的个股营收预测模型,用户通过筛选宏观、行业和个股因子,结合底层机器学习模型进行特征筛选和拟合,可以取得比分析师预期更精准的预测效果。同时,萝卜投资也提供了归因模型,打开机器学习黑盒子,帮助投研人员认识机器思考的逻辑。

以下为萝卜投资的AI预测案例:

滑动

分享 转发
TOP
发新话题 回复该主题