过拟合与欠拟合-股票投资中的机器学习

本文来自Euclidean Technologies于2018年发表的一封公开信,主要介绍了机器学习在金融领域中的应用和前景。可供对机器学习感兴趣的朋友学习,对 量化投资 与人工智能的结合有个初步的了解及认识。

 

 

截至今年9月,在标准普尔500指数成份股包括股息在内的总回报率为10.6%的情况下,Euclidean Fund I费用和支出净额年涨幅为9.8%。这些回报来自于一个对价值投资者不利的环境。今年前9个月,昂贵成长型股票的总体主导地位继续保持,而且,无利可图的公司表现优于市场。

 

为了对我们的结果有所了解并明确我们的定位,我们来考虑Euclidean的投资组合中的这两种观点。它们不仅表明了我们为什幺对欧几里得带来未来回报的潜力持乐观态度,也表明了为什幺市场对高成本、无利润公司的青睐会对我们的战略产生不利。我们相信,当盈利公司受到青睐、估值倍数受到压缩时,我们的投资风格将会与众不同——并且,这种情形最终很可能会出现。

 

与此同时,我们会一直通过结合我们的经验、逻辑和机器学习的使用,继续完善我们的投资方式。我们的目标是完善欧几里得(Euclidean)评估某个公司的财务状况如何演变的流程,从而确定哪些公司是被投资者(以及当前市场价值)严重低估了的。

 

关于这些尝试,我们认为现在正是将我们对发展投资模型的观点分享出来的时候,比如模型过拟合和金融市场的非平稳性质。当你在研究定量投资方法时,这些主题极为重要。希望这封信能让你们对Euclidean对这些主题的观点有所了解。

 

机器学习和股票投资

 

金融市场存在着大量的随机性、噪声和模糊性,这是因为人类在制定市场价格的过程中,带着情感和奇想,并在无意中被卷入其中。这导致一些人得出这样的结论:复杂的机器学习模型,如神经网络和决策树的集合,注定会被所有的噪音所误导。令人担心的结果是,这些模型可能会与数据过度匹配,发现本不存在的关系,而不是持久稳固的原则。

 

这种观点源于另一种现象,那就是在深度(机器)学习领域中,一些最大的成就与游戏有关,例如电子游戏、国际象棋和围棋。尽管这些游戏很复杂,但它们与金融市场不同——它们有明确的规则。

 

在很多方面,我们认为这种对机器学习的担忧是错误的。毕竟,机器学习已经被证实即使在非常嘈杂的领域也是成功的,比如语音识别和计算机视觉。此外,正如我们在这封信中所描述的,机器学习提供了一个工具库,专门设计用来在嘈杂的数据中梳理出信号,并防止过拟合。

 

但在我们开始讨论之前,有必要说明一下,在Euclidean对机器学习在长期投资中的应用进行了长达10年的研究之后,我们已经得到的一些结论。在我们的研究中,我们就上述观点进行了三次高水平的观察:

 

当我们试图使用现成的深度学习技术从过去的基础数据和动量中预测未来的收益时,他们的表现并不比一个简单的线性模型好。

 

当我们试图从过去的基础和势头中预测未来的基本原理,并再次使用深度学习技术时,我们在线性模型上取得了成功(尽管不太成功)。

 

当我们把长期投资当成一个分类问题来表述时,我们已经在决策树的总效果中看到了更好的结果。也就是说,我们不是试图从过去的数据预测未来的回报,而是通过预测一项投资的结果是好是坏,我们发现这种方法效果更好。

 

这可能就是故事的结局了。也许我们已经把机器学习应用到股票投资中去了。然而,对于那些认为机器学习不太可能对长期股票投资和定量金融产生革命性影响的人来说,近期金融领域的事件与发展给他们提供了一个警示。

 

请考虑这三个噪声非常大且具有在计算方面具有挑战性的问题:计算机视觉、语言翻译和语音识别。就在不久以前,这些领域中的最佳技术还不是基于机器学习的,而且它们的性能一般都很糟糕(通常比孩子能做的还要差)。例如,您曾经可能理所应当地认为未来的语音识别将来自于传统的方法,如隐马尔可夫模型。但后来发生了一件不寻常的事,在所有这三个领域,尽管不一定同时或出于同样的原因,深度神经网络的性能都超过了传统的方法,常常超过这些领域专家的人类性能。

 

在这封信中,我们将深入研究了上面介绍的几点,以解释为什幺我们继续推进我们的研究,寻找更有效的方法来评估某个公司的长期投资状况。首先,我们讨论当使用机器学习来构建模型时,实际上存在一个谱,在这个谱的一端模型是不适合的,另一端模型是过度适合的。我们的目标是在中间找到一个合适的点既不是太合适也不是太不合适在这个点上,模型成功地捕获数据中的持久关系,并实现良好的泛化。

 

然后我们讨论在一个规则不固定的世界中,如何看待机器学习的使用。毕竟,在一个规则极端不平稳的环境中,在一个时期得到的任何数据在下一个时期都可能毫无价值。但是,这种局限性不仅存在于机器学习中,还存在于人类和传统的统计方法中。然而,正如我们之前所说的,有一些方法可以帮助我们构建有助于缓解这个问题的投资目标,也有一些工具可以帮助我们在数据轻微非平稳或数据随着时间缓慢变化时提高模型性能。

 

过拟合(和欠拟合)模型

 

机器学习有很多种类型,但最常见的是一种被称为监督学习的形式。监督学习背后的思想是模型负责将输入映射到输出。在图像识别中,输入可以是图像(例如,表示场景中像素的颜色和强度的数字网格),输出可以是图像的描述(例如,椅子上的猫)。在语言翻译中,输入可能是英语句子,输出可能是法语句子。对欧几里得来说,输入可能是某个时间点上关于一家公司的各种数据,输出可能是“1”,也可能是“0”,表明该公司股票在随后的一年时间里是否优于市场总体水平。

 

模型将输入映射到输出的方式主要是可调参数或权重。就像在钢琴上,如果你改变琴弦的张力(调音),同样的一组按键(输入)会产生一组不同的声音(输出)。在机器学习模型中,权值通常用数字表示。可能只有几个这样的权重,比如在一个简单的几个变量的线性模型中,也有可能有数千万个这样的权重,比如在最复杂的深层神经网络中。

 

机器学习模型中的权重是在所谓的训练阶段确定的。在这个阶段,机器将收集输入和目标输出的示例。例如,如果你想训练一个把英语句子翻译成法语句子的模型,你需要收集很多英语句子的例子和相应的法语翻译。

 

在训练阶段,学习算法试图找出模型输出和收集到的目标输出之间产生最小差异或误差的权重。在某种程度上,所收集的数据代表了真正的输入和输出之间的关系,然后最小化表现良好的训练数据的总误差,产生在其他相同的数据分布但不包含在样本(即样本外)的数据的一个模型。

 

但这还不是全部。我们还必须面对过拟合和过拟合的挑战。用一个例子来说明是很有用的。在图1中,您可以看到一些观察到的数据,其中x是输入,y是输出。此外,我们已经将直线拟合到观察到的数据中,使线性模型的输出与实际观测到的y之间的差最小。

 

 

显然,对于线性模型无法捕捉到的数据,存在一些曲率(或非线性),因此人们很自然地要问,一个更具表现力的模型(曲率更大的模型)是否能更好地拟合数据。

 

因此,我们可以尝试一些更有表现力的东西,而不是简单的线性模型,如以下形式的三次多项式:

 

 

最佳拟合的三次多项式如图2所示。这显然看起来更好,且从数量上来说,三次多项式拟合的目标输出和实际输出之间的平均绝对差是0.17,而线性模型是0.51。

 

 

然而,如果学习的目标是最小化实际输出和目标输出之间的差异,那幺为什幺不尝试做得更好呢?我们可能会认为一个模型适合所有100个样本数据点,误差为零是最好的。这种拟合可以用一个99次多项式实现,如图3所示。

 

 

但这真的是最合适的吗?直觉上,大多数人会认为他似乎不正确。虽然第一个示例似乎没有足够紧密地跟踪数据分布,但是这个示例似乎过于紧密地跟踪数据分布。但是我们能量化这种直觉吗?

 

建立模型的目的是使用它对新数据进行未来的预测y当我们遇到一个新的x的值。所以为此,我们检查当我们收集更多的数据(比如另一个100左右的输入-输出例子)和评估我们的三个模型基于这个新的数据。在下表中,我们可以看到,与样本内数据完全吻合的模型(99次多项式)的样本外误差比3次多项式模型的样本外误差要小。

 

 

这个结果引出了下面的问题:1到99阶多项式的样本外误差是多少?结果如下图所示。

 

 

从图中可以看出,最小样本外误差是通过三次多项式实现的。这是达到最佳泛化的点。但是在机器学习中我们如何找到这一点呢?在下一节中,我们将介绍机器学习为解决这个问题而带来的一些大型工具。

 

在机器学习模型中实现良好的泛化

 

对于大多数监督学习项目,确定模型的过程可以分为三种主要策略,以实现较强的泛化。我们将从最后使用的策略开始——样本外测试。

 

样本外测试是我们基于从未公开过的数据对模型进行测试的过程。该测试的典型过程是留出随机选择的数据的10%到30%,在构建模型并准备部署之前不动它。测试集上的性能被认为是模型泛化性能的估计。

 

现在,要小心。假设我们告诉您,如果您的样例外测试不成功,您就无法返回并使用不同的方法再次尝试。这是因为:如果您迭代地构建模型,基于样本外数据测试它们,并通过这些测试的成功(或失败)来指导您的过程,那幺您实际上是在使用测试数据来训练您的模型。

 

这似乎相当伤脑筋!直到最后一步,您才知道是否有一个成功的模型,如果最后一步导致测试失败,那幺您就陷入了困境。

 

值得庆幸的是,有一些技术可以在训练过程之前和期间防止过度拟合,因此在进行最后的样本外测试时,您已经很好地了解了模型将如何执行。

 

正则化

 

Occam剃刀是14世纪圣方济会修士William of Ockham提出的哲学原理。它从拉丁语翻译过来是“没有必要就不能假定多元化”,这通常被解释为注解、模型或理论不应该比必要更复杂。然而,它经常被误解为:最简单的模型就是最好的模型。

 

这种区别很重要,因为在实践中,我们应该不断增加复杂性,直到复杂性不再改善模型的性能。从这个意义上说,上面图4总结的实验(它将模型复杂性与样本外性能联系起来)就是在做这个——找到增加模型参数的数量没有价值的点。这种控制模型复杂性以避免过度拟合并实现良好泛化的过程称为“正则化”。

 

在机器学习中有无数种形式的正则化。正则化的程度(您对模型容量的控制程度)称为“超参数”,而找到适当的正则化程度的过程称为“超参数搜索”。进行超参数搜索的一种方法是从训练数据中随机选择一个验证数据集。

 

然后,有了训练数据,您就可以用正则化水平的增加(减少)来拟合许多模型。然后在验证数据上测试每个模型的性能,如图4所示,选择将复杂性最低的模型与最好的验证性能结合在一起。然后在测试集中对该模型进行测试,以获得其样本外性能的估计值。

 

有很多方法可以改进这种超参数搜索的基本形式。例如,交叉验证[8]允许使用更多的数据进行培训,使用更少的数据进行测试,同时仍然能够获得良好的泛化性能评估。此外,某些技术[9]更好地处理时间序列数据,这是大多数财务数据的形式。

 

在某些领域,只有通过设计全新的模型体系结构,才能在泛化性能上取得重大突破。计算机视觉[11]的卷积神经网络和时间序列的长短期记忆网络 12 就是很好的例子。这些神经网络体系结构中的每一个都通过使用一种正则化的形式来获得良好的泛化性能,这种正则化是它们所解决的问题所特有的。

 

在我们自己的研究中,我们使用了一种叫做多任务学习(multi-task learning)的正则化方法,研究了使用深度神经网络来预测过去基本面因素对未来收益的影响。也就是说,我们不要求我们的模型仅仅预测未来一年的收益,我们要求它预测未来一年的所有损益表和资产负债表项目。这在训练过程中为模型提供了更多的信号,因此可以帮助避免过拟合。

 

因此,综上所述,机器学习中实现良好泛化(不欠拟合或过拟合)的关键组成部分是超参数搜索、正则化和样本外检验。这些技术支持在各种嘈杂领域中开发非常强大的模型。[13]

 

金融市场非平稳带来的挑战

 

将机器学习和一般统计方法应用于投资领域的一个常见的批判言论:市场是非平稳的。也就是说,与国际象棋等游戏不同,投资规则不是固定的,导致良好回报的因素会随着时间的推移而变化。但这种批评并不仅限于机器学习的应用。相反,它是对推理应用的批评。毕竟,无论你是人类还是机器,当你在一个以极端非平稳规则为特征的环境中运行时,在一个时间段学到的任何教训在下一个时间段可能都没有什幺价值。

 

80年前,价值投资之父本杰明•格雷厄姆(Benjamin Graham)做了一个类比,为我们提供了有关欧氏法则影响的观点。也就是说,在短期内,市场表现得像一台投票机,但从长期来看,市场更像是一台称重机。格雷厄姆的观点是,恐惧、贪婪和其他情绪(投票机器)会导致短期市场波动,这可能很难理解。这些波动有时会导致一家公司的价格与该公司为其所有者创造现金的能力所隐含的价值产生显着差异。然而,在很长一段时间后,格雷厄姆观察到,随着企业的市场价值与经济表现趋同,称重机最终会发挥作用。

 

因此,当你的投资目标变得更长远时,你会感觉自己似乎正在处理一个越来越稳定的问题。短期内,价格可以做任何事情。投资潮流来来去去,投资者的注意力常常转向与公司未来现金流无关的外部发展。然而,最终,公司市值和现金流之间的关系似乎决定了一切。具体地说,当股价相对于公司现金流变得非常高时,它们随后表现不佳。而且,当股价相对于企业现金流的跌幅非常低时,它们往往会带来高于平均水平的回报。[14]

 

我们已经通过对较早之前的模型进行培训,然后在更近期的样本外示例中成功地测试它们,从而满意地证明了这一点。因此,我们相信,从长期来看,股票投资是平稳的,这足以让机器学习产生良好的结果。

 

然而,“足够平稳”并不意味着完全平稳。随着时间的推移,税收和监管制度发生了变化,会计规则发生了变化,交易成本大幅下降,代表一个国家股市特征的公司类型和保证金状况也发生了变化,等等。因此,随着时间的推移,可能会出现一些重要的教训,这也有助于评估单个公司的基本特征和投资潜力。

 

幸运的是,当数据分布随着时间缓慢变化(弱非平稳)时,机器学习中可以使用一些工具。例如,在我们从过去的基本面预测未来基本面的研究中,我们测试的一种方法是在30年的跟踪数据变动窗口上迭代地构建模型。每年Y,我们建立了一个模型基于数据从Y – 30 – Y – 1,这中使用的模型是建立在2000年的数据,从1969年到1999年和2018年所使用的模型是建立在数据从

 

1987年到2017年的时期。

 

通过使用这样的实践,我们可以随着时间的推移发展我们的模型,使其偏向于更近期的数据,并考虑到长期股权投资的一些非平稳方面。

 

总结

 

从数据来看,似乎遵循投资廉价公司的简单规则对投资者会有好处。这促使我们创立了欧几里得,并通过更深入地研究公司的基本面来寻求做得更好的机会。我们想要一种基于历史教训的过程驱动的投资方法。我们认为你们中的一些人也想要同样的东西。

 

我们最初利用机器学习工具构建了我们的方法,以消化多年前上市公司的财务报表和投资结果。这为我们根据过去类似机会的实际表现来评估今天的股票投资期权提供了基础。但旅程才刚刚开始。

 

自从我们公司成立以来,我们的工作工具变得越来越复杂。与此同时,可供分析的数据越来越多,而我们成功应用商业投资战略所需的经验也在不断加深。因此,我们的运作方式在不断发展,因为我们试图利用我们相信可以改善我们的投资过程的新见解。

 

我们希望像这样的信件能让您与我们的努力保持联系,成为您的血汗钱的好管家。我们希望你是一个知情的欧几里得投资者,我们可以讨论这里分享的内容,我们的投资组合中的个人立场,或任何问题,你可能有。请随时打电话给我们,我们一直很高兴收到你的来信

 

最好的问候,

 

John & Mike

 

本协议所表达的意见为欧几里得技术管理有限责任公司(以下简称“欧几里得”)的意见,如有变更,恕不另行通知。本资料并非财务建议或买卖任何产品的要约。欧几里得保留根据不断变化的市场动态或客户需求修改其现有投资策略和技术的权利。

 

欧几里得技术管理有限责任公司是根据1940年修订的《投资顾问法案》注册的独立投资顾问公司。注册并不意味着一定程度的技能或培训。更多关于欧几里得的信息,包括我们的投资策略,费用和目标,可以在我们的第2部分的广告中找到。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注