Press "Enter" to skip to content

收藏级!A股动态多因子模型实践

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

量化投资与机器学习微信公众号,是业内垂直于 量化投资、对冲基金、 Fintech、人工智能、大数据 等 领域的 主流自媒体 。 公众号拥有来自 公募、私募、券商、期货、银行、保险、高校 等行业 30W+ 关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2 年被腾讯云+社区评选为“年度最佳作者”。

 

量化投资与机器学习公众号独家解读

 

量化投资与机器学公众号    QIML Insight——深度研读系列  是公众号全力打造的一档 深度、前沿、高水准 栏目。

 

 

公众号 遴选 了各大期刊前沿论文 ,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。 QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文

来源:The Journal of Investing Vol. 31, Issue 2 February 2022

标题:Study of Dynamic Multifactor Model Application In China A-Shares

作者:Ying Lan

 

核心观点

 

A股市场,因子存在短期动量效应,这种效应可以用在动态因子的模型构建中。

 

A股市场中,因子有效性并不稳定,当因子发生拥挤时,其有效性会减弱或消失。

 

通过结合因子短期动量、因子有效性持续能力过滤及基于因子拥挤的权重调整构建的动态因子模型能够提供更稳定的Alpha能力。

 

因子库及因子数据预处理

 

作者基于Ricequant和Wind数据库构建了五大类(价值、规模、质量、成长及技术指标)共计62个因子。每个大类大概有15个因子,这些因子涵盖了大部分常用的因子。部分因子如下表1,详细的62个月度因子定义见附录。

 

 

因子的方向也是根据因子的逻辑决定的,下表2列出了负向因子和双向因子。比如DAR是一个负向因子,因为逻辑上负债资产比率越高,股票的质量越低,收益率就越低。但像return_1M因子可能是双向的,正向代表动量效应,负向表示反转效应。

 

 

此次研究的股票池为沪深300指数成分股,一共包括2008年7月至2020年3月的670个股票。所有因子数据都经过了以下处理:

 

行业中性化 ,采用中信一级行业,对每个因子计算行业内Z-Score的方式计算中性化后的因子值。

 

异常值处理 ,也在行业内进行异常值处理,异常值的判定标准为超过正负3个标准差。

 

因子分析

 

因子分析主要是从时序截面等角度分析因子的IC值,文中的IC为Spearman相关系数,也就是我们常说的Rank IC。

 

时间序列分析

 

IC的时间序列能够展示出该因子预测能力的稳定性,表3给出了62个因子的IC的统计值。表4给出了每个分类下ICIR最大的因子的IC序列,可以看出即使ICIR最大的因子,也有可能在很长一段时间表现出不稳定性。

 

 

 

Gupta和Kelly(2019)在对全球市场65个常见因子的自相关性研究中发现了因子展现出强劲的一个月的因子动量。65个因子其中有59个因子的AR1(一阶自回归)为正,49个因子的一阶自回归系数统计上显着。所以,本文也对A股的62个因子进行了自回归测试,结果如图5和图6。 其中图5是对因子IC序列进行自回归测试的结果,有43个因子IC的自回归系数为正。其中图6表示因子收益(每个因子多空组合的收益)自回归测试的结果,有47个因子的自回归系数为正。这说明A股存在因子动量和因子收益动量效应。

 

 

 

截面分析

 

虽然每个因子在时间序列预测能力方面表现出很大的差异,但对于整个研究期间的每个因子大类(风格),在大多数月份,每组内都存在有效因子(表7)。

 

 

这一发现表明,这些共同风格的因子大部分时间一般能够区分股票的表现水平;然而,内部风格定义的轮换可能会随着时间的推移而存在。例如,投资者一直在寻找高质量的公司。在经济扩张期间,他们可能会寻找质量因子,如资产收益率(ROA)或净资产收益率(ROE),但在经济低迷周期或流动性紧张时期,随着对破产的担忧加剧,债务与资产比率(DAR)等因子变得更有效。这揭示了A股稳健模型的重要性——识别市场变化和适应不断变化的市场机制的能力。

 

面板数据分析

 

在一段强劲的表现之后,因子的有效性会衰减或完全消失(Vopati et al.2020)。这是由于因子拥挤造成的。 因子拥挤度可以通过一个月的因子横截面重要性与历史重要性滚动平均值的相对值来评估。 由于因子库包含具有相似特征的因子,因此在测量因子拥挤度时可以将它们分组到不同的聚类中。

 

作者使用K-means,基于62个因子的IC序列,对它们进行聚类。K的数量取决于轮廓系数(silhouette)。silhouette系数是聚类效果好坏的一种评价方式。值越大,说明聚类效果越好。如图8,说明K等于30时聚类效果最好。

 

 

对于聚类在t时刻的重要性,用以下公式计算。也就是该时刻,所有聚类内因子IC的均值。

 

而因子k在t时刻的相对重要性(相对于过去12个月)等于:

 

其中,

 

我们发现因子的相对价值能够捕捉到因子的过度拥挤。研究期间,因子有76.5%可能的损失预测能力(单向因子的IC < 0.05或双向因子|IC |  < 0.05 )。

 

通过以上的测试,对因子模型的构建得出了以下几个启发:

 

因子IC表现出的不稳定性,说明静态的因子模型可能效果不会很好;

 

一阶自回归测试结果说明因子筛选时可以考虑因子动量

 

许多AR(1)为正,但不显着,这种情况下,可以在每个因子分类中加入一个动态因子筛选器。

 

尽管单因子不稳定,但每组中总有有效的因子,说明在模型要考虑每组中因子的分散性。

 

因子很有可能由于因子拥挤而衰减,说明因子拥挤可以用在因子权重配比中。

 

 

因子模型和组合优化

 

基于以上发现,我们构建了一个动态多因子模型(Model 1),除此之外还构建了三个用于对比的模型(Model2-Model4)。下面分别介绍一下这4个模型:

 

Model1 动态多因子模型

 

模型的整体流程如图10所示,具体说明如下:

 

1、因子预测能力过滤 ,考虑到因子动量效应,t-1时刻,在每个因子组内选择一个预测效果最好的因子(基于t-1时刻的因子Rank IC)。

 

2、预测能力持续性过滤(Predictive power persistency filtering) ,根据36个月滚动数据计算一阶马尔可夫链转移概率。对于一个因子,预测能力持续性过滤的条件是:正向因子大于 1/3;负向因子大于1/3;双向因子或大于1/3。每一组的因子选择逻辑如下:

 

如果这一步没选出因子,则返回上一步,选择这组IC最高的4个因子直接进入下一步。

 

如果这一步选出因子,再在这组剩下的因子中,选择一个IC最高的,此时这组有两个因子进入下一步。

 

最终确保每组都至少有2个(或者4个)因子进入下一步。

 

基于因子月度Rank IC值,把因子分为三个状态:1. 较强正向预测能力(IC>=0.05)2. 较差预测能力(|IC|<=0.05)3. 较强负向预测能力(IC<=-0.05)。也就是说,给定这三种状态,任何一个因子的IC时间序列都可以转变为类似[1,1,2,2,1,1,2,3,3…]的状态序列。可以使用较长时间的历史数据得到状态序列,并由此计算因子预测能力的转移概率。用p_i,j表示从状态i转移到j的概率,p_1,1表示从状态1(较强正向预测能力)变到还是状态1的概率。

 

关于如何使用Python,基于历史状态序列计算转移概率矩阵,可以参考这个链接:

 

https://stackoverflow.com/questions/46657221/generating-markov-transition-matrix-in-python/46657489

 

因子拥挤性测试,基于等式10计算因子的拥挤度指标。对于单向因子,如果指标值大于2;或者双向因子,指标绝对值大于2;其原先的因子权重需要再乘以1/2。因子原先的权重由以下等式计算:

 

双向因子的方向由其上一期的因子IC决定。

 

 

其他三个模型定义如下:

 

Model2 是一个静态模型。基于训练期(2009-2012)的数据,在每组中选择ICIR绝对值最大的 两个因子 ,组成静态因子模型。因子权重也基于ICIR绝对值计算。

 

Model3 与Model2的区别是因子的选择是每年滚动选取,也是基于ICIR绝对值排序每组选取两个因子。

 

Model4是一个动态因子模型 ,在每一组中,每个月选取上一期因子IC最大的两个因子。

 

组合优化

 

基于以上各模型计算每个股票的因子得分和因子权重,然后基于以下目标函数(最大化Alpha因子)及限制条件(主要包括行业暴露、主动权重及行业市值限制)求解股票权重:

 

(i)industry constraint versus benchmark industry breakdown: For each CITIC Level I industry j:

 

(ii)active weight constraint versus benchmark stock weights: For CSI 300 constituent stock i:For non-CSI 300 constituent stock i:

 

(iii) market-cap constraint versus benchmark market cap:

 

实证结果

 

下表11至14给出了测试结果,可以看出Model1动态因子模型的回测大幅领先于其他三个对比模型。

 

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。