Press "Enter" to skip to content

波动因子:基于NLP的行业分类

本期遴选论文

来源:The Journal of Portfolio Management August 2021

作者:Hussein Abdoh

标题:Firm-Specific Industries, Volatility, and Return: A Text-Based Network Industrial Classification Approach

 

核心观点

 

TNIC行业分类下的行业波动率相对传统行业(美国标准行业分类,SIC与Fama French行业分类,FF)波动率对于个股波动率及超额收益解释度上是否存在差异,或者是否能够提供更多的信息。

 

基于TNIC行业分类计算的波动率指标是解释公司波动和收益的潜在因子

 

基于TNIC行业波动率因子能获得传统行业分类解释不了的显着的超额收益

 

TNIC可以提高资产定价模型的表现

 

什幺是TNIC行业分类

 

以下解释节选自因子动物园最新的文章《叮!您的行业分类需要更新啦~》,已经作者同意:

 

Hoberg and Phillips (2016)(HP (2016))通过爬虫从美国证监会网站上获取了美股上市公司历年的 10-K 报告,并从中提取出了关于产品和业务的章节并计算公司的产品相似度。鉴于词向量方法非常成熟,他们沿袭了该方法。但为了剔除掉其他同产品和业务无关的词汇的影响,他们首先筛选出名词和专有名词,并从中剔除掉有至少 25% 的公司使用过的常用词汇,以及国家、州名等地理词汇。然后对于每一公司-年度观测,将其 10-K 报告表示为一个长为的词向量,其中, W为当年报告中出现的总词汇数,而表示第  个词语的频率。最后,将所有公司的数据标准化后,合并为一个的矩阵,其中,为该财年的公司数量。

 

基于上述词频数据,便可以利用余弦相似度指标来估计公司间的两两相似度。具体而言:

 

该指标值越大,则两家公司的产品越相似,也就越应被划入同一行业。有了公司产品相似度之后,我们就可以对公司进行行业分类了。

 

由于相似度可以看做距离指标(相似度越高,距离越小)。因此,我们可以采用聚类方法,将公司依据产品相似度分为指定数量的类别。虽然原则上聚类方法可以生成任意给定数量的类别,HP (2016) 也的确考察了很多不同的情况。但他们主要聚焦于 300 个行业分类的结果。

 

实证

 

基于TNIC的行业分类根据公司产品业务的相似度,找到最相似的公司,所以对于任意一家公司都可以找到其最相近的竞争者(产品业务最相似)。作者把在同一行业分类下的所有公司的波动率均值定义为该行业的波动率,波动率基于过去60个月的月度收益计算。

 

 

个股波动与TNIC行业波动

 

为了研究个股波动与行业波动之间的关系,作者对个股波动与行业波动做回归,除了行业波动外还加入了其他控制变量:

 

 

下图给出了自变量之间的相关性,可以看出VAR-TNIC与VAR-SIC及VAR-FF的相关性很高,但也不是完全相关,说明VAR-TNIC能提供部分其他行业分类不能提供的信息。

 

 

下表的不同列给出了不同场景下的回测结果:

 

 

 

从上表可以看出:

 

1、列1表明,VAR-TNIC的回测系数显着为正(0.455,t-value=49)说明VAR-TNIC与个股波动显着相关。

 

2、 列3表明,即使加入了VAR-FF和VAR-SIC,VAR-TNIC的回测系数显着为正(0.283,t-value=25),说明VAR-TNIC能提供部分VAR-FF和VAR-SIC不能提供的信息。

 

3、列3、列4和列5表明,加入VAR-SIC和VAR-TNIC后,VAR-FF的回归系数由0.6056下降到-0.0094,t-value从56.32下降为-0.45;加入VAR-TNIC后,VAR-SICF的回归系数由0.5461下降到0.3575,t-value从67.73下降为23.62。说明VAR-SIC和VAR-TNIC已经包含了VAR-FF大部分信息,VAR-FF由此显得不再重要;虽然VAR-SIC依然显着,但VAR-TNIC的加入能够提供更多额外的信息。

 

个股超额收益与TNIC行业分类

 

TNIC行业分类除了能在解释个股波动时提供更多的信息外,与个股超额收益之间也存在显着的线性关系。作者基于不同行业分类的行业波动将股票分为五组,进行测试。测试结果如下表,可以看出基于TNIC行业波动的分组测试有更好的单调性,波动率越高,分组收益就越大。而基于SIC和FF行业分类的分组测试在组3和组4间并没有显示出单调性。表4给出了TNIC分类下,各组的换手率,基本上波动越低的分组换手率越低。

 

 

 

资产定价模型与TNIC行业分类

 

最后,作者基于Fama五因子及动量因子,在不同的行业波动分组下,进行回归测试。下表最左边是行业波动最小分组股票的回归结果,其中截距项是因子未解释的收益(Abnormal Return)。可以发现随着TNIC波动的上升(从组1到组5),Abnormal Return越来越大,也就是说TNIC波动大的股票有更多的Abnormal Return。以多空组(Long-Short)的Abnormal Return来看,相对于SIC及FF行业分类,TNIC行业分类的区分度更为明显。

 

 

 

题外话

 

对于公司行业的分类,市场上有多种体系,国内常用的中信及申万的行业分类。近年来基于公司经营业务的行业分类体系也越来越得到市场的关注,由于公司经营业务披露的不一致性,对业务标准化、统一化成了最大的难题。随着机器学习的发展,NLP的技术越来越多的应用的这一场景中,国内的太平洋证券也在2020年4月的报告《金融工程指数增强:基于主营构成的指数增强策略》涉及了NLP在主营业务标准化上的应用。当然国内也有数据公司很早就开始尝试根据标准化主营业务,进行行业分类体系的构建。这也是基本面与量化结合的很重要的基础设施。最后希望,这类“准另类数据”能够在量化投资中大放光彩。

 

参考文献

 

1、Hoberg, Gerard, and Gordon Phillips. “Text-based network industries and endogenous product differentiation.” Journal of Political Economy 124.5 (2016): 1423-1465.

 

2、Hussein Abdoh, “Firm-Specific Industries, Volatility, and Return: A Text-Based Network Industrial Classification Approach”. Journal of Portfolio Management

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注