跳转到主要内容

如何利用非结构化数据寻找超额收益?

陈锴扬
陈锴扬
路孚特量化解决方案顾问

如果现在数据是世界上最有价值的资源,那么在搜索 α 时应该如何使用呢?进一步了解量化方法,该方法利用非结构化数据将基本面和量化投资研究相结合。

本文亮点

  1. 现今大量数据需要转换成投资研究所用的结构化数据。
  2. 路孚特实验室正在使用人工智能、机械学习、自然语言处理和文本数据来驯服(处理)非结构化数据。
  3. 多家公司正尝试采用将基本面与量化研究相结合,这种量化方法是一种使用非结构化数据找到 α 的强大工具。

要在收件箱中获取更多数据驱动的见解,请订阅 Refinitiv Perspectives 每周新闻

数据如今被视为“新石油”— 世界上最有价值的资源。

路孚特在处理传统结构化基本面数据、非结构化数据、人工智能及替代数据集方面的经验与投资行业开始使用这些资源的方式相吻合。

但是,在这种环境下,选股变得越来越困难。很多情况下,曾经被认为是α且被视为是技能证明的超额收益现在可以归因于要素分配。(超额收益一度被认为是投资水平带来的α,在很多案例里更像是源于因子分配)

投资经理面临的挑战包括在从所认为的 α 转向 β 以及从主动策略转向被动策略方面保持领先。(投资经理面临的挑战在于其需要在这些转变中保持领先,包括从α 转向 β 以及从主动策略转向被动策略方面)

预测收益质量

找到 α 的一种方法是提高对已知异常和风险要素(因子)的认知,或基于已发现的异常或较新颖的数据资源创造新要素(因子)。无论这些风险要素(因子)及敞口如何,将这些方法相结合比任何单独的解决方案都更有效。

举个例子:除了应计数据外,自由现金流和经营收益似乎更适合预测收益质量。

在考虑分析师的修正模型时,不要只看外界对每股收益预测的变化,而要看损益表中包含的息税折旧摊销前利润和收入的信息,而且要跨越多个时期,而不仅仅是当前季度。

另一个解决方案是超越已知的异常并创建新的异常,例如,使用机构投资者报告投资组合持有情况的联邦政府文件备案(如 13F 文件)在所有权数据的基础上建立持有情况模型。

我们创建的模型着眼于大型投资者最近向他们的投资组合中增加了哪些投资以及这些新购买投资的潜在特征,以便确定他们新构思的形成过程。

采用非结构化数据

多家公司正尝试采用量化方法将基本面研究分析和量化研究相结合。

但是,使用结构良好的数据(例如企业财务报表)更易搭建量化模型。如今,80% 的数据都是非结构化数据,我们需要将其转化为结构化数据。

世界各地的路孚特实验室正在使用人工智能、机器学习、自然语言处理和文本数据来驯服非结构化数据。例如,使用非结构化文本和机器学习来评估公司的信用风险和违约概率。

我们的模型适用于 StreetEvents 电话会议记录、公司文件备案、路透社新闻提要和精选经纪人研究。

因为所使用的语言不同,因此这些文档类型的处理方式各不相同,具体情况取决于创建者是律师、记者还是卖方分析师

根据未来 12 个月违约概率的百分比,这些文档类型的文本将转换为公司排名的资料,其中风险最高的公司排名第 1,风险最低的公司排名第 100。

量化方法

该模型在 2011 年创建时分析了词袋 (a bag of words),并为“潜在的违反公约行为”等术语赋予了价值。今天,我们的研究正在着眼于应用深度学习技术来改进信用风险模型

大型神经网络正在使用更大的语言集合,而不是一堆单词,来查看这些网络是否能够创建自己的危险单词和短语词典。

数据的未来将走向何方?与纯粹的自由裁量法或电脑选股的完全硬核的量化技术相比,量化领域正在逐渐扩大。关键在于更具智慧的人类与更加智能的机器之间的融合。