跳转到主要内容

为什么时间点数据在回溯测试中至关重要?

Saeed Amen
Saeed Amen
Founder of Cuemacro

Saeed Amen, 定量分析师,也是The Book of Alternative Data (7月出版) 的作者之一, Saeed Amen描述了为什么理解数据的时间点概念对市场进行历史分析时至关重要。


  1. 如果数据没有记录在时间点上,我们可以在我们的回溯测试中使用“未来”数据,这将使分析带有事后诸葛亮的偏见,人为地使结果看起来更好
  2. 确保你的数据供应商提供时间点数据是至关重要的,尤其是对于经常需要修改的数据库,如宏观经济数据和公司基本面数据。
  3. 数据的时间点记录也是分析另类数据集时要考虑的一个因素。

获取更多数据驱动的见解,订阅Refinitiv Perspectives每周新闻

对于数据来说,什么是“时间点”?

在进行任何类型的历史市场分析时,时间点数据都是一个非常重要的考虑因素。我们可以先通过一个例子来说明它是如何工作的,然后再深入研究这个主题。

时间点数据如何应用于分析?

假设我们对一个交易策略进行回测,并且使用过去五年的历史数据作为输入。

假设我们的模型每天交易一次,在市场收盘时,我们会说我们在回溯测试中计算2020年1月1日的交易信号。到那时,我们应该只有2020年1月1日、2019年12月31日、2019年12月30日等的数据。

使用来自Refinitiv的时间点数据,有信心地回溯测试和建立投资模型

换句话说,我们的回溯测试应该只看到历史数据,而不是任何未来的数据。如果我们知道未来的数据,结果会看起来更好。

然而,使用未来的数据会使得策略在实际环境中不可交易。

有一个非常简单的、不可交易的交易策略的例子,它使用了一种有效的事后聪明偏见,使用明天的股票价格作为输入。该策略使用明天的价格来决定今天是否买卖。如果明天价格上涨,今天就发出“买入”的信号。如果你知道结果,事情是显而易见的。

如果我们在进行实时交易,我们没有水晶球来预测未来的价格。因此,我们无法下载任何未来的数据。然而,在回溯测试中,要确保将来的数据不会以某种方式渗入我们的数据集中就更加棘手了。

在回溯测试中,每当进行计算时,我们需要避免从数据库加载未来价格。例如,如果我们在计算2020年1月1日的交易信号,我们需要确保2020年1月2日的价格 (或者实际上是2020年1月1日之后产生的任何数据) 不被使用。

如果我们没有使用时间点数据,我们最终的回溯测试可能无法正确地展示策略的历史表现。任何基于这种回溯测试的后续交易决策都可能是由于不准确的数据而做出的。最终的投资策略可能并不像我们在做统计分析时显示的结果那有吸引力,因为使用非时间点的数据会导致事后聪明偏见。

检查数据是否记录在时间点上

然而,这还不够。我们需要确保我们正在使用的任何数据都是在时间点被记录的,这样每个数据点都有一个记录其被收集或更新的时间的时间戳。

我们需要在每个数据点旁边检查这个时间戳,这样就不会在回溯测试时无意中使用未来修订。宏观经济和公司基本面数据,以及更广泛的另类数据 (如机器可读的新闻) 通常会被多次修改。

以宏观经济数据发布为例子,例如美国第一季度GDP (即2019年1月1日至3月31日),该周期的数据被多次发布:

  • GDP预测值公布:2019年4月25日
  • 第二次GDP公布:2019年5月30日
  • 第三个GDP公布:2019年6月27日

如果我们想要回测一个使用美国GDP作为输入的交易策略,我们需要确保我们所使用的美国GDP的数据是在交易日之前公布的。

例如,我们只能在交易计算中使用4月25日以后的预测值,和5月30日以后的第二次估计值,等等。

另类数据库?如何影响时间点?

在使用另类数据库时,我们还必须意识到时间点问题的影响。

假设我们正在构建一个数据库,记录零售商停车场的汽车数量,其中涉及到收集卫星图像。我们需要确保我们对汽车数量的观察与我们正在收集的图像具有相同的时间戳,并且我们不会无意中使用“未来”图像来回填我们的汽车数量数据集。

时间点数据使投资者能够访问特定数据点的演变,而不仅仅是观察数据历史中的最终修订数字。

Saeed Amen在他的新书 The Book of Alternative Data: A Guide for Investors, Traders and Risk Managers中广泛地论述了另类数据

作为执行准确和有代表性的回溯测试的关键,采用多样的校订可以为您的模型提供额外的输入。因此,您可以在时间上回顾同一数据点的不同版本,以及发布时间的时间戳。

时间点的问题似乎非常微妙。然而,忽视它会使历史市场分析变得不现实,从而导致投资者得出错误的结论。为了防止遇到此问题,确保数据供应商提供时间点数据集是至关重要的。

使用来自Refinitiv的时间点数据,有信心地回测和建立投资模型