1. 主页
  2. 路孚特实验室
  3. 项目 - 我们在做什么
  4. SentiMine

SentiMine 项目

挖掘非结构化内容中的股票表现主题

非结构化内容的高级发现工具,可识别股权业绩的关键驱动因素以及未来前景的变化。

问题和机遇

买方花费数百万小时的工作时间来梳理非结构化文本,以推动资产管理和投资决策。

一位研究范围包括亚马逊的买方股票分析师可以说明这个问题。

在 90 天的时间段内,这位分析师通常会收到 200 多份关于亚马逊的研究报告,每份报告的长度从 2 页到 60 页不等。除此之外,分析师还将收到 50 多份公司文字记录和文件,以及数百条与亚马逊有关的新闻报道和电子邮件。

这还只是该分析师研究的 50 多只股票中的一只。这是信息过载的一个典型例子。

  

市场有这样一个明显的需求,就是要更轻松、更快速地从包含大量文本的非结构化内容中读懂并提取洞察。

解决方案

路孚特实验室构建了 SentiMine 原型,通过减少在研究上耗费的时间和相关成本,从而帮助客户从非结构化内容中获得更多价值。

SentiMine 将自然语言处理 (NLP)、情绪分析和深度学习相结合,可通过分析数以千计的非结构化研究报告和公司记录,快速高效地提供洞察。

洞察包括:

  • 股票表现的潜在驱动因素
  • 分析师在股票研究报告中对各个主题的展望(或情绪)随着时间的变化情况
  • 通过分析多个文字记录,得出不同主题下的分析师展望和公司展望随着时间的变化情况
  • 在众多一致观点中找出反向投资分析师观点

路孚特实验室创建了一个关于股票表现潜在驱动因素的模型,这正是分析师在使用股票研究报告和文字记录时所需要的。这些潜在驱动因素被称为主题。监督式机器学习模型可识别非结构化文本中的关键主题。 

SentiMine 引擎目前包含影响所有股票的 110 个主题。每个主题都可划分为七个类别之一:会计、业务驱动因素、估值、经济、管理层变更、重大风险和 ESG 问题。 

它还涵盖了包括金融、消费零售、电信和科技在内的 40 个业务领域主题。 

这(SentiMine)简直令人难以置信。你们构建的速度非常快。就在几周前,我们还在用 PowerPoint 进行讨论。这个界面真是太棒了!

SentiMine 的实际应用

SentiMine 原型包括超过 907 条股票走势图/478 只股票,以及 3 年的研究报告和 2017 年至今的文字记录。每天都有新的研究报告和文字记录添加进来。

原型包括: 

  • 根据关键主题对数百份报告和文字记录进行分解后的主题概述,并就每个主题提供分析师或公司展望(情绪)
  • 深入挖掘的能力,可从报告或文字记录中挖掘出包含被调查主题的每一句话;帮助理解分析师的观点
  • 展望的变化突显了分析师或公司对特定主题的展望随时间的变化情况,并将展望与股票市场价格和平均目标价格进行比较
  • 在内容类别之间切换的功能,在此例中为股票研究报告和文字记录
  • 股票概览,就研究报告和文字记录提供个股概要以及同行分析

白皮书

发现非结构化金融数据背后的情绪

为了满足客户以更先进和可扩展的方式使用非结构化内容的需求,路孚特实验室创建了 SentiMine,这是一款新型发现工具,专门用于股票研究报告 (ERR) 和文本记录等高度复杂的金融文件。

协作方式

路孚特实验室采用以客户为中心的协作方式,结合客户反馈、海量数据的能力和卓越的合作伙伴技术,为金融市场的实际问题构建解决方案。

与客户协作:

  • 分享目标,确保 SentiMine 成为有用的客户解决方案
  • 将客户反馈纳入开发流程的每个阶段 
  • 与路孚特客户和利益相关者进行概念验证
  • 与有兴趣使用 SentiMine 的路孚特用户展开持续对话

路孚特合作伙伴和开源技术:

  • Amazon Simple Storage Service (S3)
  • Amazon Athena 查询服务
  • PyTorch 机器学习库
  • TensorFlow 机器学习平台
  • Apache Spark 分析引擎
  • Mlflow 机器学习生命周期 
  • PostgreSQL 关系数据库
  • 用于用户界面的 React JavaScript 库
  • Node JavaScript 运行时环境 
  • Python