了解一家公司的真实销售额有助于确定其价值。例如,投资者通常会雇佣金融分析师,利用各种公开数据、计算工具和他们自己的直觉来预测一家公司即将到来的收益。现在,麻省理工学院的研究人员已经开发出一种自动化模型,在使用非常有限的“嘈杂”数据预测企业销售方面,该模型的表现明显优于人类。
在金融领域,人们对使用不精确但经常产生的消费者数据(称为“替代数据”)越来越感兴趣,以帮助预测公司的收益,用于交易和投资目的。替代数据可以包括信用卡消费、智能手机的位置数据,甚至是显示零售商停车场停着多少辆车的卫星图像。将替代数据与更传统但不常见的真实财务数据(如季度收益、新闻稿和股价)结合起来,可以更清晰地描绘出一家公司每天或每周的财务状况。
但是,到目前为止,使用替代数据获得准确、频繁的估计是非常困难的。在本周发表在ACM Sigmetrics会议论文集上的一篇论文中,研究人员描述了一个预测财务的模型,该模型仅使用匿名的每周信用卡交易和三个月的收入报告。
该模型的任务是预测30多家公司的季度收益,57%的预测优于华尔街专家分析师的综合估计。值得注意的是,分析师可以访问任何可用的私人或公共数据以及其他机器学习模型,而研究人员的模型使用了两种数据类型的非常小的数据集。
“替代数据是这些奇怪的代理信号,可以帮助跟踪公司的潜在财务状况,”第一作者、信息与决策系统实验室(LIDS)的博士后迈克尔·弗莱德(Michael Fleder)说。“我们的问题是,‘你能把这些嘈杂的信号与季度数据结合起来,估算出一家公司高频的真实财务状况吗?’”答案是肯定的。”
这种模式可以为投资者、交易员或希望经常将自己的销售额与竞争对手进行比较的公司带来优势。除了金融之外,该模型还可以帮助社会和政治科学家,例如,研究有关公众行为的汇总匿名数据。弗莱德说:“这对任何想知道人们在做什么的人来说都很有用。”
与Fleder共同撰写论文的是EECS教授Devavrat Shah,他是麻省理工学院统计与数据科学中心主任,信息与决策系统实验室成员,麻省理工学院数据科学基础研究所首席研究员,塔塔基础研究所兼职教授。
解决“小数据”问题
不管是好是坏,很多消费者数据都在出售。例如,零售商可以购买信用卡交易或位置数据,以查看有多少人在竞争对手那里购物。广告商可以使用这些数据来了解他们的广告如何影响销售。但获得这些答案仍然主要依赖于人类。没有任何机器学习模型能够充分处理这些数字。
与直觉相反,问题实际上是缺乏数据。每个财务输入,如季度报告或每周信用卡总额,只有一个数字。两年多的季度报告总共只有8个数据点。比如说,在同一时期,每周的信用卡数据大约只是另外100个“嘈杂”的数据点,这意味着它们包含可能无法解释的信息。
“我们有一个‘小数据’问题,”弗莱德说。“你只能得到人们消费的一小部分,你必须从这一小部分数据中推断出真正发生了什么。”
在他们的工作中,研究人员从一家对冲基金获得了2015年至2018年34家零售商的消费者信用卡交易(通常是每周一次或两周一次)和季度报告。在所有公司中,他们总共收集了306个季度的数据。
计算日销售额在概念上相当简单。该模型假设一家公司的日销售额保持相似,每天只有轻微的减少或增加。从数学上讲,这意味着连续几天的销售额乘以某个恒定值加上一些统计噪声值——这捕获了公司销售额的一些固有随机性。例如,明天的销售额等于今天的销售额乘以0.998或1.01,再加上估计的噪音数量。
如果给定准确的模型参数,每天的常数和噪音水平,一个标准的推理算法可以计算公式,输出一个准确的预测每天的销售。但关键在于计算这些参数。
解开这些数字
这就是季度报告和概率技术派上用场的地方。在一个简单的世界里,一个季度报告可以除以,比如说,90天来计算每天的销售额(这意味着每天的销售额大致是恒定的)。实际上,销售额每天都在变化。此外,包括其他数据来帮助了解一个季度内的销售额变化情况会使事情变得复杂:除了嘈杂之外,购买的信用卡数据总是由总销售额的一些不确定部分组成。所有这些都使得我们很难确切地知道信用卡总额在整体销售估计中的作用。
弗莱德说:“这需要对数字进行一些梳理。”“如果我们观察到一家公司每周有1%的销售额是通过信用卡交易完成的,我们怎么知道这是1%呢?而且,如果信用卡数据有噪声,你怎么知道它有多吵?我们无法获得每日或每周销售总额的真实情况。但季度汇总数据有助于我们推断这些总数。”
为了做到这一点,研究人员使用了标准推理算法的一种变体,称为卡尔曼滤波或信念传播,该算法已用于从航天飞机到智能手机GPS的各种技术中。卡尔曼滤波使用随时间观察到的数据测量,包含不准确的噪声,在指定的时间框架内生成未知变量的概率分布。在研究人员的工作中,这意味着估计一天的可能销售额。
为了训练模型,该技术首先将季度销售额分解为一组可测量的天数,比如90天——允许销售额每天变化。然后,它将观察到的嘈杂的信用卡数据与未知的日销售额进行匹配。通过季度数据和一些推断,它估计出信用卡数据可能代表的总销售额的比例。然后,它计算每天的销售额占观察到的销售额的比例、噪音水平,以及预测准确性的误差估计。
推理算法将所有这些值插入到公式中,以预测每日销售总额。然后,它可以将这些总数相加,得到每周、每月或季度的数据。在所有34家公司的306个季度预测中,该模型超过了共识基准——结合了华尔街分析师的估计——57.2%。
接下来,研究人员正在设计模型来分析信用卡交易和其他替代数据的组合,比如位置信息。“这不是我们能做的全部。这只是一个自然的起点,”弗莱德说。
期刊引用:
引用此页: