大数据时代的到来,我们需要更好的分析数据

编者按:与其他运动项目相比,足球统计分析工作起步较晚,且鉴于这项运动的特殊性,没有太多经验可供借鉴。 然而,随着大数据时代的到来,这种趋势越来越明显。 我们不仅需要收集数据,还需要更好地分析数据,为这项运动服务。 我们看到,越来越多的先行者开始涌入足球数据分析领域,并取得了不错的成绩,但同志们还需要继续努力!

棒球分析中有一个学派认为,如果没有这么多统计数据,比赛会变得更好。 他们之所以这么说,是因为他们声称目前统计的数据不一定是真正反映棒球比赛的决定性数据,只是最容易统计的数据。 无论你是否同意这个观点,它都会触动棒球分析的神经,并且仍然是争论的根源。

这并不是说你是否相信这些数据,而是新的数据是否真的可以取代原来的统计结果。 即使是偶尔看棒球消磨时间的人也会变得更加习惯原始的统计数据。 部分原因是这些统计数据在棒球领域已经存在很长时间了。 事实上,人们总是习惯于他们已经熟悉的统计数据。 学习新的数据分析结果时要谨慎。

说到足球,过去的统计数据很少。 事实上,如此流畅的比赛,不借助科技手段是很难统计出传球次数等数据的。 直到近十年,人们才开始系统地记录一些关于游戏的统计数据,因为在这个时代,人们乐于收集和分析数据,同时也能从中获得利润。 像OPTA等专注于数据统计分析的公司开始出现,他们的盈利模式就是把这些数据卖给俱乐部或者媒体(其实ESPN、SKY等媒体的数据统计版块都是由OPTA)。

正如曾经在棒球或其他数据驱动的体育运动中探索更新、更先进的评价指标一样,人们现在渴望在足球领域找到一些新的统计指标,因为揭示的手段必须是数据分析。 产品。 不过,这并不是一朝一夕就能实现的,因为目前统计公司在足球领域所做的数据收集工作只是在一百年前的棒球领域完成的。

现在,足球终于有了很多数据,下一步就是如何更好地利用这些数据。 与棒球等其他一些主流运动不同(这些运动领域的数据统计由来已久,数据分析最近才出现),足球领域目前的独特情况是进行数据统计和分析同时地。

统计数据

让我们回到一开始的问题,如果没有技术统计,棒球会更好吗? 这个问题对于足球统计至关重要。

近年来,出现了一些网站,如 、 、 和 Stats Zone(均由 OPTA 提供的数据支持)。 他们更好地向球迷展示比赛的统计结果。 这些网站主要提供个人和球队的比赛统计数据,听起来有点像棒球技术统计。 他们提供的信息可以让你知道哪位球员在一场比赛甚至一个赛季的统计数据,而且还有热图、传球路线图等图形方法可以更好地呈现这些数据。

不过,他们没有提供有关如何使用这些数据进行游戏分析的更多信息。 某位后卫的场均高拦截率对球队重要吗? 某某射手得分率低,真的意味着他是一个败家射手,以后应该多传球吗? 还是只是因为他运气不好? 传球成功率95%的防守球员是否比传球成功率只有78%的边锋更适合传中?

我们有数据,但我们无法解决这些问题,因为我们不知道哪些数据对于游戏分析真正重要。

这一幕让人回想起棒球数据革命的开始:如果你不知道这些统计数据的用途,为什么还要引用它们呢? 这就是为什么我不明白为什么棒球在过去50多年里一直举步维艰。 直播中总是提到RBI(Run in,棒球术语:RBI)这样无用的数据!

毫无疑问,利用数据对某些球员或球队的优异表现做出未经证实的假设是一种误导的方法。 然而,这并不意味着数据不能被使用。

反对使用这些统计数据就是反对使用这些统计数据来描述比赛信息以及球队和球员的表现。 尽管棒球的传统统计数据无法有效地分析和预测未来的比赛,但它们在描述历史信息方面很有用。 尝试谈论巴尔的摩金莺队过去一周的表现,而不使用任何统计数据或解释它有多棒。

虽然最初的统计数据无法解释球员和球队为何表现好或差以及未来会发生什么; 用这些数据来描述球员和球队的表现还是很直观的。

十年前,可能没有人知道哈维每场比赛传球次数以及他的成功率是多少。 如果没有这些信息,大多数人就无法了解哈维到底有多伟大,或者他的状态何时开始下滑。 同样,当你看洋基巨星德里克·杰特打球时,你只能说:“三年前,他的击球率很高。今年,他的击球率下降了。”

即使是最原始的统计数据也能让我们清楚地了解比赛期间发生的情况。 如果没有这一步的积累,我们就很难解释为什么会出现这些情况,或者接下来会发生什么。 这些原始统计数据是数据分析的基石,在美国体育界无处不在,但在足球界却是一个全新的概念。

数据分析

我们当然希望,在这些简单的描述性统计数据背后,我们能够挖掘出更多关于足球运动本质的信息。 虽然这方面已经开展了大量工作并取得了一些进展,但仍处于起步阶段。

总射门比(TSR)是高级足球统计数据的鼻祖。 它最初是由詹姆斯从冰球引入足球的。 设计这个指标的初衷很简单:强队一般射门次数较多,同时会给对手踢球的机会很少。

该统计数据的强大之处在于它具有良好的自相关性,可以更好地预测结果。 实证分析表明,球队过去的TSR可以预测球队未来的TSR,并且比根据球队过去的进球数和成绩更能预测未来比赛的进球数和成绩。

在赛季初进行排名预测时,TSR是一个很好的领先指标(尽管很多专家会丢弃这个数据,依靠自己的直觉来预测最终的排名。这里开个玩笑,这个指标的预测结果表明:曼联最终排名不可能进入前三,但所谓的实体其实是笔者认为曼联有机会进入前三,我们只能等到了赛季末去挖坟~)当然,实际管理球队时可能并非如此。 有效。

但在冰球运动中,球队阵容可以随时调整,而且出手次数较高,这让我们可以详细分析球队在场上时,哪位球员表现最好。 足球比赛中,只有3次换人,射门次数也少得可怜。 这使得TSR在玩家层面的评价效果非常有限(至少到目前为止还没有好的结果)。

最近,预期进球 (ExG) 作为一项新指标出现。 从预测的角度来看,ExG和TSR的表现结果具有可比性(比较了两个指标并给出了一些理论分析),但是ExG的一个好处是它既可以预测球队的表现,也可以预测个人球员表现。 换句话说,您可以根据球员的进球总数和射门次数来预测球员未来的进球数。

分解投篮数据有点像分解棒球中的击球率 (AVG) 和击球率 (BABIP)。 结果证明,正如球员一般很难保持持续高或低的BABIP一样,球员也很难长期持续产生高于或低于自己ExG的数据。 但必须再次指出,这些工作只是足球数据分析的开始阶段。

协调数据统计和分析

您可能会注意到的一件事是,现在很多分析工作都是关于拍摄的,但这并不完全正确。 例如,Caley提出的ExG模型就考虑了导致射门的传球类型。Ted创建了一个名为“球员雷达”( Radar)的工具,通过添加球员上场时间等指标来提供更全面、更准确的球员统计数据、自己的半场控球率等。

当然,值得注意的是,如何整合这些数据形成团队数据是另一个令人头疼的问题。 但目前来看,数据分析工作并不包括以矩阵的形式整合和分析现有的统计数据。

造成这种情况的原因有很多,部分原因是公共领域的专家目前只投入少量时间来研究这些信息。 而且,即使你想做大量的分析,目前的统计数据可能只有五到十年的历史,不像棒球,有近一百年的大量数据,这让你无法得出更有效的结论。

可能足球界有很多重要的数据我们还没有收集到,同时,有些统计数据可能没有无法描述的分析价值。 关键是我们如何找到真正值得分析的数据。

毕竟我们需要统计数据来辅助分析,而分析的目的就是为了找到足球中各种问题的答案。 但如果说棒球运动中发生的事情教会了我们什么的话,那就是使用统计数据要么可以帮助我们真正发现有价值的信息,要么会让我们误入歧途并得出错误的结论。

足球领域的统计数据太少,任何指标都需要综合。 然而,足球统计数据落后棒球一百年的事实并不意味着足球不会有自己独特的评价指标。 而足球场确实有一个优势,那就是棒球场上,基于统计的各种假设和猜测在受到数据分析的影响之前已经流行了一百年。 在足球领域,统计和数据分析是齐头并进的。 。

转载请注明:数据分析 » 足球大数据分析:统计与分析之间不止一步——数据分析师