- +1
深度|你听到的足球大数据,是这样来的
一场足球比赛,产生的数据,从人工统计的百余条,到30年前计算机介入的千余条,再到移动互联网时代引发的数据大爆炸,至今已经超过十万条。
据极其详尽,能从无数个侧面去还原甚至重构一场比赛,或许这正是数据时代的特点。
“足球极客”的理想世界
各种专业性的数据公司提供的服务,主要是针对两类群体:职业俱乐部和专业媒体。
对于前者,提供的数据量非常丰富,因为越来越多的职业教练、运动员和管理者,都更愿意用数据说话,以数据为基础分析竞赛、寻找答案。
后者更是传播信息、呈现比赛以及提供娱乐的需要。
每一场英超联赛、欧冠联赛、德甲联赛、以及西甲意甲和法甲联赛幕后,都会有一些像小蜜蜂般辛勤作业的数据统计师。
《卫报》转载的一篇特写里,专门追踪了一位名为大卫·雷伊的足球比赛数据统计师,看他是如何为马丁·泰勒、约翰·莫特森、彼得·德鲁里这样的评论大腕们提供数据支持的。
大卫描述自己的工作,属于“足球极客”最理想的世界。他职业生涯从西班牙开始,当初大学本科专业就是体育新闻。他曾经为皇马电视台、BT体育制作公司服务过,现在是自由撰稿人。
他的工作主体,就是为BT体育这样的体育赛事传播机构,提供数据服务。
“每场比赛我们做出来的数据包,不仅仅是分发给现场评论员的”,大卫说,“演播室的主持人、评论嘉宾以及比赛制作人,都需要丰富的数据。”
对解说员、评论员而言,这个数据包是一场比赛转播是否到位的关键。反倒是足球专业人士,那些赛前、中场和赛后点评的嘉宾,虽然也重视这样的数据提供,但更是自取所需的态度。
埃弗顿门将皮克福德的水瓶上印着西汉姆联球员主罚点球的习惯。
word文档40页起
一场足球比赛、尤其高水平欧洲联赛的数据包有多大,几乎难以用字数衡量——因为每场比赛包含的前因后果、前情后续,实在太多,并且比赛的每一个参与者、每一个侧面、每一个细节,都会牵涉到无穷无尽的信息。
单就两支参赛队的现时状态、过往交手纪录、球队当中的每一名球员、两队教练的过往成绩和职业特性等,就已经蔚然大观。
像BT这样的英超持权转播商,一场英超比赛赛前提供给评论员的数据包,至少是25000字——拿到过这种数据包的评论员都可以证明。
英超官方信号制作、提供的数据包,哪怕是联赛排名吊尾球队,word文档基本都是40页起。
这样海量的数据,已经是大卫们精挑细选的结果,而这样一个数据包,最终在比赛直播中,透过评论员声音传播出来的,不过是数据包信息总量的1%上下——绝大部分数据,都属于“有备无患”的储备。
随机应变的“数据包”
至于职业俱乐部的数据挖掘和数据提炼,就是另一个维度的话题了。
欧洲五大联赛俱乐部,数据分析师是标配。这些数据分析师,未来职业前途更是助理教练、俱乐部管理者。而为媒体服务的数据分析师,更是拿数据来讲故事的人,他们此时不知名,未来职业前景更可能是制作人制片人以及其他媒体管理岗位。
为了寻找一条有传播价值的数据,这些分析师在赛时期间的工作,会经常出现“莫测癫狂”场景:欧冠转播,评论员想知道切尔西后卫克里斯滕森上一个进球发生在何时——切尔西球迷知道这是丹麦中卫加盟以来137场的首球,但谁能记得他上一个进球是效力门兴格拉德巴赫时,在欧联杯对沙尔克04的进球?
然而大卫·雷伊做到了及时解惑。这些看似极其细微,甚至是边角余料的数据,都在他指尖,在他的电脑数据储存中,而且他有自己独特的方式,通过极快的关键词搜索,找到他要的数据答案。
每场比赛,在真正的高水准转播过程中,评论员、制片人、导播、主持人和数据分析师之间,都有着大量的交流互动,大家共同目的都是为了更好地呈现比赛,提供更好的媒体产品,从而获得商业收益。
哪怕是一条克里斯滕森上一个进球这样平素可能毫无价值的数据,也可能成为比赛传播过程中,给观众留下积极印象的加分内容。
所以评论员德鲁里会说:“准备一场比赛,你可以投入极大的时间和精力,但每场比赛都会有超乎你意料的情况发生。”
“理想状况下,每个评论员、每个说球的人,当然希望自己就能完成所有准备工作,但实际上我们对于这种‘数据包’的依赖越来越强。”
“传统的解说员,都会用一张A4纸,用极简方式涵盖自己准备好的信息点,现在只靠这一张纸,根本不可能应对临场的各种变数。”
你能找到120年前的数据
体育赛事的第三方数据采集,已经有了超过30年历史,真正为专业媒体提供相应数据服务的,例如Opta这样的机构,则是从2006-2007赛季才有具备一定广度的数据延展服务。
像泰勒、德鲁里这样主说英超的评论员,会非常重视英国足球档案库这样的数据库——能像英格兰这样重视自己足球文化传承,并且将百余年来职业联赛的所有资讯,汇集成公共档案的,也确实全球罕见。
这个档案库对职业联赛早期赛季的记录,现在看来当然非常粗疏,但即便是1888-1889赛季,每场比赛的双方阵容等基本资讯,绝不缺乏——这个档案库至今已经累积了234182场比赛、46151名球员的相关信息。
而这样的档案库,必然是数据分析师构建自己工作素材的基石。
用最快的速度查找
比赛开场哨响,往往也是这部分数据工作最紧张、最容易犯错,同时也最容易出彩的时刻,因为所有人都得面对不可测——体育竞赛就是这个世界上最不可测的真人秀,除非我们看到的是一场假球……
每场比赛,也都会有对数据统计师的挑战,例如新近加盟莱斯特城的前锋帕特森·达卡,客场对莫斯科斯巴达打进第二球后,数据分析师就得用最快速度查找,看欧联杯里,打进最快帽子戏法的球员是谁、上一个欧联杯帽子戏法球员是谁、上一个欧联杯客场帽子戏法球员是谁……
大卫和他的搭档,以闪电速度发现了结果:上一位在莫斯科斯巴达上演帽子戏法的客队球员,是2008年7月代表莫斯科中央陆军的巴西人勒夫,他们以最快速度将数据传递给评论员。
而让分析师们兴奋的是,达卡不仅完成了帽子戏法,还上演了大四喜——这位新援在代表莱斯特城的第三场欧联比赛,就成为了莱斯特城欧战的最佳射手……
故事还在延展——会有人想知道,还有谁能在客场上演大四喜?
大卫·雷伊说,他根本没查数据库,以最快速度告诉评论员:“2009年,阿尔沙文在安菲尔德那场利物浦和阿森纳4比4打平的比赛里,一人包揽阿森纳4球。”
雷伊说,他本就是个利物浦球迷……
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司