那会儿是2020年,奥运会因为疫情延期了,大家伙儿都闲着没事干,我就琢磨着搞个金牌榜预测玩玩。这事儿听着挺玄乎,但我是有自己一套土办法的。
收集原始数据,先跑个大概
我的第一步,就是把最近几次大型比赛的数据全扒拉下来。什么世锦赛,世界杯,洲际比赛的金牌、奖牌数量,我都一个个找。当时找数据费了老鼻子劲了,很多网站的数据都不完整,得一个个手动核对。我主要关注的项目就是那些金牌大户,比如田径、游泳、体操、举重这些。
我弄了个Excel表,把每个国家在这些项目上的历史战绩都填进去。光填表就花了我快一周的时间。填完后,我先做了个简单的加权平均。最近的比赛,权重高一点,时间久远的比赛,权重低一点。这么一跑,心里就有个底了,哪些国家是传统强队,哪些是新冒出来的黑马。
修正数据,考虑运动员状态
光看历史数据肯定不行,因为运动员的状态是会变的。紧我就开始做数据修正。这部分最费脑筋,也最考验对体育新闻的关注度。
- 伤病情况: 我会去查那些顶尖运动员有没有伤病史,特别是临近奥运前的几个月。如果核心选手受伤了,那这个国家的金牌数肯定要往下调。比如当时美国田径队,有几个希望很大的选手状态不太我就给他们的预测值打了折。
- 新星崛起: 像咱们国家的游泳和跳水,总能冒出几个年轻的小将。我会根据他们在最近一两年非顶级赛事的表现,给他们预留一些“惊喜”的空间。这个调整幅度比较主观,但也是经验积累。
- 东道主优势: 2020奥运会是在日本办,虽然延迟了,但东道主肯定有加成。我会给日本队在一些他们相对强势的项目,比如柔道、乒乓球这些,稍稍抬高一点点预测值。
我把这些影响因素都转化成一个百分比系数,再乘到第一步算出来的加权平均数上。这个过程就像是做饭,历史数据是主料,运动员状态就是调味料,要调得恰到好处。
细化到具体项目,做二次校验
预测不是拍脑袋,得细化。我把那些金牌数多的项目,比如游泳和田径,拆分成具体的单项。比如游泳,我会去看100米自由泳、200米蝶泳这些具体的项目,看哪个国家的选手最有统治力。
比如说跳水,咱们中国队是绝对的霸主,我直接就给他们最高预测值。但是田径这种竞争激烈的项目,我就会把预测金牌数分散,不轻易给任何一个国家太高的期望值,避免出现大误差。
我把所有项目的预测金牌数加起来,得到了一个初步的金牌总榜。当时跑出来的结果,头三名基本上就是中美俄(虽然俄罗斯那会儿有点特殊情况,但我还是按他们整体实力算的),后面跟着英国、日本、德国这些传统体育强国。
整个过程就是不停地收集、调整、再验证。虽然的结果可能和实际情况有出入,但这一套流程走下来,心里踏实。比起那些瞎猜的,我这个可是实打实的“土味数据分析”,特别有意思,也算是给那段疫情待在家里的日子找了个乐子。
