2010年世界杯,章鱼保罗一夜成名。它几乎 100% 的预测准确率令人惊叹。
我们怎么能输给章鱼呢?!
为了恢复人的尊严,城南将目光投向了2018年俄罗斯世界杯。
2018年世界杯,但经过一番分析,城南已经基本锁定了最终冠军!
废话不多说,让我们得出结论:
预测 2018 年世界杯的最终获胜者,有四个步骤:
1、使用爬虫获取数据;
2、计算每支球队的攻防实力;
3.建立泊松模型;
4、多次模拟日程,统计结果;
下面城南就为大家一一拆解。
(一)
使用爬虫获取数据
首先给大家介绍一个神奇的网站:scouting.com。
Scouting.com 将对全球各种大大小小的足球比赛进行统计。数据相当详细。除了每场比赛的得分,还包括犯规次数、红黄牌次数、控球次数等详细数据。
通过球探网络,您可以轻松获取参加2018年世界杯的32支球队以及过去十年参加过的各项赛事的数据。
对我们来说,最终目标是预测 2018 年世界杯的获胜球队,所以太老的数据显然没有多大意义。所以城南选择了2008年及以后的数据作为预测的基础。
(二)
计算每支球队的攻防实力
拿到数据后,我们需要用数据来计算每支球队的攻防实力。
下面给大家介绍一个算法。
对于A队,我们可以根据得到的数据计算A队每场比赛的平均进球数,假设为2。
然后,我们需要以获取的数据为基准,计算所有 32 支参赛球队的平均每场比赛进球数。假设所有球队平均每场比赛有 1 个进球。
现在,根据这两个数据,我们可以计算出A队的进攻实力,即:A队平均每场进球数/所有32支球队每场比赛平均进球数。
在我们的示例中,A 队的进攻强度为 2/1=2。
同理,我们可以根据得到的数据计算A队每场比赛的平均失球数(假设1),然后计算所有32支参赛球队的平均每场失球数(假设2)。)。
那么A队的防守强度等于A队每场失球数/所有32支球队平均每场失球数(本例中为1/2 = 0.5)。
城南按照这个算法计算,做了下面两张图:
进攻实力方面,德国领先,西班牙、巴西、英格兰、葡萄牙紧随其后;防守实力方面,西班牙排名第一,法国、伊朗、巴西和英格兰分列第二至第五。
等等,这里似乎混杂了一些奇怪的东西,伊朗的防守居然排在第三位?!
这个问题留待以后分析。
另外需要提醒的是,这里的进攻实力和防守实力并不是进球数和失球数,防守实力最低,说明这支球队的防守更强。
(三)
建立泊松模型
泊松分布是一个数学概念,描述了某事件在一定时间内发生的概率。
例如,假设您在公交车站等车。虽然站牌上写着巴士平均每5分钟一班,但如果你在巴士站等5分钟,你可能会等1辆巴士或3辆巴士。当然,如果运气不好,公交车不来的情况并不少见。
因此,当你在等车时,你在 5 分钟内等车的数量符合泊松分布模型。
同理,我们可以用上面得到的数据来计算一个球队在一场比赛中可能进的球数,也就是预期进球数,但是在一场比赛中,这支球队能进多少球是符合泊松分布的事件。
对于泊松分布,最重要的数值是期望值,也就是我们需要计算球队在一场比赛中进球的期望值。
那么,A队和B队比赛时,如何计算两队进球的期望值呢?
Seongnam 使用了另一种算法。
A队和B队比赛时,A队进球的期望值为A队进攻实力*B队防守实力*32支球队平均每场比赛的进球数。同理,B的进球期望值是B的进攻实力*A的防守实力*所有32支球队每场比赛的平均进球数。
如果我们假设A队进球的期望值为1.5,B队进球的期望值为1.7,并不代表最终比分是1.5:1.7。那么,如何获得最终分数呢?
我们可以使用泊松分布来解决它。如果给定泊松分布中的期望值,则可以计算事件数量的概率。
例如世界杯冠军次数排名表,如果 A 队进球的期望值为 1.5,B 队进球的期望值为 1.7,那么根据泊松分布,A 队和 B 队进球的概率分布为下表:
由于一支球队在世界杯比赛中进球超过 4 个并不少见,因此我们假设总进球数不应超过 4 个。
有了这样一个概率分布表,当A队和B队进行一场比赛时,我们可以计算出任意得分的概率。
例如,A队和B队0-0的概率是0.041(0.2231*0.1872),4-2的概率是0.017(0.0657*0.1827)。
(四)
多次模拟时间表并统计结果
建立泊松模型后,对于任意两支球队,我们可以预测他们的得分。那么接下来要做的就是根据2018年世界杯的小组赛成绩和赛程模拟每场比赛,产生一个冠军。
在城南共进行了 100,000 次模拟,结果如下:
差点拿下欧洲杯的法国,真的是风头正劲。在城南进行的10万次模拟中,法国队夺冠次数超过10000次。完成新旧交替的西班牙紧随其后。毕竟,它曾经创造了一个统治世界的王朝。冠军的心不可小觑。
等一下,如果说英格兰和五星级巴西总是排在第三和第四位可以接受,那么落后的伊朗、尼日利亚等呢?
城南并没有贬低这些球队的意思,但恐怕连他们的铁杆球迷都没有想到这些球队会赢得世界杯。
如果你还记得,当我们早些时候计算每支球队的进攻实力和防守实力时,伊朗的防守实力排名第三。当时,城南说这个问题我们以后再讨论。
现在,是时候谈谈这些问题了。
(五)
数据清洗和调优
完成以上四个步骤后,我们可以得出一个结论,但显然这个结论不是很令人满意,所以我们需要回到开头,对获取的数据进行进一步的处理。
首先,我们得到的数据是过去十年每支球队在所有比赛中的进球数和失球数。当我们计算每支球队的进球数和失球数时,这些比赛被认为同样重要。也就是说,以法国为例,假设法国在上届欧洲杯决赛中打进1球,在与中国的友谊赛中打进4球,那么我们可以说法国队的平均进球数是2.5球每场比赛?同样,假设伊朗在上届世界杯小组赛中丢了 4 球,而在另一场对阵叙利亚的友谊赛中没有丢球,我们可以说伊朗每场比赛丢 2 球吗?
因此,我们需要根据比赛的重要性,对球队的进球和失球给予不同的权重。
城南将“世界杯”、“欧洲杯”、“美洲杯”、“亚洲杯”、“非洲杯”、“世界杯预选赛”等比赛的权重设置为1,并设置其他杯赛的权重(如如“东亚杯”)为1。2018年世界杯的权重设置为0.8,友谊赛的权重设置为0.6。然后,重新计算各队攻防实力,再次模拟2018年世界杯。结果如下图所示。
西班牙现在位居法国榜首,其次是五星级巴西,其次是无与伦比的德国坦克。前三名似乎很有说服力。
但是日本为什么会膨胀到第四位呢?为什么伊朗还在里面?克罗地亚的第八名似乎还算靠谱?
这表明我们的数据还有进一步优化的空间。
如果翻看世界杯的历史,你会发现,所有的世界杯冠军都是来自欧洲和南美的球队,可见欧洲和南美的足球水平是比较先进的。
在我们的数据中,各大洲的球队参加的比赛并不多。比如日本,大部分比赛都是针对亚洲球队,而法国大部分比赛都是针对欧洲球队。但是在计算每支球队的进攻强度和防守强度时,我们还是没有区分,这显然是有问题的。
比如在一场世界杯比赛中,法国对阵巴西,法国打进3球,而在另一场亚洲杯比赛中,日本对阵中国,日本也打进3球世界杯冠军次数排名表,那么可以说是日本人的进攻实力球队和法国队相似吗?
为了解决这个问题,城南将32支球队分成两个锅,欧洲和南美的球队是第一锅,权重是1,其他洲的球队是第二锅,权重是0.8。
随后,城南重新计算了各队的攻防实力,再次模拟了2018年世界杯。结果如下图所示。
这张图也是城南之初放出的图。
西班牙继续位居榜首。毕竟这几年,尤其是2008年到2012年这四年,西班牙的战绩实在是太耀眼了,2018年世界杯夺冠的概率超过了15%。
五星级巴西队作为世界杯夺冠次数最多的球队,仅次于西班牙队。第三位是德国,卫冕世界杯冠军,现在是世界第一。
这份名单中最令人惊讶的可能是克罗地亚和瑞士,但每届世界杯都有冷门。这两支球队未必能夺冠,但极有可能成为2018年世界杯的最大黑马。
(六)
最后,城南还发现了一些有趣的数据。
虽然以上说明西班牙夺冠的概率较高,但世界杯分为小组赛和淘汰赛两个阶段。很多强队因为小组赛表现不佳而遭遇滑铁卢。比如西班牙本身就直接被小组淘汰出局。的尴尬。
因此,城南也分析了每支球队在小组赛成功后夺冠的概率,发现了一些不同的东西。
如果西班牙成功小组出线,那么其夺冠概率将飙升至24.2%,是所有球队中唯一夺冠概率超过20%的球队。
德国完成了对巴西的反超,排名第二。这意味着,如果他们在小组赛中成功突围,那么德国夺冠的概率将超过巴西。
此外,葡萄牙和阿根廷夺冠的机会也迅速增加,这或许意味着这两支球队想要顺利晋级小组赛并不容易,但一旦成功,他们也将成为夺冠热门。锦标赛。
有点遗憾的可能是法国队的人数。
虽然在上届欧洲杯上,法国击败德国险些成为欧洲杯冠军,但他们赢得本届世界杯的前景似乎很艰难。不过,这可能是因为这十年法国队的表现不佳,但这并不意味着充满青春风暴的法国队就真的逊色了。
最后,城南也顺便统计了一下。在10万次模拟的结果中,各组各队出线的概率也令人惊讶。
葡萄牙、阿根廷和比利时分别拥有C罗、梅西和阿扎尔。这三支球队无论是绝对实力还是明星魅力都备受关注。但从数据预测来看,他们可能无法从小组赛中脱颖而出,从而形成2018年世界杯的最大冷门。
此外,在德国小组赛中,韩国队可能会超越墨西哥和瑞典队突围,这也可能是一个小冷门。
最后,虽然城南用数据做了预测,但还是想听听大家的声音。你认为谁会赢得 2018 年世界杯?
最后程南想说的是,影响一场足球比赛最终结果的因素太多了,比如天气、球员状态、比赛时间,甚至是裁判,所以上面的预测只是一个角度,仅供娱乐,请勿当真哦。
PS:
大老板说,见证奇迹的时刻到了!(他默念,我翻译……)
最后,像我这样的足球新手:伪球迷知识(zi shi)。. .