昨晚刷手机看到奥运预热新闻,突然就想扒拉扒拉历年奖牌榜。说干就干,立马扔下薯片,打开电脑开整!
第一步:找数据像大海捞针
琢磨了半天去哪儿扒拉数据,国际奥委会官网肯定靠谱?结果进去一瞧,好家伙,页面设计得花里胡哨,找个历年数据入口跟玩密室逃脱似的。手指头在鼠标上都快磨出火星子了,在犄角旮旯里抠出来一个“历年成绩”的选项。点进去一看,年份倒挺全,可表格排版乱得跟麻线团一样。
扭头就去搜靠谱的数据网站。英文好的那几个体育数据库翻了个遍,下载表格时还得注册账号、验证邮箱,折腾了半个钟头,好不容易才搞到一个能用的CSV文件。
第二步:整理数据差点崩溃
刚打开文件我就傻眼了:国家名字写得随心所欲,同一个国家用了仨英文名,这让人怎么算?咬着牙开始手动统一名称,把“People's Republic of China”、“China”、“CHN”统统改成“中国”。更坑爹的是有些奖牌数带着星号注释,鼠标挪上去才显示说明,程序压根不认识。气得我直接复制粘贴到表格里硬啃,熬到凌晨两点,熬得眼皮打架,总算把一百多年的数据都梳理成统一格式了。
- 手动替换了200多次国家名称 (老大哥苏联的名字变来变去烦死人)
- 删掉1200多条带星号注释的干扰行
- 分列整合成标准三列:国家、年份、奖牌类型
第三步:跟可视化软件死磕
想着弄点酷炫的动态图展示国家排名变化。信心满满打开一个数据可视化在线工具,上传刚磨好的表格。结果点生成按钮,软件卡成PPT!好不容易载入完,调色彩参数又给我整懵了,红色代表金还是铜?气泡大小比例对不上号!折腾了俩小时,愣是出不来理想效果。
得,认命了!老老实实打开日常用的表格软件,直接按国家拉总榜。美国霸榜、苏联和俄罗斯强势、中国后来居上这些基本盘一眼就看清了。又手动按大洲分类,发现欧洲国家抢奖牌真是凶残。给前三名表格涂成金、银、铜底色,咔嚓截图搞定。
意外插曲:被自家粉丝纠错
写完分析刚把草稿发到粉丝群显摆,立马有个兄弟跳出来说:“德国1992年是统一后第一次参赛,你表格里拆开了!”惊得我一身汗,赶紧翻出当年新闻核对,结果还真是!默默退回去把联邦德国和民主德国的数据合并了……专业坑还得靠群众补。
瘫在椅子上看着成果:几张粗糙但清晰的表格,一份自认为看得过去的分析,还有两个熬出来的黑眼圈。数据打架的时候真想把电脑扔了,但拼凑出历史脉络那瞬间又觉得值了!下次谁敢说东道主没优势,我反手就能甩出1980年莫斯科奥运会的奖牌榜——看看苏联那离谱的金牌数!作弊不作弊不知道,主场是真香……
