早上刷手机看到全运会奖牌榜新闻,突然好奇各个省份的真实实力。赶紧打开电脑开干。
第一步:找原始数据
去体育总局官网翻半天,发现数据都藏得贼深。在个犄角旮旯找到2021陕西全运会的PDF文件下载到手软。这破格式看得眼晕,直接复制粘贴到Excel里。
粘贴完傻了:表格乱得像车祸现场!辽宁队显示成"辽-liao-宁",奖牌数列混着承办单位说明。气得我当场摔鼠标,这破数据根本没法用。
第二步:硬核整理
撸起袖子手动清洗:
- 用替换功能批量清除“注”字开头的废话行
- 新建三列手动填金银铜数量
- 广东浙江那些带空格的省份名逐个核对
- 查到半夜发现台湾省代表团数据居然藏在补充通知里
整完腰酸背痛,但看着清爽的表格成就感爆棚。
第三步:发现玄机
用表格自带的排序功能捣鼓:
- 按金牌榜排:山东59块断崖式第一
- 按总奖牌数排:广东反而反超山东成榜首
- 发现东三省合计金牌还没山东一个省多
- 西藏青海垫底得可怜,加起来才3块铜牌
最骚的操作:把人口数据拽进来算人均奖牌。结果浙江人笑疯,上海北京哭晕——后者人口少但奖牌多,人均直接吊打农业大省。
整活
用表格拉了个动态图,看着山东江苏浙江的柱状图轮流坐庄。突然发现个冷知识:港澳代表团居然在赛艇项目拿了牌!顺手标红加粗记在小本本上。
搞完瘫在椅子上,才惊觉外卖都凉透了。不过看着自己做的省市对比图,比啃鸡腿还香——下回奥运会数据分析有谱了!