今天跟大家聊聊我昨天折腾的“皮切福德”这个事儿,纯属个人瞎搞,大家图一乐呵就行。
事情是这样的,昨天下午,我突然想试试能不能自己搞个小工具,能快速整理一些乒乓球比赛的信息。因为最近老看比赛,像什么莫雷加德,皮切福德,这些名字出现的频率太高了,我就想能不能把他们的数据都整理出来,方便自己回顾。
我啥也没想,直接就开始动手了。我先是打开浏览器,手动搜索“皮切福德”,然后就开始复制粘贴,把搜索结果里关于他的比赛信息一条一条的整理到TXT文档里。
这活儿真不是人干的!
复制粘贴了半个小时,我感觉眼睛都快瞎了,而且效率极低。心想,这不行,得想个办法。
突然,我灵机一动,想起之前学过一点点Python,能不能用Python写个爬虫,自动把网页上的信息抓下来?
说干就干!
我立马打开电脑,开始回忆之前学过的Python知识。还一些基本的语法还记得。然后就开始在网上搜索Python爬虫的教程。
一边学,一边写,真的是太痛苦了!
刚开始,我连怎么发送HTTP请求都忘了,只能一步一步的查资料,看文档。好不容易把网页的HTML代码抓下来了,结果发现全是乱码。
当时我就想放弃了。
但是,一想到手动复制粘贴的痛苦,我就咬咬牙坚持了下来。继续查资料,发现原来是编码的问题。折腾了半天,终于把编码问题解决了,HTML代码可以正常显示了。
就是从HTML代码里提取信息了。这又是一个难点。HTML代码结构复杂,我根本不知道从哪里下手。
然后我就想到了一个办法,用正则表达式!
虽然我对正则表达式也是一知半解,但是总比手动查找要强。于是我又开始学习正则表达式的语法。
这又是一个漫长的过程!
我一遍又一遍的调试正则表达式,尝试从HTML代码里提取出比赛的时间、对手、比分等信息。
经过几个小时的努力,我终于成功了!我的Python脚本可以自动从网页上抓取皮切福德的比赛信息,并且整理成我想要的格式。
当时,我简直兴奋坏了!
虽然这个小工具还很粗糙,功能也很简单,但是它确实能帮我节省大量的时间。以后再想整理比赛信息,只需要运行一下脚本就可以了。
- 第一步:打开浏览器,搜索“皮切福德”。
- 第二步:复制粘贴比赛信息到TXT文档。
- 第三步:发现效率太低,决定用Python写爬虫。
- 第四步:学习Python爬虫,发送HTTP请求,解决乱码问题。
- 第五步:学习正则表达式,从HTML代码里提取信息。
- 第六步:成功!
这回经历告诉我,即使是看起来很难的任务,只要一步一步的去做,坚持下去,就一定能够成功。
最重要的是,要学会利用工具,不要死磕!