想看黑龙江文艺节目表？最全最详细的节目单在这里！

我一开始折腾这个“黑龙江文艺节目表”的时候，真没想搞这么复杂，就想着自己能方便看看，结果越弄越带劲，干脆就弄了个最全最详细的版本，今天必须得把这个过程给大家伙儿好好唠唠。

最初的痛点：找不着！

特别喜欢看家乡台的一些戏曲和文艺节目，尤其是周末那会儿，但每次想看，都得在网上东翻西找。官网更新慢，或者根本不放完整节目单。有时候运气能找到前一天的，但想知道未来一周的安排？那是痴心妄想。

我下定决心，要自己搞定这件事。

我这人比较轴，一开始就想着最笨的办法。找节目表，不就是看电视、听广播、刷公众号吗？

我把这些信息全部扔进了Excel表格里，手写字段，比如“日期”、“时间”、“频道”、“节目名称”、“主要内容”。刚开始效率低得吓人，经常记错时间，节目名也写不全。

人工记录了一个月，我人快废了。不行，得想点辙。

我以前学过一点点皮毛的Python，虽然不专业，但对付一些简单的静态页面还是可以的。我发现几个省级广电官方网站里，虽然没有统一的节目单接口，但他们在“新闻资讯”或者“每日聚焦”栏目里，会以新闻稿的方式放出当天的重点节目单。

我的思路是：

但这有个大问题：这些文字是散文体，不是结构化数据。比如它会写：“今天晚上八点，我们为您带来久违的《松花江畔》系列评剧……”我的脚本根本不知道“松花江畔”是啥剧名，“评剧”是类型，“八点”是时间。我得写一堆复杂的正则表达式去匹配时间和节目类型，那叫一个痛苦。

光靠爬虫不行，漏的太多了。我最终采取了一个混合模式，这也是最有效的部分。

我把爬虫抓到的所有文字，先一股脑扔进一个预处理区。然后，每天早上我花一个小时，对着这个文字堆进行人工校对和标签化。

我建了一个简单的Access数据库（没错，就是Access，简单好用），定义了固定字段：节目ID、播出日期、播出时段、主标题、副标题（嘉宾或剧目细分）、重播标识。
我盯着爬下来的文本，手动把信息抠出来，填进Access数据库。

这个过程非常细致，比如某档戏曲节目，光是写《戏曲荟萃》没用，还得把今天演出的剧目名写上去，比如《杨八姐游春》、《三哭殿》等等。这样别人查起来才真有用。

数据结构化之后，就好办多了。我用了一个特别简单的开源框架，把Access里的数据导出成CSV，然后再用一个简单的本地网页前端去读取和展示。

用户想查

想看“评剧”？直接筛选“副标题”包含“评剧”的所有记录。

想看“周日晚间”的？筛选“播出日期”和“时段”即可。

这个程序现在每天早上7点自动运行一次爬虫，然后9点前我手动校对数据并更新到展示页面上。虽然累点，但节目单基本能做到提前3-7天的详细预告，而且准确度极高。现在身边的朋友、邻居都管我要这个节目单链接，成就感满满，比以前自己瞎找有效率多了！