今天跟大家唠唠我研究“郑爽张翰电影”这事儿,别想歪了哈,我可不是八卦小报记者,纯粹是好奇心驱使,想看看能不能从数据角度分析点
我寻思着直接搜电影名,结果发现这俩人合作的电影好像不多,更多的是电视剧。那就先从电视剧入手,比如那部挺火的《一起来看流星雨》。
我打开了常用的豆瓣电影,搜了这部剧。然后就开始手动扒数据,包括演员阵容、导演、编剧、上映时间、用户评分、评论数量等等。这活儿挺枯燥的,眼睛都快看瞎了。
扒完《一起来看流星雨》,我又接着扒了《一起又看流星雨》。这两部剧的数据放一起,稍微整理了一下,发现一个挺有意思的现象:第二部的评分明显比第一部低,评论里吐槽的也更多。看来续集这东西,真不是那么好拍的。
电视剧的数据搞完,我又试着搜了搜有没有他们俩合作的电影。结果发现,电影这块儿信息比较少,要么就是一些粉丝剪辑的视频,要么就是一些不靠谱的小道消息。看来想从电影角度分析,有点困难。
既然直接搜电影不行,我就换了个思路。我开始搜“郑爽 张翰”,看看能不能找到一些相关的新闻报道、访谈节目之类的。结果还真找到了一些,不过大部分都是娱乐新闻,水分比较大。我尽量筛选了一些相对靠谱的信息,比如他们俩在一些发布会上的互动,或者是一些媒体对他们的评价。
把这些零零散散的信息收集起来,我又开始琢磨:能不能用这些数据做点可视化分析?比如,把他们俩合作的作品的评分、评论数量做成图表,看看能不能看出什么趋势;或者,把一些关键词提取出来,做成词云,看看大家对他们的印象是什么。
说干就干,我找了个在线的可视化工具,把之前整理的数据导入进去。捣鼓了半天,终于做出了几个简单的图表。虽然看起来不太专业,但至少能看出一些东西:比如,大家对他们早期合作的作品评价还不错,但后来的作品就越来越差了;再比如,提到他们俩,大家最常说的词是“情侣”、“青春”、“偶像”等等。
总结一下这回实践:
- 明确目标:一开始我的目标是“郑爽张翰电影”,但后来发现电影数据太少,就调整为分析他们俩合作的所有作品。
- 数据收集:主要通过豆瓣电影、新闻报道等渠道手动收集数据。
- 数据整理:把收集到的数据进行清洗、整理,方便后续分析。
- 数据分析:利用可视化工具对数据进行简单分析,发现一些有趣的现象。
这回实践虽然没有得出什么惊天动地的但至少让我对数据分析有了一个更直观的认识。以后有机会,我还想尝试更复杂的数据分析方法,看看能不能挖出更多有意思的东西。
这回分析也存在一些局限性:比如,数据来源比较单一,样本量也比较小,可能会影响分析结果的准确性。以后我会注意改进,争取做出更靠谱的分析报告。