不知道大家最近有没有去看电影, 最近身边的朋友都在向我安利一部叫做《哪吒之魔童降世》的动漫电影. 大家无一例外, 都说非常的好看.
看一下最近的微信搜索指数, 比火热的电视剧 "亲爱的热爱的" 搜索指数要高出近 6 倍, 比迪斯尼的 "狮子王" 要高出 22 倍, 确实非常火.
小编抱着好奇的心态, 去猫眼上看了一下, 结果显示在接近 84 万人评分的情况下, 评分竟然高达 9.7 分. 看了这确实是一部好剧, 也值得我去爬取一下大家的评论, 并进行一波分析, 从中发现一些值得关注的东西.
1. 数据的获取
首先是关于数据的爬取, 数据的爬取相对简单, 大家只需要打开猫眼网里面这部片子的网址, 便可以看到下面的影评. 在开发者模式中, 切换到移动端, 便可以看到影评, 如果大家仔细观察, 可以发现, 影评是动态加载的, 如下图所示:
动态加载的话, 大家只需要在 network 下的 XHR 内, 仔细观察, 便可以发现网页动态加载的 JSON 数据, 也就是我们要爬取的数据. 如下图所示.
(动态图)
接下来就是利用简单的爬虫进行爬取了, 部分代码如下图所示.
爬取的过程其实很简单, 通过手机端的链接进去, 然后循环爬取, 用 bs 进行解析即可, 然后把保存为 JSON 文件.
2. 数据的分析
爬取完数据之后, 接下来便是数据的分析, 上述的数据中, 大概有 5000 多条.(先爬 5000 条, 高并发几十万条需要用分布式爬虫才可以)
小编爬到了评论者的性别 (0 为未知, 1 代表男, 2 代表女), 等级, 所在城市, 评分以及评语.
3. 影评分析
用 Python 做可视化分析的工具很多, 目前比较轻量级好用的库是 pyecharts, 在公众号里面多次讲解过它的用法, 这里就不详细重复了! 我们看快速看一下近 5000 条影评的数据可视化结果:
1) 总体评分
《哪吒》在猫眼中的总体评分为 9.7 分, 这个分数无疑是非常高的. 超过了国产动画 比如 "白蛇传". 从评分分布来看, 大多数评分都给了满分, 占总数的 86.5%, 其次是 4.5 分, 占总数的 7.7%, 给到 3 分及以下的人非常少, 还不足总人数的 5%, 要知道众口难调, 这个差评比例在电影中可以算非常低的了.
2) 性别差异
通常来说这种国产动画的 "大片" 比较符合大众口味, 从评论者性别分布数据来看, 虽然有接近一半的人不愿透露性别, 但从已知数据判断, 观影男女比例约为 1:1 多一点, 女性观众的比例稍微高一点.
3). 城市分布
接下来小编分析了评论者所在的城市分布. 首先是直方图的来粗略的展示前十大热门的影迷城市, 如下图所示:
直方图的展示不是很直观也不全面, 因此, 小编采用地图的形式, 为大家更加直观的进行展示, 由于观影者的城市地理位置可能没有出现在程序的设置中, 因此, 小编只选取了观影城市最多的前八十个城市作为动态展示, 如下图所示:
(动态图)
4). 评论内容
首先整合评论内容, 然后利用 wordcloud 库绘制词云图, 从词云分析情况来看, 满屏的 "好看","不错","特效" 等赞美的词语, 与以往的电影不同的是,"剧情","故事" 等字眼也特别醒目.
其实这部大片, 算是国产动画电影里面的大制作, 电影制作花了 5 年的时间, 剧本改了 60 几个版本, 制作的团队高达千人. 电影里面有 1800 多个镜头, 有 1300 多个是特效, 这样的用心之作难怪上映之后, 口碑爆棚啊!
而且导演还有很多致敬 星爷的地方, 比如太乙真人那段, 很像功夫片段里面的桥段, 最搞笑的还有一本《神仙的自我修养》, 好了不剧透了, 大家赶紧去电影院看一下吧.
来源: http://developer.51cto.com/art/201908/600849.htm