几十行代码让你知道朋友圈都是什么样的朋友

合几大常用的 Python 数据分析包, 结合 itchat 的能力实现朋友圈的分析.

从哪里做起

微信现在越来越融入到了我们每个人的生活, 从简单的聊天工具到衣食住行的服务, 再到传播着丰富多彩信息的自媒体和涵盖万物的小程序, 微信俨然就是一个小的生态系统. 而人, 是整个微信生态的核心, 每个人朋友圈就是自我小生态的核心. itchat 为我们提供了获取朋友信息的接口:

friends=itchat.get_friends(update=True)[0:]

通过 debug 可以看到每个 friend 的信息:

可以看到每个好友的信息还是很丰富的, 从昵称, 性别, 到地域等, 好友列表按照通讯录排列, 第一个是用户自己, 接着是星标置顶的好友, 比如瑾瑾在我的列表里排第一位. 我们今天所有的工作都将从好友的信息做起.

统计好友性别分布

性别分布是最容易统计的数据, 通过查看我自己和几个好友的数据, 得出 sex 和性别的对应关系为:

sex = 0: 未知 sex = 1: 男生 sex = 2: 女生

pyecharts 是一个用于生成 Echarts 图表的类库, 而 Echarts 是百度开源的一个数据可视化 JS 库. 主要用于数据可视化. 利用 pyecharts 画出好友性别分布:

from pyecharts import Pie
boy=girl=nothing=0
for i in friends[1:]:
sex =i[Sex]
if sex==1:
boy+=1
elif sex==2:
girl+=1
else:
nothing+=1
total=len(friends[1:])

attr=[迷妹, 迷弟 , 低调的匿名粉丝]

v1 = [boy,girl, nothing]
pie = Pie(粉丝性别分布, title_pos='center')
pie.add(, attr, v1, radius=[40, 75], label_text_color=None,is_label_show=True,is_legend_show=False)
pie.show_config()pie.render(./sex_data.html)

运行结果如下:

没想到我的微信上的迷妹竟然比迷弟都多了这么多, 实在是吃鲸, 还希望瑾瑾不要打我.

好友地域分布

分析完好友的性别我们再来分析好友的地域分布, 看看自己的好友是不是遍布天南地北:

from pyecharts import Map
import pandas as pd
def get_var(var):
variable=[]
for i in friends:
value=i[var]
variable.append(value)
return
variableNickName=get_var(NickName)
Sex=get_var(Sex)
Province=get_var('Province')
Signature=get_var('Signature')
city=get_var('City')
data{
	'NickName':NickName,'Sex':Sex,'Province':Province,'Signature':Signature,'city':city
}
frame=pd.DataFrame(data)
result1=frame.groupby(['Province'],as_index=False).size()a1=list(result1)
a2=result1.indexmap=Map(我的好友占了大半个中国啊!, 来自微信的朋友圈, title_pos=center,width=1200, height=600)map.add(, a2, a1, maptype='china', is_visualmap=True, visual_text_color='#000',visual_range=[1, 8], is_label_show=True, symbol=diamon, label_pos=inside )
map.show_config()
map.render(./area_data.HTML)

最后的结果如下:

非常地准, 作为一个飘过北, 上, 杭的 "浪里白条", 除了老家河南, 我的好友基本集中在上海, 北京和杭州, 什么时候也可以到广深溜一波.

好友个性签名词云分析

微信签名是了解一个人性格和态度的重要参考, 想看看我的朋友圈里的大神们都是走的文艺风, 还是小清新, 还是大学霸... ... 话不多说, 一试便知: jieba(结巴) 是一个强大的分词库, 完美支持中文分词; wordcloud 是一个基于 Python 的词云生成类库, 很好用; matplotlib.pyplot 是一些命令行风格函数的集合, 使 matplotlib 以类似于 MATLAB 的方式工作. 每个 pyplot 函数对一幅图片 (figure) 做一些改动: 比如创建新图片, 在图片创建一个新的作图区域 (plotting area), 在一个作图区域内画直线, 给图添加标签 (label) 等:

import reimport jieba
import wordcloud as wc
import numpy as np
import PIL.Image as Imageimport matplotlib.pyplot as pltsig
list=[]
for i in friends:
signature=i['Signature'].strip().replace(span,).replace(class,).replace(emoji,)
rep=re.compile(1f\d+\w*|[/=])
signature=rep.sub(,signature)
siglist.append(signature)
text=.join(siglist)
wordlist=jieba.cut(text,cut_all=True)
word_space_split= .join(wordlist)
coloring= np.array(Image.open(./1.jpg)) # 一张猴子图片, 试了很多照片, 还是这个好
my_wordcloud= wc.WordCloud(background_color=white, # 背景颜色 mask=coloring, max_words=200, # 最大词数 max_font_size=60, # 字体最大值 random_state=42, scale=4, # 按照比例进行放大画布, 如设置为 1.5, 则长和宽都是原来画布的 1.5 倍. font_path=./HYQiHei-25J.ttf,# 字体, 注意选择合适的字体, 否则可能会显示乱码.
width=400, height=200 # 像素).generate(word_space_split)
image_colors= wc.ImageColorGenerator(coloring)# plt.imshow(my_wordcloud.recolor(color_func=image_colors))
plt.imshow(my_wordcloud)plt.axis(off) # 不显示坐标轴 plt.show()my_wordcloud.to_file('./test.jpg')

最后的结果如下:

对于词云的分布也是有很多可以挖掘的信息, 看起来我的朋友们比较偏向于文艺风. 爱自己, 爱生活, 有梦想, 拥抱世界. 我还在右下角的角落里看到了低调的我交.

后记

微信是一个神奇的存在, 它是一个国民级别的全民 App, 所以, 微信的产品设计一直都是一个有趣的现象, 从最初底部 Tab 的数目, 每个 Tab 的名称,"发现页面的定制, 小程序入口, 朋友圈入口到朋友圈评论等等一系列的设计细节, 都是值得我们透过人性和心理去研究的. 即使是被人们封神的张小龙", 在面对结构最为复杂的中国用户群体的时候, 他的潇洒中依旧不免充满无奈, 从对朋友圈的置之不理就可以看出, 这是一个怎么做都不会让人满意的功能, 任何一个生态在面对巨大的用户群体的时候, 功能的增减就会变成一个难题.

来源: http://developer.51cto.com/art/201810/585052.htm

与本文相关文章

暂无,快来抢沙发吧！