在文本可视化[一]——《今生今世》词云生成与小说分析一文中,我使用了
分词和
- jieba
实现了,文本关键词的提取并生成词云,同时也尝试直接提取人名关键词来绘制。这次我们换一种方式——通过分析人物之间的关系,而不是人物在文本集中的频率来绘制一张复杂网络图,如下所示。数据经过可视化后还是非常有趣的。下面就讲讲人物关系网图的实过程。
- wordcloud
在词云中,我们只能通过词的大小来了解该词对于文本集是否起关键作用,无法探究人物之间的关系;在关系网图中,不仅可以了解词的关键程度,还能发现人物之间的联系,更能说明问题。
由此可见,绘制词云时,我们只需要提取两列数据,一列人名,一列为频率。而绘制网络图时,就需要两组数据。网络图,顾名思义,就是一张图。所有的图都是由节点和边构成的。节点数据也就是节点值+权重,边数据就是出度+入度+权重。
对应到本文的例子中来,我们是来绘制《今生今世》中的任务关系网。具体的处理方式如下:
),人物关系输出格式为(
- Id,Label,Weight
)。这也就是之前所说的,用来绘制图的节点和边数据。
- Source,Target,Weigh
根据上文描述的统计方法来进行统计显然是粗略的,有很多问题需要进一步考量。
结果虽然是粗略的,但是通过对文本的理解,绘制的图依然有一定的参考意义。
代码实现分为三步,1. 人物出场次数统计。2. 人物关系统计。3. 格式化输出。
准备两份字典,用于分词。
定义文件路径常量和初始化全局变量
- TEXT_PATH = '../jsjs.txt' # 文本路径
- DICT_PATH = 'person.txt' # 人物字典路径
- SYNONYMOUS_DICT_PATH = 'synonymous_dict.txt' # 同义词路径
- SAVE_NODE_PATH = 'node.csv'
- SAVE_EDGE_PATH = 'edge.csv'
- '''
- person_counter是一个计数器,用来统计人物出现的次数。{'a':1,'b':2}
- person_per_paragraph每段文字中出现的人物[['a','b'],[]]
- relationships保存的是人物间的关系。key为人物A,value为字典,包含人物B和权值。
- '''
- person_counter = defaultdict(int) # 人物出场次数计数器
- person_per_paragraph = []
- relationships = {}
- synonymous_dict = {}
具体实现方式可以看代码注释。
- def count_person(self):
- '''
- 统计人物出场次数,添加每段的人物
- :return:
- '''
- paragraphs = self.get_clean_paragraphs()
- synonymous = self.synonymous_names()
- print('start process node')
- with codecs.open(self._dict_path, 'r', 'utf-8') as f:
- name_list = f.read().split(' 10 nr\r\n') # 获取干净的name_list
- for p in paragraphs:
- jieba.load_userdict(self._dict_path)
- # 分词,为每一段初始化新字典
- poss = jieba.cut(p)
- self._person_per_paragraph.append([])
- for w in poss:
- # 判断是否在姓名字典以及同义词区分
- if w not in name_list:
- continue
- if synonymous.get(w):
- w = synonymous[w]
- # 往每段中添加人物
- self._person_per_paragraph[-1].append(w)
- # 初始化人物关系,计数
- if self._person_counter.get(w) is None:
- self._relationships[w] = {}
- self._person_counter[w] += 1
- return self._person_counter
- def calc_relationship(self):
- '''
- 统计人物关系权值
- :return:
- '''
- print("start to process edge")
- # 遍历每一段落,笛卡尔积形式,统计人物关系
- for p in self._person_per_paragraph:
- for name1 in p:
- for name2 in p:
- if name1 == name2:
- continue
- if self._relationships[name1].get(name2) is None:
- self._relationships[name1][name2] = 1
- else:
- self._relationships[name1][name2] += 1
- return self._relationships
- def save_node_and_edge(self):
- '''
- 根据dephi格式保存为csv
- :return:
- '''
- with codecs.open(SAVE_NODE_PATH, "a+", "utf-8") as f:
- f.write("Id,Label,Weight\r\n")
- for name, times in self._person_counter.items():
- f.write(name + "," + name + "," + str(times) + "\r\n")
- with codecs.open(SAVE_EDGE_PATH, "a+", "utf-8") as f:
- f.write("Source,Target,Weight\r\n")
- for name, edges in self._relationships.items():
- for v, w in edges.items():
- if w > 3:
- f.write(name + "," + v + "," + str(w) + "\r\n")
- print('save file successful!')
输出结果如下图所示。
完整代码参考github
接下来就可以把数据导入到gephi中生成人物关系网图了。
gephi和之前使用的
不同,
- wordcloud
仅仅是一个python的库,直接通过函数调用就可以绘制图片。gephi是一个可视化的应用程序。
- wordcloud
需要在https://gephi.org/ 下载windows版的安装包进行安装。打开后如下图所示。
接下来就可以进行网图的绘制了。
1. 新建工程,导入数据
tab,点击
- 数据资料
,添加节点和边的
- 输入数字表格
数据。
- csv
2.调整相关的样式
点击概览调整相关样式。可以通过度,权重等信息修改相关的样式。
3. 修改字体,显示相应的标签
4. 选择一个自动化布局的方式,预览,再调整相关参数
5. 最终点击左下角导出图片
上面简单描述了下生成网图的过程。gephi具体的使用方式可以去查看官网的教程。
完整代码可参考github:https://github.com/maoqyhz/TextCharactervVisualization
来源: http://www.cnblogs.com/Sinte-Beuve/p/7679392.html