头图

社会关系网络可视化领域:Gephi的主要功能介绍,开源数据集的可视化实战

一、软件版本及使用领域简介

1.gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。现在最新版本是0.9.2。

2.社会网络分析(Social Network Analysis, SNA)方法,也称为结构分析法(Structural Analysis),主要用于分析社会网络的关系结构及其属性。社会网络分析的意义在于,它可以对各种关系进行精确的量化分析,从而为某种中层理论的构建和实证命题的检验提供量化的工具,甚至可以建立“宏观和微观”之间的桥梁。

3.Gephi是一个开放式的图形可视化平台,基本也是市场上公认的领先分析软件之一,也是最受欢迎的网络可视化分析软件包之一。使用者不需要具备任何编程知识,就可广泛使用Gephi生产高质量的可视化图表。它还可以处理相对较大的图形,实际大小取决于基础结构参数,但能够毫无问题地运行多达十万个节点。它可以计算一些常见指标,比如度数,中心性等,兼顾可视化和分析的强大工具。

4.在可视化领域也存在其他优秀的软件,如NetMiner(收费),Pajek(大型网络处理),Cystocape(生物学领域),NodeXL(良好的数据收集接口)。

二、功能简介

1.特点

由内置的快速的 OpenGL 引擎提供支持,Gephi 能够利用非常大的网络推送信封,可视化网络多达一百万个元素,所有元素都会实时运行,如布局、过滤器;简单易于安装和使用,以可视化为中心的 UI,类似 Photoshop 的图形处理一样;支持模块化扩展 Gephi 及插件开发,该架构构建在 Netbeans 平台之上,可以通过精心编写的 API 轻松扩展或重用。

2.主要功能模块

(1)图形布局算法
力引导布局,共 6 种:force atlas;force atlas2、fruchterman reingold、openord、yifan hu、yifan hu 比例;辅助性的、带有编辑和调整性质的布局,共 6 种:noverlap、rotate、扩展、收缩、标签调整、随机布局。

(2)测度网络算法
主要围绕以下内容:研究节点的度:度、加权度、PageRank、聚类系数、特征向量中心度、模块化;研究边的连接性:网络直径、连接组件;研究图的整体特性:平均度、平均加权度、图密度、平均路径长度;研究聚类特性:模块化。

(3)图形外观设置
自定义或根据数据设置节点的大小、节点颜色、边的粗细、边的颜色、节点与边的标签的颜色及大小。在以颜色和大小为目标的编辑中,可以通过两种方式实现:设置为统一的颜色和大小;根据数值设定颜色和大小。

(4)过滤:查询、筛选与分类
过滤器 filters 是通过用户设定的规则对网络中的节点或边进行筛选,从而能够更精准的探索与分析网络、过滤界面可以分为三部分:
1)4 个与过滤有关的工具
2)过滤选取分类
3)过滤界面查询工具。

1)四个与过滤有关的工具

四个按钮的功能:清除所有过滤规则;往过滤的节点中写入数据;把过滤出的节点和边移动到一个新的工作空间。
2)过滤选取工具

① 属性:根据图节点或边的属性进行过滤;

② 动态:根据动态图的特性进行过滤
通过约束范围和空值,观察动态图在不同时间段内结构的变化

③ 边:根据边的特性进行过滤;

④ 操作分类:过滤过滤,将多个过滤器以某种逻辑关系结合在一起进行过滤;

⑤ 拓扑:根据图的拓扑结构进行过滤。

5.数据资料界面设置

数据资料界面最主要的是数据表格面板,数据表格面板提供了丰富的功能:
节点和边数据展示配置、增加节点和边、搜索/替换、输入输出电子表格、
删除图、删除边、重复数据监测、添加、删除、合并列

每行数据右键菜单上也提供了非常丰富的功能,如编辑节点、移动、复制、设置节点大小等等,对数据的操作会同步到对可视化图形的操作中。

三、数据可视化及结果分析

1.数据来源

本次可视化项目使用的是Kaggle网站上社会关系网络可视化中的一个DataSet,数据源链接:The Marvel Comic Characters Partnerships | Kaggle

2.研究意义及数据集描述

(1)背景
漫威电影宇宙是一个在全球拥有大量粉丝的美国媒体系列。它是一系列超级英雄电影中的一个共享宇宙中心,由漫威工作室独立制作,基于漫威漫画历史上的人物。漫威电影宇宙在情节、背景、演员和角色上都有许多相似之处,并从漫画书中的原始漫威宇宙中汲取灵感。由于漫威电影宇宙中现存的大部分人物在漫威漫画宇宙中都有优先权,漫威遵循了根据人物在原漫画宇宙中的受欢迎程度、影响力和关系来选择电影宇宙中的人物的模式。
英雄/反派的合作伙伴是漫威成功的核心元素。他们丰富了故事情节,使情节复杂化,使故事对一般观众更有吸引力。此外,反派和英雄之间的合作也让漫威宇宙的故事线变得不可预测,这也让观众更加兴奋。在这个社交网络中,节点代表连接节点对的特征和边,表示不同的协作类型。本文旨在分析反派和英雄之间的人工协作网络,以衡量整个漫威网络的及物性,并确定某些角色是否具有很强的中心性,这将为漫威未来在整体电影世界中添加角色提供见解。

(2)数据集描述
数据集“漫威人物合作2018”提供了一个由两部分组成的JSON文件,一个是“节点”,一个是“链接”类别。根据数据集的原始描述,有350个节点和346条边(或“链接”)。把这个文件分成两个不同的文件,这个操作允许我们将节点和边分开到不同的文件中。最后,将它们转换成CSV文件格式。
node.csv包含组、id和大小列。组值包括0、1、2。0是英雄群,1是恶棍群,2是反英雄群。如果一个角色兼具英雄和反派的特质,那么这个角色就是反英雄。根据studiobinder.com,反英雄是指那些明显缺乏英雄品质的角色。有时,他们的行为在道德上是正确的,通常主要是出于自身利益或违反传统道德准则。id列包括英雄、恶棍和反英雄的名称。大小列跟踪“id”或字符与网络中其他字符的连接数。
edge.csv包含一个源列和一个目标列。该文件列出了nodes.csv文件中指定的id的连接。源是node .csv中的id,而目标是它们所连接的id。来自nodes.csv的大小表示id出现在源列中的次数。

(3)研究结果用途
①哪些英雄/恶棍有最高的联系?
②根据英雄/反派之间的联系,可以为未来的电影和漫画发展提供什么建议?

3.数据操作
(1)数据导入
数据的导入主要分为节点导入和边导入,只有边的数据也可以,但是在后续生成的图形中可能会出现只有节点而无法显示每个节点代表的对象。

(2)数据处理
采用Force Atlas,Hu Yifu Propotionaonal算法对原始数据进行模拟操作,得到如下结果,可以看到初步可视化结果特征为中间为联系较多的网络和周围联系较少的离散节点。在模拟图像的过程中,可以适当使用相应的辅助算法以生成更直观易懂的图像。可以计算图像的相关指标:最长直径为21,平均路径长度为7.827。

(3)数据可视化呈现
①将图中节点按照其度数之和标注颜色,红色为度数最多的节点,可以看到图中的节点大多为蓝色,蓝色的节点度数小于3。

②将节点按照某种属性进行分类:此处按照其所属的阵营进行分类,0表示英雄,1表示恶棍,2表示反英雄,颜色上分别表现为红色、紫色、绿色。

③将每个节点的标签和节点大小按照其度数进行设置,度数越大,节点越大,最终形成如下图像。

④将每个每个节点的标签标识出来最后出现如下可视化图像

4.可视化结果分析
漫威工作室在进行漫威电影宇宙的相关电影、电视剧创作时,会根据当下的热点角色、演员合约、获利角度等进行综合考量,而该数据集描述的是已有的漫画角色网络关系,其中很多是在上世纪4、50年代进行创作的,当时的情节、角色象征决定了其不太可能会出现在以后的漫威电影宇宙创作中,在进行可视化结果的分析时,我会结合其他的数据进行综合分析。

首先对于上述结果进行类别分析:影响力较大(关系较多)的英雄角色中,Captain-America,Iron-Man角色的扮演者已经确定了解除和漫威的合约,故这两个角色不会再出现漫威电影宇宙中。影响力较大(关系较多)的反派角色中,与英雄角色联系最多的是Venom,Spider-Man与Venom、Venom与其周围的反派角色在漫威电影宇宙未来的创作中会较多的涉及到,且就最近上映的《Venom 1》取得的票房成绩和《Venom 2》较高的呼声来看,其仍具有十分稳固的观影人群,利润空间巨大;Chameleon角色在2019年的《Spider-Man: Far From Home》中出现过,是值得再次创作的一个反派角色;Red-Skull在《Avengers: Endgame》中出现过,该角色短期内不再具有二次创作的价值。

在漫威发展历史中出现过将版权出售给其他影视公司的事件,如下图中的反派角色在2019年之前的版权都是在其他影视公司,如福克斯、索尼等,在2019年之后才被回购回漫威影视,虽然基于角色冲突、背景冲突等多种因素,其二次创作的难度较大,但是其创作空间很大,在未来的漫威电影宇宙中出现的概率较大,具有较高的创作价值。

Loki和Thor一直是在漫威电影宇宙中炙手可热的角色,主要原因是其扮演者自身的魅力及角色驾驭能力,如Tom Hiddleston一直担任Loki的扮演者,为这一角色积累了较高的人气,漫威今年新出品连续剧《Loki》,获得了不错的反响,推测Loki在近期的漫威电影宇宙中会频繁出现。

漫威漫画的边缘角色,即度数较小的节点,位于度数区间[1,7]的节点占比34.87%,占据漫画角色的比重比较大,占有较大的二次创作空间,但是由于可选择的范围较大,不能确定哪个角色的出现概率较大,但这部分角色为漫威电影宇宙的创作提供了宝贵的素材库,即使在主线剧情出现较大失利的情况下,也能不断投资创作获得巨大的收益。

Giant Component分析可以得到如下图像,其代表了传统的漫威漫画角色形象,在短期的漫威剧集中仍将是作为主线剧情或是作为主要的转折点引入更宽阔的角色维度。

四、Gephi布局算法的简单说明

1.理论基础

ForceAtlas2是Gephi的默认布局算法,由Gephi团队开发的,作为针对Gephi用户的典型网络(无标度,10到10000个节点)的全面解决方案,ForceAtlas2是一种强制导向的布局,类似于用于网络空间化的其他算法,其并没有在理论上取得了进步,而是在尝试整合不同的技术,比如Barnes Hut模拟、依赖程度的排斥力以及局部和全球的适应温度。它是为Gephi用户体验而设计的(它是一个连续的算法),可以将解释它包含哪些约束。该算法得益于大量的反馈,并通过其设置提供了许多可能性。

如果开发一种算法是“研究”,实现它是“工程”,那么Gephi的一个总体特性就是,它是基于工程而不是研究。所以它看起来和Pajek这样的软件如此不同。这也是为什么ForceAtlas2更注重可用性而不是原创性的原因。

ForceAtlas2算法的基本原理并不复杂。只要它运行,节点就会排斥,而边缘会吸引。这种对简单的追求来自于对透明度的需求。社会科学家不能使用黑盒,因为任何处理都必须从方法论的角度进行评估。该算法的功能改变了力或节点的模拟方式,但保持了这种连续力指导布局的模型:只要布局在运行,力就会持续施加。ForceAtlas2是一种强制定向布局:它模拟一个物理系统以使网络空间化。节点像带电粒子一样互相排斥,而边缘像弹簧一样吸引它们的节点。这些力量创造了一种运动,并汇聚到一个平衡的状态。这一最终配置将有助于解释数据。

2.模型说明

(1)引力模型
ForceAtlas引力模型算法依赖于一种经典的引力,即节点之间的距离线性地依赖于它们之间的距离。

(2)排斥力模型
ForceAtlas2的一个典型用例是社交网络。这类网络的一个共同特征是存在许多“叶子”(只有一个邻居的节点)。这是由于许多真实数据的幂律度分布。围绕在少数高度连接节点周围的“树叶”森林是视觉杂乱的主要来源之一。在排斥中考虑节点的程度(连接边的数量),从而减少这种特定的视觉杂乱。

其理念是将连接不良的节点拉近与连接良好的节点的距离。对此的解决方案是调整斥力,使连接非常紧密的节点和连接不紧密的节点之间的斥力更弱。因此,它们最终会更接近平衡状态。斥力与两个节点的度加一产生成正比。该系数由设置定义。


纺纹
1 声望0 粉丝