拓端tecdat|R语言可视化：ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据

原文链接：http://tecdat.cn/?p=23490

本文介绍了冲积/桑基图，以及

定义了命名方案和冲积/桑基图的基本组成部分（轴、冲积层、流）。
描述了所识别的冲积/桑基图数据结构。
展示了一些流行的主题。

冲积/桑基图

这里有一个典型的冲积/桑基图。

现在，我们以该图像为参考点，定义典型冲积图的以下元素。

轴是一个维度（变量），数据沿着这个维度在一个固定的水平位置被垂直分组。上面的图使用了三个分类轴。船舱等级、性别和年龄。
每个轴上的组被描述为不透明的块，称为类别。例如，类别轴包含四个等级的舱：一等舱、二等舱、三等舱和船员。
水平样条被称为冲积流，横跨该图。在该图中，每个冲积层对应于每个轴变量的一个固定值，由其在轴上的垂直位置表示，由其填充颜色表示。
相邻轴对之间的冲积段是流动的。
冲积与层相交的节点。节点在上面的图中并不直观，但可以推断为填充的矩形，它将层中的流延伸到图的两端，或者将中心层两边的流连接起来。

正如下一节中的例子所示，这些元素中哪些被纳入冲积图，取决于基础数据的结构和创建者希望图中传达的内容。

冲积/桑基图数据

识别两种格式的 "冲积/桑基图数据"，它们基本上对应于分类重复测量数据的 "宽 "和 "长 "格式。第三种，表格（或数组）形式，流行于存储具有多个分类维度的数据，如泰坦尼克号幸存数据和大学录取情况数据集。

（宽）格式数据

宽格式数据每一行都对应于在每个变量上取一个特定值的观察队列，每个变量都有自己的列。另外一列包含了每一行的数量，如队列中的观察单元数，可用于控制层的高度。基本上，宽格式由每一冲积层的一行组成。这是基础函数as.data.frame()转换频率表的格式，例如3维的大学录取情况数据集。

head(as.data.frame(UCBAdmissions), n = 12)

这种格式：用户声明数量的轴变量，识别并处理。

  

``````
plot(pltdat1,
 aes(y = Freq)) +
strat(width = 1/12) +
geom_label(stat = "stratum")) +
ggtitle("大学录取和拒绝情况，按性别和系别分列")+theme_bw()

这些图的一个重要特征是纵轴的意义。各层之间没有插入空隙，所以图的总高度反映了观测值的累积数量。

  

``````
plot((Titanic),stratumwidth = 1/8, reverse = FALSE ,stat = "stratum", aes(label = after_stat(stratum)), labels = c("幸存", "性别", "船舱等级")) +
title("按等级和性别划分的泰坦尼克号幸存状况")+theme_bw()

这种格式和功能对很多应用都很有用。

axis[0-9]*表示位置。
由stat_stratum()产生的分层变量。
横轴反映识别该轴的隐含分类变量。

此外，像填充这样的格式美学对于每个冲积图来说都是固定的；例如，它们不能根据每个轴的取值而在轴之间变化。这意味着，尽管它们可以重现平行集的分支树结构，但这种格式和功能不能产生具有这里（"冲积图"）和这里（"控制颜色"）特色的颜色方案的冲积图，它们在每个轴上都被 "重置"。

（长）格式

长格式包含了每一节的一行，变成一个键值对，编码轴为键，层为值的列。这种格式需要一个额外的索引列，将对应于一个共同队列的行连接起来，即一个冲积层的结点。

在宽格式（alluvia）和长格式（lodes）之间转换数据的函数包括几个参数。

同样的stat和geom可以使用一套不同的位置美学来接收这种格式的数据。

x，表示该行所对应的轴的 "键 "变量，要沿横轴排列。
层，由x表示的轴变量的 "值"；以及
冲积层，连接单个冲积层的行的索引方案。

难民数据分析

在这些情况下，分层没有包含比冲积层更多的信息，因此通常不会被绘制。作为一个例子，我们可以将难民数据集中的国家按地区分组，以比较不同规模的难民数量。

qplot(data = Refug,x = year, y = refugees,
 alluvium = country,fill = country, 
colour = country)

该格式允许我们指定沿同一冲积层的不同轴线变化的美学，对重复测量数据集很有用。需要为每个冲积物生成一个单独的图形对象。

学术课程分析

下面的图表使用了一组学生在几个学期内的学术课程的（变化）。在所有学期中跟踪每个学生。

ggplot(majos,flow = "alluvium", lode = "frontback",legend.position = "bottom")

分层高度y没有被指定，所以每一行都被赋予单位高度。这个例子展示了处理缺失数据的一种方式。缺失数据的处理（特别是层的顺序）也取决于层变量是字符还是因子/数字的。

最后，我们提供了汇总相邻轴之间流量的选项。我们可以在流感疫苗调查的数据上演示这个选项。

qplot(vaccina,x = survey, stratum = response, alluvium = subject,
           y = freq, stat = "stratum", size = 3)

这张图忽略了轴之间流动的连续性。这种 "无记忆 "图产生了一个不那么杂乱的图，其中最多只有一个流量从一个轴上的每个层到下一个轴上的每个层。

最受欢迎的见解

1.R语言动态图可视化：如何、创建具有精美动画的图

2.R语言生存分析可视化分析

3.Python数据可视化-seaborn Iris鸢尾花数据

4.r语言对布丰投针（蒲丰投针）实验进行模拟和动态

5.R语言生存分析数据分析可视化案例

6.r语言数据可视化分析案例：探索brfss数据数据分析

7.R语言动态可视化：制作历史全球平均温度的累积动态折线图动画gif视频图

8.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

9.python主题LDA建模和t-SNE可视化

拓端tecdat|R语言可视化：ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据

原文链接：http://tecdat.cn/?p=23490

冲积/桑基图

冲积/桑基图数据

（宽）格式数据

（长）格式

难民数据分析

学术课程分析

拓端tecdat

引用和评论

Python与MySQL网站排名数据分析及多层感知机MLP、机器学习优化策略和地理可视化应用

LRU算法，你别跑，我就要吃透你

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用