Giraph源码分析（六）——Edge 分析

1.在Vertex类中，顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt，boolean型的halt变量用于记录顶点的状态，false时表示active，true表示inactive状态。片段代码如下。

2.org.apache.giraph.edge.Edge 接口，用于存储顶点的边，每条边包含targetVertexId和edgeValue两个属性。类关系图如下：

Giraph默认使用DefaultEdge类存储边，该类中有两个变量： I targetVertexId和 E value，I为顶点ID的类型，E为边的类型。注意，DefaultEdge类同时继承ReusableEdge<I,E>接口，在ReusableEdge<I,E>类的定义中，有如下说明文字：
A complete edge, the target vertex and the edge value. Can only be one edge with a destination vertex id per edge map. This edge can be reused, that is you can set it's target vertex ID and edge value. Note: this class is useful for certain optimizations, but it's not meant to be exposed to the user. Look at MutableEdge instead.

从上述说明文字可知，edge可以被重用，只需要修改targetVertexId和value的值就行。即每个Vertex若有多条出边，只会创建一个DefaultEdge对象来存储边。
3.org.apache.giraph.edge.OutEdges 用于存储每个顶点的out-edges。从Vertex类的定义可知，顶点的每条边都被存储在OutEdges类型的edge对象中，OutEdges接口的关系图如下：

Giraph默认的使用ByteArrayEdges<I,E>，每个顶点的所有边都被存储在byte[ ]中。当顶点向它的出边发送消息时，需要遍历Vertex类中的edges对象。示例代码如下：

注意：由DefaultEdge的定义可知，遍历getEdges时，返回的Edge对象时同一个对象，只是该对象中值改变了。下面继续查看代码来证明此观点。
查看ByteArrayEdges类的iterator()方法，如下：

返回的是内部类ByteArrayEdgeIterator对象，定义如下：

总结：当顶点的出度很大时，此优化甚好，能很好的节约内存。如UK-2005数据中，顶点的最大出度为 5213。
假设顶点1的出度顶点有<2 , 0.4>，<3 , 7.8> ，<5 , 6.4> 。如下代码：

输出结果为：
[ 2 ]
[ 3 , 3 ]
[ 5 , 5 , 5 ]
并非是希望的 [ 2 , 3 , 5 ]

Giraph源码分析（六）——Edge 分析

数澜科技

引用和评论

最最最全数据仓库建设指南，速速收藏！

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

Giraph源码分析（六）——Edge 分析

数澜科技

引用和评论

最最最全数据仓库建设指南，速速收藏！

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈