如何在 Spark 中使用反转转置

发布于 2018-12-20

主要观点：本文分享在 Apache Spark 中使用复杂数据类型进行数据转置的方法，接着介绍基于给定键列进行反向转置样本数据的代码，该代码可通用，需注意根据反规范化列计数探索数据会使每个执行器的数据量急剧增加，要计算每个分区的当前数据量和预期数据增长，以避免执行器出现 OOM 异常，需重新分区数据。
关键信息：

之前文章分享动态转置，本文是反向转置。
关键代码部分实现了数据的反向转置操作。
展示了代码运行后的输出结果。
重要细节：
示例数据的键列包括id, country, product_line_item, Product_wing, Division, region, territory, item_id, unique_id, Store_name，其他字段需规范化并随键行重复。
代码中设置了hadoop.home.dir属性，创建了SparkSession，读取并处理数据，通过一系列操作实现反向转置。
输出结果展示了转置后的详细数据结构，每个键列对应的值都被展开。
作者在本地 100MB 数据上测试代码性能良好，希望对其他用例有帮助。

阅读 1