用于分布式模式下聚类算法的 Apache Spark 框架 - SegmentFault 思否

用于分布式模式下聚类算法的 Apache Spark 框架

发布于 7 月 29 日

主要观点：Apache Spark 是分布式计算引擎，有多种用于构建数据管道的库。SparkML 可利用节点等的计算能力进行模型训练，但不支持所有机器学习算法，如 DBSCAN 等无监督学习算法，从业者常需在 Spark 框架外使用单节点库训练，效率低。
关键信息：

Spark 有编程 API、SQL API 等库，可进行机器学习各阶段任务。
SparkML 优势及不足，不支持部分算法需外训。
可利用 Spark 并行处理能力训练未被原生支持的算法。
重要细节：
解决方案：通过自定义分区器、mapPartitions 转换、在分区中嵌入聚类逻辑、收集和聚合结果来实现。
自定义分区器：根据特定键（如变压器 ID）将数据集逻辑分区，确保相关数据在同一分区，利于后续操作。
mapPartitions：在每个分区上应用自定义函数，如对每个分区的数据用 Scikit-learn 的 DBSCAN 聚类，可并行处理多个分区数据。
示例用例：以电表 - 变压器电压聚类为例，通过自定义分区器和 mapPartitions 实现并行处理，识别可能连接到同一变压器的电表集群，找出异常电表。
代码示例：展示了自定义分区器和 mapPartitions 应用于具体数据的过程，包括数据准备、分区、聚类及结果处理等。

Apache Spark Framework for Clustering Algorithms in Distributed Mode

https://dzone.com/articles/apache-spark-clustering-algorithms-distributed-mode

阅读 46

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。