我想在 Spark 数据集中将整列的大小写更改为小写
Desired Input
+------+--------------------+
|ItemID| Category name|
+------+--------------------+
| ABC|BRUSH & BROOM HAN...|
| XYZ|WHEEL BRUSH PARTS...|
+------+--------------------+
Desired Output
+------+--------------------+
|ItemID| Category name|
+------+--------------------+
| ABC|brush & broom han...|
| XYZ|wheel brush parts...|
+------+--------------------+
我尝试使用 collectAsList()
和 toString()
,这对于非常大的数据集来说是缓慢而复杂的过程。
我还找到了一种“较低”的方法,但不知道如何让它在 dasaset 中工作。请给我一个简单或有效的方法来完成上述操作。提前致谢
原文由 Shreeharsha 发布,翻译遵循 CC BY-SA 4.0 许可协议
我明白了(使用
Functions#lower
,参见 Javadoc )import org.apache.spark.sql.functions.lower
这用保留整个数据集的新列替换了旧列。