我是 PySpark 的新手。
我有一个 Spark DataFrame
df
有一列“device_type”。
我想将“平板电脑”或“电话”中的每个值替换为“电话”,并将“PC”替换为“桌面”。
在 Python 中,我可以执行以下操作,
deviceDict = {'Tablet':'Mobile','Phone':'Mobile','PC':'Desktop'}
df['device_type'] = df['device_type'].replace(deviceDict,inplace=False)
如何使用 PySpark 实现此目的?谢谢!
原文由 Yuehan Lyu 发布,翻译遵循 CC BY-SA 4.0 许可协议
您可以使用
na.replace
:或地图文字:
请注意,后一种解决方案会将映射中不存在的值转换为
NULL
。如果这不是您想要的行为,您可以添加coalesce
: