如何使用 Pyspark 数据帧做相当于 pd.concat([df1,df2],axis=‘columns’) 的 pandas?我用谷歌搜索,找不到好的解决方案。
DF1
var1
3
4
5
DF2
var2 var3
23 31
44 45
52 53
Expected output dataframe
var1 var2 var3
3 23 31
4 44 45
5 52 53
编辑以包括预期输出
原文由 GeorgeOfTheRF 发布,翻译遵循 CC BY-SA 4.0 许可协议
以下是您想在 scala 中执行的操作的示例,我希望您可以将其转换为 pyspark
这就是你只使用数据框的方式
将新列添加为
row_id
并将两个数据框与键连接为row_id
。希望这可以帮助!