Pyspark:如何将 spark 数据帧转换为 json 并将其保存为 json 文件?

新手上路,请多包涵

我正在尝试将我的 pyspark sql 数据帧转换为 json,然后另存为文件。

 df_final = df_final.union(join_df)

df_final 包含这样的值:

在此处输入图像描述

我试过这样的事情。但它创建了一个无效的 json。

 df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)

{"Variable":"Col1","Min":"20","Max":"30"}
{"Variable":"Col2","Min":"25,"Max":"40"}

我预期的文件应包含如下数据:

 [
{"Variable":"Col1",
"Min":"20",
"Max":"30"},
{"Variable":"Col2",
"Min":"25,
"Max":"40"}]

原文由 Shankar Panda 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.6k
1 个回答

对于 pyspark 你可以直接将你的dataframe存储到json文件中,不需要将datafram转换成json。

 df_final.coalesce(1).write.format('json').save('/path/file_name.json')

而且你仍然想将你的数据帧转换为 json 然后你可以使用 df_final.toJSON()

原文由 Sahil Desai 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进