我正在使用 pyspark 读取如下所示的镶木地板文件:
my_df = sqlContext.read.parquet('hdfs://myPath/myDB.db/myTable/**')
然后当我执行 my_df.take(5)
时,它会显示 [Row(...)]
,而不是像我们使用 pandas 数据框时那样的表格格式。
是否可以像 pandas 数据框一样以表格格式显示数据框?谢谢!
原文由 Edamame 发布,翻译遵循 CC BY-SA 4.0 许可协议
我正在使用 pyspark 读取如下所示的镶木地板文件:
my_df = sqlContext.read.parquet('hdfs://myPath/myDB.db/myTable/**')
然后当我执行 my_df.take(5)
时,它会显示 [Row(...)]
,而不是像我们使用 pandas 数据框时那样的表格格式。
是否可以像 pandas 数据框一样以表格格式显示数据框?谢谢!
原文由 Edamame 发布,翻译遵循 CC BY-SA 4.0 许可协议
正如@brent 在@maxymoo 的回答的评论中提到的,你可以试试
df.limit(10).toPandas()
在 Jupyter 中获得更漂亮的表格。但如果您不缓存 spark 数据帧,这可能需要一些时间才能运行。此外, .limit()
不会保留原始 spark 数据帧的顺序。
原文由 Louis Yang 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答869 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
show 方法可以满足您的需求。
例如,给定以下 3 行数据框,我可以像这样只打印前两行:
产生: