使用 pyspark 数据框,你如何做相当于 Pandas df['col'].unique()
。
我想列出 pyspark 数据框列中的所有唯一值。
不是 SQL 类型的方式(registertemplate 然后 SQL 查询不同的值)。
另外我不需要 groupby
然后 countDistinct
,而是我想检查该列中的不同值。
原文由 Satya 发布,翻译遵循 CC BY-SA 4.0 许可协议
使用 pyspark 数据框,你如何做相当于 Pandas df['col'].unique()
。
我想列出 pyspark 数据框列中的所有唯一值。
不是 SQL 类型的方式(registertemplate 然后 SQL 查询不同的值)。
另外我不需要 groupby
然后 countDistinct
,而是我想检查该列中的不同值。
原文由 Satya 发布,翻译遵循 CC BY-SA 4.0 许可协议
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答2.9k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
假设我们正在使用以下数据表示形式(两列
k
和v
,其中k
包含三个条目,两个唯一:使用 Pandas 数据框:
这将返回
ndarray
,即array(['foo', 'bar'], dtype=object)
您要求提供“pandas df[‘col’].unique() 的 pyspark 数据框替代方案”。现在,给定以下 Spark 数据框:
如果您想从 Spark 获得 相同 的结果,即
ndarray
,请使用toPandas()
:或者,如果您不需要
ndarray
并且只需要列的唯一值列表k
:最后,您还可以使用列表推导,如下所示: