我在 PySpark 数据框中有大量列,比如 200。我想选择除 3-4 列之外的所有列。如何选择这些列而无需手动键入我要选择的所有列的名称?
原文由 Tshilidzi Mudau 发布,翻译遵循 CC BY-SA 4.0 许可协议
我在 PySpark 数据框中有大量列,比如 200。我想选择除 3-4 列之外的所有列。如何选择这些列而无需手动键入我要选择的所有列的名称?
原文由 Tshilidzi Mudau 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答862 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
最后,我解决了以下问题:
df.drop('column_1', 'column_2', 'column_3')
df.select([c for c in df.columns if c not in {'column_1', 'column_2', 'column_3'}])