我在 Pyspark (2.1.0) 中有一个 Spark DataFrame,我希望仅获取数字列的名称或仅获取字符串列的名称。
例如,这是我的 DF 的架构:
root
|-- Gender: string (nullable = true)
|-- SeniorCitizen: string (nullable = true)
|-- MonthlyCharges: double (nullable = true)
|-- TotalCharges: double (nullable = true)
|-- Churn: string (nullable = true)
这就是我需要的:
num_cols = [MonthlyCharges, TotalCharges]
str_cols = [Gender, SeniorCitizen, Churn]
我怎样才能做到?
原文由 Mara 发布,翻译遵循 CC BY-SA 4.0 许可协议
dtypes 是元组列表 (columnNane,type) 你可以使用简单的过滤器