我想使用 pyspark.mllib.stat.Statistics.corr
函数来计算 pyspark.sql.dataframe.DataFrame
对象的两列之间的相关性。 corr
函数期望采用 rdd
的 Vectors
对象。如何将 df['some_name']
的列翻译成 rdd
对象的 Vectors.dense
对象?
原文由 VJune 发布,翻译遵循 CC BY-SA 4.0 许可协议
我想使用 pyspark.mllib.stat.Statistics.corr
函数来计算 pyspark.sql.dataframe.DataFrame
对象的两列之间的相关性。 corr
函数期望采用 rdd
的 Vectors
对象。如何将 df['some_name']
的列翻译成 rdd
对象的 Vectors.dense
对象?
原文由 VJune 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
2 回答854 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
应该没有那个必要。对于数值,您可以直接使用
DataFrameStatFunctions.corr
计算相关性:否则你可以使用
VectorAssembler
: