我正在尝试对两个数据帧中的每一行应用 pyspark sql 函数哈希算法来识别差异。哈希算法区分大小写。即如果列包含“APPLE”和“Apple”被视为两个不同的值,因此我想将两个数据帧的大小写更改为大写或小写。我只能实现数据帧标题而不是数据帧值。请帮助
#Code for Dataframe column headers
self.df_db1 =self.df_db1.toDF(*[c.lower() for c in self.df_db1.columns])
原文由 Jack 发布,翻译遵循 CC BY-SA 4.0 许可协议
除了一个例外,这两个答案似乎都可以——如果你有数字列,它将被转换为字符串列。为避免这种情况,请尝试:
现在,当您有非字符串字段(即数字字段)时,类型也是正确的)。如果您知道每一列都是 String 类型,请使用其他答案之一 - 在这种情况下它们是正确的 :)
PySpark 中的 Python 代码: