如何从 Pyspark 中的日期列中减去天数列？

给定以下 PySpark DataFrame

 df = sqlContext.createDataFrame([('2015-01-15', 10),
                                 ('2015-02-15', 5)],
                                 ('date_col', 'days_col'))

如何从日期列中减去天数列？在此示例中，结果列应为 ['2015-01-05', '2015-02-10'] 。

我查看了 pyspark.sql.functions.date_sub() ，但它需要一个日期列和一天，即 date_sub(df['date_col'], 10) 。理想情况下，我更愿意做 date_sub(df['date_col'], df['days_col']) 。

我还尝试创建一个 UDF：

 from datetime import timedelta
def subtract_date(start_date, days_to_subtract):
    return start_date - timedelta(days_to_subtract)

subtract_date_udf = udf(subtract_date, DateType())
df.withColumn('subtracted_dates', subtract_date_udf(df['date_col'], df['days_col'])

这在技术上可行，但我读到在 Spark 和 Python 之间步进可能会导致大型数据集出现性能问题。我现在可以坚持使用这个解决方案（无需过早优化），但我的直觉告诉我，必须有一种方法可以在不使用 Python UDF 的情况下完成这个简单的事情。

原文由 kjmij 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 471

如何从 Pyspark 中的日期列中减去天数列？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何从 Pyspark 中的日期列中减去天数列？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？