新手上路，请多包涵

我有一个 PySpark Dataframe 有一列 strings 。如何检查其中的哪些行是数字。我在 PySpark 的官方文档中找不到任何功能。

 values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
|   ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+

In Python, there is a function .isDigit() which returns True or False if the string contains just numbers or not.

预期的数据帧：

 +-----+-------+
|   ID| Value |
+-----+-------+
|25q36| False |
|75647| True  |
|13864| True  |
|8758K| False |
|07645| True  |
+-----+-------+

我想避免创建 UDF 。

原文由 cph_sto 发布，翻译遵循 CC BY-SA 4.0 许可协议

python apache-spark pyspark apache-spark-sql numeric

阅读 1.3k

2 个回答

得票最新

社区维基

发布于
2023-01-08

✓ 已被采纳

一个简单的演员就可以完成这项工作：

 from pyspark.sql import functions as F

my_df.select(
  "ID",
  F.col("ID").cast("int").isNotNull().alias("Value ")
).show()

+-----+------+
|   ID|Value |
+-----+------+
|25q36| false|
|75647|  true|
|13864|  true|
|8758K| false|
|07645|  true|
+-----+------+

原文由 Steven 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-08

使用正则表达式过滤

事实上，我很喜欢 Steven 提供的创造性解决方案，但对于这种情况，这是我更简单的建议：

 df.filter(~df.ID.rlike('\D+')).show()

首先，您选择包含带有 rlike('\D+') 的非数字字符的每一行，然后在过滤器的开头排除带有 ~ 的那些行。

原文由 Mohammad-Reza Malekpour 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 2 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何检查pyspark数据框中的字符串列是否全部为数字

使用正则表达式过滤

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何检查pyspark数据框中的字符串列是否全部为数字

使用正则表达式过滤

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？