pyspark如何修改Dataframe中一列的值

Question

pyspark如何修改Dataframe中一列的值

发布于
2018-08-26

数据值是这样的

Survived	age
0	22.0
1	38.0
1	26.0
1	35.0
0	35.0
0	null
0	54.0
0	2.0
1	27.0
1	14.0
1	4.0
1	58.0
0	20.0
0	39.0
0	14.0
1	55.0
0	2.0
1	null
0	31.0
1	null

age_interval = [(lower, upper) for lower, upper in zip(range(0, 96, 5), range(5, 101, 5))]
def age_partition(age):
    """ 将年龄分类 """
    for lower, upper in age_interval:
        if age is None:
            return "None"
        elif lower <= age <= upper:
            return f"({lower}, {upper})"

我想对age一列进行修改，比如把22.0改为(20, 30)，把38改成(30, 40)
上面的代码是对age值进行修改的函数

我应该如何对age列进行修改呢？

pyspark

python

阅读 11.6k

1 个回答

得票最新

temp_dele

30817

发布于
2018-08-26

import pandas as pd
df = pd.read_csv('xxx.csv', header=0, encoding='utf-8')

age_interval = [(lower, upper) for lower, upper in zip(range(0, 96, 5), range(5, 101, 5))]
def age_partition(age):
    """ 将年龄分类 """
    for lower, upper in age_interval:
        if age is None:
            return "None"
        elif lower <= age <= upper:
            return f"({lower}, {upper})"

df['new_col'] = df.age.apply(age_partition)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

pyspark如何修改Dataframe中一列的值

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？