df内容 A B C 1 1 "" 1 1 1 df.drop_duplicates(subset=['A','B'], keep='first', inplace=False) A B C 1 1 "" 我想要的结果是 A B C 1 1 1 保留第一个不为“”的C列的值

如何获取A，B重复列中，第一个不为空C的值？

2 个回答

得票最新

慕辰先生

1.9k32657

发布于
2019-04-02

你可以增加一个条件筛选，把有空值的那一行去掉，再drop_duplicates

王尼玛

37341422

发布于
2019-04-03

老铁, 以下代码仅供参考:

我举个例子吧

先建立`df`

>>> df = [[1,2,''], [1,3,4], [1,2,3], [1,3,3], [1,2,4],[1,4,5], [1,4,6]]
>>> df = pd.DataFrame(a, columns=['A','B','C'])
>>> df
   A  B  C
0  1  2   
1  1  3  4
2  1  2  3
3  1  3  3
4  1  2  4
5  1  4  5
6  1  4  6

可以使用`df.groupby()`方法分组, 而其返回的值是可迭代对象, 该可迭代对象的每一个值是一个元组, 而每一个元组又有两个元素, 第一个元素是你的分组依据, 第二个元素是被你分割出来的DataFrame, 看个例子吧:

>>> for i in df.groupby(by=['A','B'],sort=False):
        print(i)
        print() # 打印个回车分割

    
((1, 2),    A  B  C
0  1  2   
2  1  2  3
4  1  2  4)

((1, 3),    A  B  C
1  1  3  4
3  1  3  3)

((1, 4),    A  B  C
5  1  4  5
6  1  4  6)

所以现在的问题是如何从每个元组的第二个元素中找到你要的第一个不为空C的值

应该比较简单吧, 再写个例子:

>>> b = pd.DataFrame([[1,2,''],[1,2,3], [1,2,4]], columns=['A','B','C'])
>>> print(b[b.C != ''].iloc[0])
A    1
B    2
C    3
Name: 1, dtype: object

所以一句话就可以写完:

>>> a.groupby(by=['A','B'],sort=False).apply(lambda x:x[x.C != ''].iloc[0]).reset_index(drop=True)
   A  B  C
0  1  2  3
1  1  3  4
2  1  4  5

但是问题又来了, 一旦原`DataFrame`中有`[1,9,'']`这样一项, 即`A,B`, 只出现一次没有重复过, 那就会报错

所以推荐自己写一个函数(就是传入apply()的那个)
给出参考:

def xx(x):
    try:
        return x[x.C != ''].iloc[0]
    except:
        return None

但是碰见[1,9,'']这一项就成了:

       A    B    C
A B               
1 2  1.0  2.0  3.0
  9  NaN  NaN  NaN
  3  1.0  3.0  4.0
  4  1.0  4.0  5.0

所以你还得手动删除那一行

行吧, 老铁希望你写的更简单一点, 当然如果数据够理想, 一行就够了

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何获取A，B重复列中，第一个不为空C的值？

老铁, 以下代码仅供参考:

我举个例子吧

先建立`df`

可以使用`df.groupby()`方法分组, 而其返回的值是可迭代对象, 该可迭代对象的每一个值是一个元组, 而每一个元组又有两个元素, 第一个元素是你的分组依据, 第二个元素是被你分割出来的DataFrame, 看个例子吧:

所以现在的问题是如何从每个元组的第二个元素中找到你要的第一个不为空C的值

所以一句话就可以写完:

但是问题又来了, 一旦原`DataFrame`中有`[1,9,'']`这样一项, 即`A,B`, 只出现一次没有重复过, 那就会报错

行吧, 老铁希望你写的更简单一点, 当然如果数据够理想, 一行就够了

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

如何获取A，B重复列中，第一个不为空C的值？

老铁, 以下代码仅供参考:

我举个例子吧

先建立df

可以使用df.groupby()方法分组, 而其返回的值是可迭代对象, 该可迭代对象的每一个值是一个元组, 而每一个元组又有两个元素, 第一个元素是你的分组依据, 第二个元素是被你分割出来的DataFrame, 看个例子吧:

所以现在的问题是如何从每个元组的第二个元素中找到你要的第一个不为空C的值

所以一句话就可以写完:

但是问题又来了, 一旦原DataFrame中有[1,9,'']这样一项, 即A,B, 只出现一次没有重复过, 那就会报错

行吧, 老铁希望你写的更简单一点, 当然如果数据够理想, 一行就够了

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

先建立`df`

可以使用`df.groupby()`方法分组, 而其返回的值是可迭代对象, 该可迭代对象的每一个值是一个元组, 而每一个元组又有两个元素, 第一个元素是你的分组依据, 第二个元素是被你分割出来的DataFrame, 看个例子吧:

但是问题又来了, 一旦原`DataFrame`中有`[1,9,'']`这样一项, 即`A,B`, 只出现一次没有重复过, 那就会报错