基于两列 A，B 从数据框中删除重复项，在另一列 C 中保留具有最大值的行

我有一个 pandas 数据框，其中包含根据两列（A 和 B）的重复值：

我想删除重复项，保留 C 列中具有最大值的行。这将导致：

我不知道该怎么做。我应该使用 drop_duplicates() 其他？

原文由 Elsalex 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 749

您可以使用 group by 来做到这一点：

 c_maxes = df.groupby(['A', 'B']).C.transform(max)
df = df.loc[df.C == c_maxes]

c_maxes is a Series of the maximum values of C in each group but which is of the same length and with the same index as df 。如果您还没有使用过 .transform 然后打印 c_maxes 可能是一个好主意，看看它是如何工作的。

另一种使用 drop_duplicates 的方法是

df.sort('C').drop_duplicates(subset=['A', 'B'], take_last=True)

不确定哪个更有效，但我猜是第一种方法，因为它不涉及排序。

编辑： 从 pandas 0.18 开始，第二个解决方案是

df.sort_values('C').drop_duplicates(subset=['A', 'B'], keep='last')

或者，或者，

 df.sort_values('C', ascending=False).drop_duplicates(subset=['A', 'B'])

在任何情况下， groupby 解决方案的性能似乎要高得多：

 %timeit -n 10 df.loc[df.groupby(['A', 'B']).C.max == df.C]
10 loops, best of 3: 25.7 ms per loop

%timeit -n 10 df.sort_values('C').drop_duplicates(subset=['A', 'B'], keep='last')
10 loops, best of 3: 101 ms per loop

原文由 JoeCondron 发布，翻译遵循 CC BY-SA 4.0 许可协议

基于两列 A，B 从数据框中删除重复项，在另一列 C 中保留具有最大值的行

你尚未登录，登录后可以

请问： Python中是否有方式可以像前端的TSLint一样进行代码的自动风格格式检查？

为什么 pypi 的页面上的新版本在通过 pip 获取不到？

请问一下Python 可以进行强类型开发吗？

python中最好的单元测试是使用的什么呢？

请问一下，如何理解reduce函数呢？

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

Stack Overflow 翻译