如果我计算一个 groupby 对象的平均值,并且在其中一个组中有一个 NaN(s),则 NaN 将被忽略。即使在应用 np.mean 时,它仍然只返回所有有效数字的平均值。我希望只要有一个 NaN 在组内,就会出现返回 NaN 的行为。这是行为的简化示例
import pandas as pd
import numpy as np
c = pd.DataFrame({'a':[1,np.nan,2,3],'b':[1,2,1,2]})
c.groupby('b').mean()
a
b
1 1.5
2 3.0
c.groupby('b').agg(np.mean)
a
b
1 1.5
2 3.0
我想收到以下结果:
a
b
1 1.5
2 NaN
我知道我可以事先替换 NaN,并且我可能可以编写自己的聚合函数以在 NaN 位于组内时立即返回 NaN。但是这个功能不会被优化。
您是否知道使用优化函数实现所需行为的论点?
顺便说一句,我认为所需的行为是在以前版本的熊猫中实现的。
原文由 Tim Tee 发布,翻译遵循 CC BY-SA 4.0 许可协议
默认情况下,
pandas
跳过Nan
值。您可以通过指定skipna=False
使其包含Nan
: