我有一个包含几列的熊猫数据框。
现在我知道某些行是基于某个列值的异常值。
例如
“Vol”列的所有值都围绕着
12xx
并且一个值是4000
(异常值)。
现在我想排除那些有 Vol
这样的列的行。
因此,基本上我需要在数据框上放置一个过滤器,以便我们选择某一列的值在平均值范围内的所有行,例如,3 个标准偏差。
实现这一目标的优雅方法是什么?
原文由 AMM 发布,翻译遵循 CC BY-SA 4.0 许可协议
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
如果您的数据框中有多个列,并且想要删除至少在一列中具有异常值的所有行,则以下表达式可以一次完成。
描述:
根据单列过滤其他列
zscore
指定一列,df[0]
例如,并删除.all(axis=1)
。