检测和排除 pandas DataFrame 中的异常值

Question

新手上路，请多包涵

我有一个包含几列的熊猫数据框。

现在我知道某些行是基于某个列值的异常值。

例如

“Vol”列的所有值都围绕着 12xx 并且一个值是 4000 （异常值）。

现在我想排除那些有 Vol 这样的列的行。

因此，基本上我需要在数据框上放置一个过滤器，以便我们选择某一列的值在平均值范围内的所有行，例如，3 个标准偏差。

实现这一目标的优雅方法是什么？

原文由 AMM 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.3k

1 个回答

得票最新

如果您的数据框中有多个列，并且想要删除至少在一列中具有异常值的所有行，则以下表达式可以一次完成。

 df = pd.DataFrame(np.random.randn(100, 3))

import numpy as np
from scipy import stats
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]

描述：

根据单列过滤其他列

 df[(np.abs(stats.zscore(df[0])) < 3)]

原文由 tanemaki 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

推荐问题

子站问答

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题