熊猫:知道操作何时影响原始数据框

新手上路,请多包涵

我喜欢 pandas 并且多年来一直在使用它,并且非常有信心我可以很好地处理如何对数据帧进行子集化以及如何适当地处理视图与副本(尽管我使用了很多断言来确定)。我也知道有很多关于 SettingWithCopyWarning 的问题,例如 How to deal with SettingWithCopyWarning in Pandas? 以及一些关于在它发生时让你的头脑清醒过来的最新指南,例如 Understanding SettingWithCopyWarning in pandas

但我也知道具体的事情,比如 这个答案 的引述不再出现在最新的文档中( 0.22.0 ),而且多年来很多事情已经被弃用(导致一些不合适的旧 SO 答案),并且事情正在 不断变化

最近在用非常基本的一般 Python 知识教 pandas 完成新手之后,比如避免链式索引(和使用 .iloc / .loc ),我仍然在努力提供 一般规则拇指 知道什么时候注意 SettingWithCopyWarning 很重要(例如,什么时候可以安全地忽略它)。

我个人发现,根据某些规则(例如切片或布尔运算)对数据帧进行子集化然后 独立于原始数据帧 修改该子集的特定模式比文档建议的操作更为常见。在这种情况下,我们想 _修改副本而不是原始文件_,并且警告会让新手感到困惑/害怕。

我知道提前知道何时返回视图与副本并非易事,例如

Pandas 使用什么规则来生成视图与副本?

检查数据框是复制还是在 Pandas 中查看

因此,我正在寻找一个更一般(初学者友好)问题的答案: 在子集数据帧上执行操作何时会影响创建它的原始数据帧,以及它们何时独立? .

我在下面创建了一些我认为似乎合理的案例,但我不确定是否有我遗漏的“陷阱”,或者是否有任何更简单的方法来思考/检查这个。我希望有人可以确认我对以下用例的直觉与我上面的问题有关是正确的。

 import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})
  1. 警告:否

原改:否

# df1 will be unaffected because we use .copy() method explicitly
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

2)警告:是的(我不太明白为什么)

原改:否

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100
  1. 警告:是

原改:无

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

4)警告:否

原改:无

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

5)警告:否

原改:有(新手看不懂但有道理)

 # df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

tl; dr 从原始数据框创建新数据框时,更改新数据框:

使用 .loc/.iloc 的标量/切片索引用于创建新数据帧 时,将更改原始数据。

使用 .loc、 .query().copy() 的布尔索引用于创建新数据帧 时, 不会 更改原始数据帧

原文由 ejolly 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 300
1 个回答

这是 pandas 的一个有点令人困惑甚至令人沮丧的部分,但在大多数情况下,如果您遵循一些简单的工作流程规则,您实际上不必担心这一点。特别要注意的是,当您有两个数据帧时,这里只有两种一般情况,一个是另一个的子集。

在这种情况下,Zen of Python 规则“显式优于隐式”是一个很好的遵循准则。

案例 A:对 df2 的更改不应影响 df1

当然,这是微不足道的。你想要两个完全独立的数据框,所以你只需明确地制作一个副本:

 df2 = df1.copy()

在此之后,您对 df2 所做的任何操作仅影响 df2 而不是 df1 ,反之亦然。

案例 B:更改为 df2 也应该影响 df1

在这种情况下,我认为没有一种通用的方法可以解决问题,因为它完全取决于您要尝试做什么。但是,有一些标准方法非常简单,并且对它们的工作方式不应有任何歧义。

方法一:将df1复制到df2,然后使用df2更新df1

在这种情况下,您基本上可以将上面的示例进行一对一的转换。这是示例 #2:

 df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

不幸的是,通过 append 重新合并有点冗长。您可以使用以下方法更干净地完成它,尽管它具有将整数转换为浮点数的副作用。

 df1.update(df2)   # note that this is an inplace operation

方法 2:使用掩码(根本不创建 df2

我认为这里最好的一般方法是根本不创建 df2 ,而是让它成为 df1 的屏蔽版本。有点不幸的是,由于混合了 lociloc ,您不能直接翻译上面的代码,这对于这个例子来说很好,但对于实际使用来说可能不切实际。

优点是您可以编写非常简单且可读性强的代码。这是上面示例 #2 的替代版本,其中 df2 实际上只是 df1 的掩码版本。但不是通过 iloc 进行更改,如果列“C”== 10,我将进行更改。

 df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

现在,如果您打印 df1df1[df2_mask] 您将看到每个数据帧的第一行的“B”列 = 100。显然这在这里并不奇怪,但这是遵循“显式优于隐式”的固有优势。

原文由 JohnE 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题