怎样最快地和最简单地判定一个dataframe中有重复项?

有一个较大的dataframe,几百万条记录。怎样:
(1)最快地判断是否存在重复项?也就是只要有重复项就可以,不必标记那一项。
(2)最方便地判断是否存在重复项?也就是代码写得最少
谢谢

阅读 2.9k
1 个回答

https://pandas.pydata.org/pan...

import pandas as pd

df = pd.DataFrame({'a': [1, 1], 'b': [1, 1]})

is_duplicate = not all(df.duplicated())

print(is_duplicate)
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题