怎样最快地和最简单地判定一个dataframe中有重复项?

有一个较大的dataframe,几百万条记录。怎样:
(1)最快地判断是否存在重复项?也就是只要有重复项就可以,不必标记那一项。
(2)最方便地判断是否存在重复项?也就是代码写得最少
谢谢

阅读 2.9k
1 个回答

https://pandas.pydata.org/pan...

import pandas as pd

df = pd.DataFrame({'a': [1, 1], 'b': [1, 1]})

is_duplicate = not all(df.duplicated())

print(is_duplicate)
推荐问题