新手上路，请多包涵

我正在尝试获取新数据集，或将当前数据集列的值更改为它们的唯一值。这是我想要获得的示例：

    A B
 -----
0| 1 1
1| 2 5
2| 1 5
3| 7 9
4| 7 9
5| 8 9

Wanted Result    Not Wanted Result
       A B              A B
     -----             -----
    0| 1 1           0| 1 1
    1| 2 5           1| 2 5
    2| 7 9           2|
    3| 8             3| 7 9
                     4|
                     5| 8

我真的不在乎索引，但这似乎是问题所在。到目前为止，我的代码非常简单，我尝试了 2 种方法，一种使用新的 dataFrame，一种不使用。

 #With New DataFrame
def UniqueResults(dataframe):
    df = pd.DataFrame()
    for col in dataframe:
        S=pd.Series(dataframe[col].unique())
        df[col]=S.values
    return df

#Without new DataFrame
def UniqueResults(dataframe):
    for col in dataframe:
        dataframe[col]=dataframe[col].unique()
    return dataframe

两次，我都收到错误：

 Length of Values does not match length of index

原文由 Mayeul sgc 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas dataframe duplicates

阅读 1.6k

2 个回答

得票最新

社区维基

发布于
2022-12-29

✓ 已被采纳

当您尝试将不同长度的 numpy 数组列表分配给数据框时会出现错误，并且可以按如下方式重现：

四行数据框：

 df = pd.DataFrame({'A': [1,2,3,4]})

现在尝试为其分配一个包含两个元素的列表/数组：

 df['B'] = [3,4]   # or df['B'] = np.array([3,4])

两个错误都出来了：

ValueError：值的长度与索引的长度不匹配

因为数据框有四行但列表和数组只有两个元素。

解决方案（谨慎使用）：将列表/数组转换为 pandas 系列，然后在进行赋值时，系列中缺少的索引将用 NaN 填充：

 df['B'] = pd.Series([3,4])

df
#   A     B
#0  1   3.0
#1  2   4.0
#2  3   NaN          # NaN because the value at index 2 and 3 doesn't exist in the Series
#3  4   NaN

对于您的具体问题，如果您不关心索引或列之间值的对应关系，您可以在删除重复项后为每列重置索引：

 df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))

#   A     B
#0  1   1.0
#1  2   5.0
#2  7   9.0
#3  8   NaN

原文由 Psidom 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2022-12-29

解决此问题的一种方法是将唯一值保留在列表中并使用 itertools.zip_longest 转置数据并将其传递到 DataFrame 构造函数中：

 from itertools import zip_longest
def UniqueResults(dataframe):
    tmp = [dataframe[col].unique() for col in dataframe]
    return pd.DataFrame(zip_longest(*tmp), columns=dataframe.columns)

out = UniqueResults(df)

输出：

至少对于小型 DataFrame，这似乎更快（例如在 OP 的示例中）：

 %timeit out = df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
1.27 ms ± 50.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit x = UniqueResults(df)
426 µs ± 24.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

原文由 user7864386 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

ValueError：值的长度与索引的长度不匹配 \|熊猫 DataFrame.unique()

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译