我正在尝试获取新数据集,或将当前数据集列的值更改为它们的唯一值。这是我想要获得的示例:
A B
-----
0| 1 1
1| 2 5
2| 1 5
3| 7 9
4| 7 9
5| 8 9
Wanted Result Not Wanted Result
A B A B
----- -----
0| 1 1 0| 1 1
1| 2 5 1| 2 5
2| 7 9 2|
3| 8 3| 7 9
4|
5| 8
我真的不在乎索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了 2 种方法,一种使用新的 dataFrame,一种不使用。
#With New DataFrame
def UniqueResults(dataframe):
df = pd.DataFrame()
for col in dataframe:
S=pd.Series(dataframe[col].unique())
df[col]=S.values
return df
#Without new DataFrame
def UniqueResults(dataframe):
for col in dataframe:
dataframe[col]=dataframe[col].unique()
return dataframe
两次,我都收到错误:
Length of Values does not match length of index
原文由 Mayeul sgc 发布,翻译遵循 CC BY-SA 4.0 许可协议
当您尝试将不同长度的 numpy 数组列表分配给数据框时会出现错误,并且可以按如下方式重现:
四行数据框:
现在尝试为其分配一个包含两个元素的列表/数组:
两个错误都出来了:
因为数据框有四行但列表和数组只有两个元素。
解决方案(谨慎使用):将列表/数组转换为 pandas 系列,然后在进行赋值时,系列中缺少的索引将用 NaN 填充:
对于您的具体问题,如果您不关心索引或列之间值的对应关系,您可以在删除重复项后为每列重置索引: