新手上路，请多包涵

如何获取 pandas 或 numpy 中列表列的唯一值，以便第二列来自

将导致 'action', 'crime', 'drama' 。

我能想到的最接近（但非功能性）的解决方案是：

  genres = data['Genre'].unique()

但这可以预见地导致 TypeError 说明列表是如何不可哈希的。

TypeError: unhashable type: 'list'

Set 似乎是个好主意，但是

genres = data.apply(set(), columns=['Genre'], axis=1)

但也会导致 TypeError: set() takes no keyword arguments

原文由 hrokr 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas numpy unique

阅读 473

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

如果您只想找到唯一值，我建议使用 itertools.chain.from_iterable 连接所有这些列表

import itertools

>>> np.unique([*itertools.chain.from_iterable(df.Genre)])
array(['action', 'crime', 'drama'], dtype='<U6')

甚至更快

>>> set(itertools.chain.from_iterable(df.Genre))
{'action', 'crime', 'drama'}

`Timings`

 df = pd.DataFrame({'Genre':[['crime','drama'],['action','crime','drama']]})
df = pd.concat([df]*10000)

%timeit set(itertools.chain.from_iterable(df.Genre))
100 loops, best of 3: 2.55 ms per loo

%timeit set([x for y in df['Genre'] for x in y])
100 loops, best of 3: 4.09 ms per loop

%timeit np.unique([*itertools.chain.from_iterable(df.Genre)])
100 loops, best of 3: 12.8 ms per loop

%timeit np.unique(df['Genre'].sum())
1 loop, best of 3: 1.65 s per loop

%timeit set(df['Genre'].sum())
1 loop, best of 3: 1.66 s per loop

原文由 rafaelc 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-09

您可以使用 explode ：

 data = pd.DataFrame([
    {
        "title": "The Godfather: Part II",
        "genres": ["crime", "drama"],
        "director": "Fracis Ford Coppola"
    },
    {
        "title": "The Dark Knight",
        "genres": ["action", "crime", "drama"],
        "director": "Christopher Nolan"
    }
])
# Changed from data.explode("genres")["genres"].unique() as suggested by rafaelc
data["genres"].explode().unique()

结果是：

 array(['crime', 'drama', 'action'], dtype=object)

原文由 PMende 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

熊猫从列表列中获取唯一值

`Timings`

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

请问numpy如何简化以下代码？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译