新手上路，请多包涵

当列表位于熊猫数据框列中时，我需要获取列表中每个元素的频率

在数据中：

 din=pd.DataFrame({'x':[['a','b','c'],['a','e','d', 'c']]})`

              x
0     [a, b, c]
1  [a, e, d, c]

期望的输出：

我可以将列表扩展成行，然后执行分组依据，但此数据可能很大（百万加记录）并且想知道是否有更有效/直接的方法。

谢谢

原文由 Gaurav Taneja 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas

阅读 296

2 个回答

得票最新

社区维基

发布于
2023-01-10

✓ 已被采纳

First flatten values of list s and then count by value_counts or size or Counter :

 a = pd.Series([item for sublist in din.x for item in sublist])

或者：

 a = pd.Series(np.concatenate(din.x))

 df = a.value_counts().sort_index().rename_axis('x').reset_index(name='f')

或者：

 df = a.groupby(a).size().rename_axis('x').reset_index(name='f')

 from collections import Counter
from  itertools import chain

df = pd.Series(Counter(chain(*din.x))).sort_index().rename_axis('x').reset_index(name='f')

print (df)
   x  f
0  a  2
1  b  1
2  c  2
3  d  1
4  e  1

原文由 jezrael 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-10

你也可以有这样的一个班轮：

 df = pd.Series(sum([item for item in din.x], [])).value_counts()

原文由 tmsss 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

熊猫数据框中列表中的元素计数

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译