当列表位于熊猫数据框列中时,我需要获取列表中每个元素的频率
在数据中:
din=pd.DataFrame({'x':[['a','b','c'],['a','e','d', 'c']]})`
x
0 [a, b, c]
1 [a, e, d, c]
期望的输出:
f x
0 2 a
1 1 b
2 2 c
3 1 d
4 1 e
我可以将列表扩展成行,然后执行分组依据,但此数据可能很大(百万加记录)并且想知道是否有更有效/直接的方法。
谢谢
原文由 Gaurav Taneja 发布,翻译遵循 CC BY-SA 4.0 许可协议
First flatten values of
list
s and then count byvalue_counts
orsize
orCounter
:或者:
或者: