新手上路，请多包涵

我正在寻找一种将 DataFrame 转换为嵌套字典的通用方法

这是一个示例数据框

    name    v1  v2  v3
0   A       A1  A11 1
1   A       A2  A12 2
2   B       B1  B12 3
3   C       C1  C11 4
4   B       B2  B21 5
5   A       A2  A21 6

列数可能不同，列名也可能不同。

像这样：

 {
'A' : {
    'A1' : { 'A11' : 1 }
    'A2' : { 'A12' : 2 , 'A21' : 6 }} ,
'B' : {
    'B1' : { 'B12' : 3 } } ,
'C' : {
    'C1' : { 'C11' : 4}}
}

实现这一目标的最佳方法是什么？

我得到的最接近的是 zip 函数，但还没有设法让它在不止一个级别（两列）上工作。

原文由 haki 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas

阅读 811

2 个回答

得票最新

社区维基

发布于
2023-01-11

✓ 已被采纳

我不明白为什么你的字典中没有 B2 。我也不确定在重复列值的情况下你想要发生什么（我的意思是除了最后一个之外的每个值。）假设第一个是疏忽，我们可以使用递归：

 def recur_dictify(frame):
    if len(frame.columns) == 1:
        if frame.values.size == 1: return frame.values[0][0]
        return frame.values.squeeze()
    grouped = frame.groupby(frame.columns[0])
    d = {k: recur_dictify(g.ix[:,1:]) for k,g in grouped}
    return d

产生

>>> df
  name  v1   v2  v3
0    A  A1  A11   1
1    A  A2  A12   2
2    B  B1  B12   3
3    C  C1  C11   4
4    B  B2  B21   5
5    A  A2  A21   6
>>> pprint.pprint(recur_dictify(df))
{'A': {'A1': {'A11': 1}, 'A2': {'A12': 2, 'A21': 6}},
 'B': {'B1': {'B12': 3}, 'B2': {'B21': 5}},
 'C': {'C1': {'C11': 4}}}

不过，使用非 Pandas 方法可能更简单：

 def retro_dictify(frame):
    d = {}
    for row in frame.values:
        here = d
        for elem in row[:-2]:
            if elem not in here:
                here[elem] = {}
            here = here[elem]
        here[row[-2]] = row[-1]
    return d

原文由 DSM 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-11

你可以像下面这样简单地重建你的字典

result = {}
for lst in df.values:
    leaf = result
    for path in lst[:-2]:
       leaf = leaf.setdefault(path, {})
    leaf.setdefault(lst[-2], list()).append(lst[-1])

>>> result
{'A': {'A1': {'A11': [1]}, 'A2': {'A21': [6], 'A12': [2]}}, 'C': {'C1': {'C11': [4]}}, 'B':  {'B1': {'B12': [3]}, 'B2': {'B21': [5]}}}

如果您确定您的叶子不会重叠，请替换最后一行

    leaf.setdefault(lst[-2], list()).append(lst[-1])

和

    leaf[lst[-2]] = lst[-1]

获得你想要的输出：

 >>> result
{'A': {'A1': {'A11': 1}, 'A2': {'A21': 6, 'A12': 2}}, 'C': {'C1': {'C11': 4}}, 'B': {'B1': {'B12': 3}, 'B2': {'B21': 5}}}

用于测试的示例数据：

 import pandas as pd
data = {'name': ['A','A','B','C','B','A'],
          'v1': ['A1','A2','B1','C1','B2','A2'],
          'v2': ['A11','A12','B12','C11','B21','A21'],
          'v3': [1,2,3,4,5,6]}
df = pd.DataFrame.from_dict(data)

原文由 alko 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 2 个回答

推荐问题

将 pandas DataFrame 转换为嵌套字典

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译