新手上路，请多包涵

我有一个包含 4 列的（示例）数据框：

 data = {'A': ['a', 'b', 'c', 'd', 'e', 'f'],
    'B': [42, 52, np.nan, np.nan, np.nan, np.nan],
    'C': [np.nan, np.nan, 31, 2, np.nan, np.nan],
    'D': [np.nan, np.nan, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(data, columns = ['A', 'B', 'C', 'D'])

    A   B       C       D
0   a   42.0    NaN     NaN
1   b   52.0    NaN     NaN
2   c   NaN     31.0    NaN
3   d   NaN     2.0     NaN
4   e   NaN     NaN     62.0
5   f   NaN     NaN     70.0

我现在想将 B、C 和 D 列合并/合并到一个新的 E 列，如本例所示：

 data2 = {'A': ['a', 'b', 'c', 'd', 'e', 'f'],
    'E': [42, 52, 31, 2, 62, 70]}
df2 = pd.DataFrame(data2, columns = ['A', 'E'])

    A   E
0   a   42
1   b   52
2   c   31
3   d   2
4   e   62
5   f   70

我在这里发现了一个非常相似的问题，但这在 A 列的末尾添加了合并的 B、C 和 D 列：

 0      a
1      b
2      c
3      d
4      e
5      f
6     42
7     52
8     31
9      2
10    62
11    70
dtype: object

感谢帮助。

原文由 mati 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas dataframe merge multiple-columns

阅读 336

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

选项1

使用 assign 和 drop

 In [644]: cols = ['B', 'C', 'D']

In [645]: df.assign(E=df[cols].sum(1)).drop(cols, 1)
Out[645]:
   A     E
0  a  42.0
1  b  52.0
2  c  31.0
3  d   2.0
4  e  62.0
5  f  70.0

选项 2

使用分配和 drop

 In [648]: df['E'] = df[cols].sum(1)

In [649]: df = df.drop(cols, 1)

In [650]: df
Out[650]:
   A     E
0  a  42.0
1  b  52.0
2  c  31.0
3  d   2.0
4  e  62.0
5  f  70.0

选项 3 最近，我喜欢第三个选项。

使用 groupby

 In [660]: df.groupby(np.where(df.columns == 'A', 'A', 'E'), axis=1).first() #or sum max min
Out[660]:
   A     E
0  a  42.0
1  b  52.0
2  c  31.0
3  d   2.0
4  e  62.0
5  f  70.0

In [661]: df.columns == 'A'
Out[661]: array([ True, False, False, False], dtype=bool)

In [662]: np.where(df.columns == 'A', 'A', 'E')
Out[662]:
array(['A', 'E', 'E', 'E'],
      dtype='|S1')

原文由 Zero 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-09

所写的问题要求合并/合并而不是求和，因此发布此问题以帮助找到此答案的人寻求有关使用 combine_first 合并的帮助，这可能有点棘手。

 df2 = pd.concat([df["A"],
             df["B"].combine_first(df["C"]).combine_first(df["D"])],
            axis=1)
df2.rename(columns={"B":"E"}, inplace=True)
   A     E
0  a  42.0
1  b  52.0
2  c  31.0
3  d  2.0
4  e  62.0
5  f  70.0

这有什么难的？在这种情况下没有问题 - 但假设您从不同的数据帧中提取 B、C 和 D 值，其中存在 a、b、c、d、e、f 标签，但不一定以相同的顺序。 combine_first() 在索引上对齐，因此您需要将 set_index() 添加到每个 df 引用上。

 df2 = pd.concat([df.set_index("A", drop=False)["A"],
             df.set_index("A")["B"]\
             .combine_first(df.set_index("A")["C"])\
             .combine_first(df.set_index("A")["D"]).astype(int)],
            axis=1).reset_index(drop=True)
df2.rename(columns={"B":"E"}, inplace=True)

   A   E
0  a  42
1  b  52
2  c  31
3  d  2
4  e  62
5  f  70

原文由 user9435927 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何合并/合并熊猫中的列？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译