关于Pandas数据分组展示

用Pandas建立一个DataFrame的数据:

流水号 处理人 处理时间
10000 张三 2016-10-01
10000 李四 2016-10-02
10001 王五 2016-10-01
10002 赵六 2016-10-03
10001 黄七 2016-10-02
10000 吴八 2016-10-03

要如何处理才能按流水号分组,然后将处理人合并展示(用、或者其他字符连接),类似下表:

流水号 处理人
10000 张三、李四、吴八
10001 王五、黄七
10002 赵六

或者不用Pandas,其他的方法也可以

阅读 8.3k
3 个回答

感觉是个挺典型的groupby函数例子:

cols = ['流水号', '处理人', '处理时间']
data = [[10000, '张三', '2016-10-01'],
        [10000, '李四', '2016-10-02'],
        [10001, '王五', '2016-10-01'],
        [10002, '赵六', '2016-10-03'],
        [10001, '黄七', '2016-10-02'],
        [10000, '吴八', '2016-10-03']]
frame = pd.DataFrame(data,columns=cols)

def combination(names):
    return ','.join(names)
    
frame.groupby('流水号').aggregate(combination)

输出结果应该是这样:

In [12]: frame.groupby('流水号').aggregate(combinition)
Out[12]: 
            处理人                              处理时间
流水号                                              
10000  张三,李四,吴八  2016-10-01,2016-10-02,2016-10-03
10001     王五,黄七             2016-10-01,2016-10-02
10002        赵六  

python3

import pandas as pd

cols = ['流水号', '处理人', '处理时间']
data = [[10000, '张三', '2016-10-01'],
        [10000, '李四', '2016-10-02'],
        [10001, '王五', '2016-10-01'],
        [10002, '赵六', '2016-10-03'],
        [10001, '黄七', '2016-10-02'],
        [10000, '吴八', '2016-10-03']]

df = pd.DataFrame(data,columns=cols)
grp = [(n, ','.join([r for r in set(df[df['流水号']==n]['处理人'])]))
                       for n in set(df['流水号'])]

df2 = pd.DataFrame(grp, columns=cols[:-1])
print(df)
print(df2)
cols = ['流水号', '处理人', '处理时间']
data = [[10000, '张三', '2016-10-01'],
        [10000, '李四', '2016-10-02'],
        [10001, '王五', '2016-10-01'],
        [10002, '赵六', '2016-10-03'],
        [10001, '黄七', '2016-10-02'],
        [10000, '吴八', '2016-10-03']]
frame = pd.DataFrame(data,columns=cols)
df_result=pd.DataFrame(frame.groupby("流水号")["处理人"].apply(lambda x:",".join(x)))
df_result
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
1 篇内容引用
推荐问题
宣传栏