在<利用Python进行数据分析>中有一个根据出生年、性别分组后计算姓名占比的示例, 相关代码如下:
def add_prop(group):
group['prop'] = group.births / group.births.sum()
return group
names = names.groupby(['year', 'sex']).apply(add_prop)
这部分有些不理解, 希望得到各位的指教
apply中函数的执行方式, 是把names分组后分别传到函数中, 执行再返回, 还是针对分组后的表的每一行执行apply中的函数?
如果是传到函数中再返回的话, 返回的每一个组是怎么合并在一起的呢?
如果是针对分组表的每一行分别执行的话, 为何函数还要return呢?
我的理解
简单点说
一个df 打散成几个小的df 然后每个小的df内部做相似的确处理 再组合起来
因为这里没用agg 所以组合不是问题