如何在 pandas 中将 .loc 与 groupby 和两个条件一起使用

新手上路,请多包涵

在这里 问了一个类似的问题,但我想扩展这个问题,因为我被要求在我不能使用 .duplicates() 的地方做一些不同的事情

我有一个按“Key”分组的 df。我想标记出院日期与入院日期匹配的组中的任何行,并且在这些行之间,出院日期的行的 num1 值在 5-12 范围内。

 df =  pd.DataFrame({'Key': ['10003', '10003', '10003', '10003', '10003','10003','10034', '10034'],
   'Num1': [12,13,13,13,12,13,15,12],
   'Num2': [121,122,122,124,125,126,127,128],
  'admit': [20120506, 20120508, 20121010,20121010,20121010,20121110,20120520,20120520],  'discharge': [20120508, 20120510, 20121012,20121016,20121023,20121111,20120520,20120520]})
df['admit'] = pd.to_datetime(df['admit'], format='%Y%m%d')
df['discharge'] = pd.to_datetime(df['discharge'], format='%Y%m%d')

初始 df

     Key     Num1    Num2    admit       discharge
0   10003   12      121     2012-05-06  2012-05-08
1   10003   13      122     2012-05-08  2012-05-10
2   10003   13      122     2012-10-10  2012-10-12
3   10003   13      124     2012-10-10  2012-10-16
4   10003   12      125     2012-10-10  2012-10-23
5   10003   13      126     2012-11-10  2012-11-11
6   10034   15      127     2012-05-20  2012-05-20
7   10034   12      128     2012-05-20  2012-05-20

最终的df

     Key     Num1    Num2    admit       discharge   flag
0   10003   12      121     2012-05-06  2012-05-08  1
1   10003   13      122     2012-05-08  2012-05-10  1
2   10003   13      122     2012-10-10  2012-10-12  0
3   10003   13      124     2012-10-10  2012-10-16  0
4   10003   12      125     2012-10-10  2012-10-23  0
5   10003   13      126     2012-11-10  2012-11-11  0
6   10034   15      127     2012-05-20  2012-05-20  1
7   10034   12      128     2012-05-20  2012-05-20  1

我试图使用 filter() 但我不太清楚如何将 any() 应用于出院日期。我的逻辑是选择一组中的第一个入院日期,然后在每个出院日期中检查该日期,一旦匹配,然后检查具有相同出院日期的行是否在 Num1 中具有 5-12 范围内的值.

 num1_range = [5,6,7,8,9,10,11,12]
df.loc[df.groupby(['Key']).filter(lambda x : (x['admit'] == x['discharge'].any())&(x['Num1'].isin(num1_range).any())),'flag']=1

我收到一个错误

ValueError: cannot set a Timestamp with a non-timestamp

原文由 CandleWax 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 698
2 个回答

我相信您正在寻找满足 flag = True 的两个条件之一:

  1. 入院日期等于组内的 任何 出院日期 ( Key )。
  2. 出院日期等于组内的 任何 入院日期,前提是 Num1 在 5 到 12(含)范围内。

以下逻辑产生符合您所需输出的结果。

解决方案

d1 = df.groupby('Key')['admit'].apply(set).to_dict()
d2 = df.groupby('Key')['discharge'].apply(set).to_dict()

def flagger(row):
    match1, match2 = row['discharge'] in d1[row['Key']], row['admit'] in d2[row['Key']]
    return match2 or (match1 and (row['Num1'] in range(5, 13)))

df['flag'] = df.apply(flagger, axis=1).astype(int)

结果

     Key  Num1  Num2      admit  discharge  flag
0  10003    12   121 2012-05-06 2012-05-08     1
1  10003    13   122 2012-05-08 2012-05-10     1
2  10003    13   122 2012-10-10 2012-10-12     0
3  10003    13   124 2012-10-10 2012-10-16     0
4  10003    12   125 2012-10-10 2012-10-23     0
5  10003    13   126 2012-11-10 2012-11-11     0
6  10034    15   127 2012-05-20 2012-05-20     1
7  10034    12   128 2012-05-20 2012-05-20     1

解释

  • 分别创建 2 个字典映射 Key -> Admit dates 和 Key -> Discharge dates。
  • 使用这两个字典应用 pd.DataFrame.apply 行指定的标准。

原文由 jpp 发布,翻译遵循 CC BY-SA 3.0 许可协议

让我们将过滤分解为几个步骤。一、创建过滤条件

conditions = "(x['discharge'].isin(x['admit'])) & (x['Num1'] >= 5) & (x['Num1'] <= 12)"

我选择将 conditions 存储为字符串,因为它看起来更清晰,便于下一步格式化。但是,过滤器命令将用于检查数据帧中的 key 是否有任何放电时间等于入场时间。 And will also check if Num1 at the discharge time is between 5 and 12. Now we run the groupby operation and evaluate conditions

 filter = df.groupby('Key').apply(lambda x: pd.eval(conditions))
filter.index = filter.index.droplevel(0)

filter 将输出这个

0     True
1    False
2    False
3    False
4    False
5    False
6    False
7     True
dtype: bool

filter 提供一些布尔标志是 conditions 为真。最后一步是添加标记 admit 次等于 dischagre 次,这可以通过将初始数据帧与用于提取索引的过滤位置合并来完成 admit 标志。

 dex = df.merge(df[filter.values],left_on=['Key','admit'],right_on=['Key','discharge'],how='left').dropna().index

最后设置 flags 其中任一条件为 True

 df['flag'] = (filter | df.index.isin(dex)).astype(int)

完整代码:

 conditions = "(x['discharge'].isin(x['admit'])) & (x['Num1'] >= 5) & (x['Num1'] <= 12)"
filter = df.groupby('Key').apply(lambda x: pd.eval(conditions))
filter.index = filter.index.droplevel(0)
dex = df.merge(df[filter.values],left_on=['Key','admit'],right_on=['Key','discharge'],how='left').dropna().index
df['flag'] = (filter | df.index.isin(dex)).astype(int)

输出:

      Key  Num1  Num2      admit  discharge  flag
0  10003    12   121 2012-05-06 2012-05-08     1
1  10003    13   122 2012-05-08 2012-05-10     1
2  10003    13   122 2012-10-10 2012-10-12     0
3  10003    13   124 2012-10-10 2012-10-16     0
4  10003    12   125 2012-10-10 2012-10-23     0
5  10003    13   126 2012-11-10 2012-11-11     0
6  10034    15   127 2012-05-20 2012-05-20     1
7  10034    12   128 2012-05-20 2012-05-20     1

原文由 DJK 发布,翻译遵循 CC BY-SA 3.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题