一个关于过滤+去重的脚本疑问

Question

一个文件，每行都有起始ip的十进制整数，结束ip的十进制整数，地区名称三个字段。

因为地区字段可能重复，我想根据地区名称作为去重字段，并保留最小的起始ip，最大的结束ip。

目前是可以通过内存存对象，或者插数据库写sql来解决。

我想知道python是否有直接处理这种情况的库，魔法函数之类的？顺便问下awk是不是更适合处理这种文本？

阅读 2.5k

1 个回答

得票最新

找到个pandas模块，类似这样的代码
result = data.groupby('地区字段')['开始ip'].min()['结束ip'].max()，不清楚能不能实现，回头可以研究一下

撰写回答

推荐问题

相似问题

找不到问题？创建新问题