Pandas数据框去重复（AB、BA类型）

从string-db下载蛋白质相互作用的信息，在处理时发现蛋白A与B互作被记录了两次比如下边的例子（即AB、BA）

df.drop_duplicates()
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Pdcl2  Gnai3
# Gm4340  Gm3376
# Gm3376  Gm4340

而且drop_duplicates不能去除重复，因为他们在不同的列，因此可以想个方法，新建一列。

字符串的比较大小是根据字符串按位比较，两个字符串第一位字符的ascii码谁大，字符串就大，不再比较后面的，比如

"Gnai3">"Pdcl2"
# False

对axis=1是对每一行循环，总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3  Pdcl2 Pdcl2-Gnai3
# Pdcl2  Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376

这个时候再对temp的行去重复，就可以了

df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376

最后再删除temp列

df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Gm4340  Gm3376

Pandas数据框去重复（AB、BA类型）

生信探索

引用和评论

100个GEO基因表达芯片或转录组数据处理(16) GSE98895 GPL15207

Anaconda安装教程以及Anaconda和pip配置国内镜像

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Python 描述符

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）