第一列相同，如何高效计算第二节列不同个数

伯爵David

发布于
2018-01-27

dokelung

4.9k1516

更新于
2018-01-28

新手上路，请多包涵

目前有上亿条如下数据:

1517021612555，777
1517021612555，778
1517021612553，777
1517021612555，779
1517021612556，779
....
1517021612557，7778
1517021612558，7790
1517021612558，7790

用什么方法可以可以进行如下计算，速度要快:

1517021612555，3
1517021612553，1
1517021612556，3
1517021612557，1
1517021612558，2

python

阅读 2.2k

2 个回答

得票最新

lambdawn

4604

发布于
2018-01-30

可以提供一个方法，不过亿级数据能不能快，我没测过。
假设你的数据存在test.txt里:

import pandas as pd
df = pd.read_csv("test.txt", names=["a", "b"])
result = df["b"].groupby(df["a"]).nunique()

剑心无痕

3.4k1516

发布于
2018-01-30

更新于
2018-01-30

假如你的文件1.txt, 编码格式utf-8

import pandas as pd
df = pd.read_csv('1.txt', header=None, sep='，', encoding='utf-8', names=['a', 'b'])
df.groupby('a')['b'].count()    # 非去重版groupby
df.groupby('a')['b'].apply(lambda b: b.drop_duplicates().count()) # 去重版groupby

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

第一列相同，如何高效计算第二节列不同个数

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？