我现在有一个行数很多的数据集,需要用这些数据集做分类算法,数据实在太多需要采样
数据集部分如下:
比如说我想每取10行放到一个新的文件中,就是取这个数据集的第1行,第11行,第21行。。。直到文本最后,放到一个新的文件中,用Python如何实现呢?
希望的结果如下:
我现在有一个行数很多的数据集,需要用这些数据集做分类算法,数据实在太多需要采样
数据集部分如下:
比如说我想每取10行放到一个新的文件中,就是取这个数据集的第1行,第11行,第21行。。。直到文本最后,放到一个新的文件中,用Python如何实现呢?
希望的结果如下:
# 先得知道文件有多少行,linux下 `wc -l filename`,或者
line_count = sum(1 for i in open(filename))
# 然后pandas
pd.read_csv(filename, skiprows=(i for i in range(line_count) if i % 9 == 0))
# 如果文件不大,可以一次性读入内存
pd.read_csv(filename)[::10]
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决