Python爬虫数据合并：应该先在list中合并再转pandas处理

疑惑

在pandas文档中看到，不建议频繁使用append追加数据，而是使用concat连接，能够提高效率。

于是想到，这样操作已有DataFrame时可能没别的办法，但是在爬虫中，经常是分批采集到数据，那应该在每个线程中转为DataFrame再最后合并，还是应该先用list追加（extand/append）最后再转为DataFrame？

于是自己测试一下，发现结果list处理比频繁转换DataFrame效率高得多。

所以，爬虫中应该先使用list存储、更新数据，抓取结束后再使用pandas处理。

测试如下

1. 使用pandas直接转为DataFrame，最后再concat合并

t = time.perf_counter()
pd1 = pd.concat([pd.DataFrame([[i, i, i, i]], columns=['0', '1', '2', '3']) for i in range(1000)],
                ignore_index=True)
t = time.perf_counter() - t
print(pd1)
print('任务全部完成耗时：', t)

输出：

[1000 rows x 4 columns]
任务全部完成耗时： 0.47608409999998

2. 使用list合并，最后使用pandas直接转为DataFrame

t = time.perf_counter()
lst = []
for i in range(1000):
    lst.extend([[i, i, i, i]])
pd1 = pd.DataFrame(lst, columns=['0', '1', '2', '3'])
t = time.perf_counter() - t
print(pd1)
print('任务全部完成耗时：', t)

输出：

[1000 rows x 4 columns]
任务全部完成耗时： 0.002777700000024197

Python爬虫数据合并：应该先在list中合并再转pandas处理

疑惑

测试如下

1. 使用pandas直接转为DataFrame，最后再concat合并

2. 使用list合并，最后使用pandas直接转为DataFrame

二毛erma0

引用和评论

frida-rpc实现某一短视频刷邀请

Anaconda安装教程以及Anaconda和pip配置国内镜像

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

怎么判断自己下载的 trae 是国际版还是国内版？