Python 处理亿级数据量有什么方案?

新手上路,请多包涵

最近遇到一个问题,要把2亿多的数据插入到 ES 中。

现在的方案是:生成器分段读取文本内容,再对每行内容进行处理,放入到一个列表

ES 方面是循环这个列表,每次取 500 条批量插入到 ES 中
以上方案速度巨慢,跑了一两个小时才1900万,不到2000万,请问这种情况有什么好的方案?

阅读 2.9k
1 个回答

没太听懂,“ES 方面是循环这个列表,每次取 500 条批量插入到 ES 中” es自己导入新库?
处理慢就多开进程,问题应该是 es如何高效写入 吧 我也不会 百度吧

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题