如何插入大量数据到数据库？

Question

如何插入大量数据到数据库？

发布于
2015-12-26

我处理一个有40多w条的数据的文本，每次取了1w条数据然后存入数据库。我用sqlalchemy定义了下面几个表：

class Position(Base):
    __tablename__ = 'position'
    
    id = Column(...)
    name = Column(...)
    city_id = Column(Integer, ForeignKey('city.id'))

class City(Base):
    __tablename__ = 'city'
    
    id = Column(...)
    name = Column(...)
    positions = relationship('Position', backref='city')

我是这样处理的，每读到1w条数据，就保存到队列中去，然后开一个线程去队列的数据，用sqlalchemy的session.add_all(objs)插入1w条数据，但是我在创建Position对象的时候，是这样的：

city = session.query(City).filter_by(name=name)
if city is None:
    city = City(name=name)
position = Position(name=name)
position.city = city

这样因为是插入的1w条数据，相同的city可能会重复的插入，因为查询判断的时候之前的city还没有插入进去，导致会插入重复的数据。

我对数据库不是很熟悉，将City的name设置为unique是否有用？或者每次用session.add(obj)插入一条，但是这样速度是不是很慢？

求各位大神给意见啊！！！！

数据库

python sqlalchemy

阅读 9.1k

1 个回答

得票最新

egmkang

1.9k226

发布于
2015-12-26

begin
insert
insert
commit

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

如何插入大量数据到数据库？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？