scrapy多个spider怎么指定pipeline

结构是这样的

maple/
├── __init__.py
├── items.py
├── models.py
├── pipelines.py
├── settings.py
└── spiders
    ├── news.py
    └── __init__.py

news.py有

class Spider(scrapy.spiders.Spider):
    name = 'news'

和

class BsSpider(scrapy.spiders.Spider):
    name = 'bsnews'

models.py(使用sqlalchemy)有News(base)和BsNews(base)两个表
items.py有NewsItem(scrapy.Item)和BsNewsItem(scrapy.Item)
请教pipelines.py应该怎么写?
只有一个Spider时,scrapy crawl news

       def process_item(self, item, spider):
        exsit_url = self.session.query(News.url).\
            filter_by(url=item['url']).first()
        if not exsit_url:
            news = News()
            news.title = item['title']
            news.url = item['url']
            news.time = item['time']
            news.content = item['content']
             self.session.add(news)
             self.session.commit()

能够正常运行
现在我要运行scrapy crawl bsnews如何指定存储的表为BsNews?
第一次接触scrapy,求大神解答
具体源码

scrapy

python

阅读 16.2k

2 个回答

得票最新

yooz_hardy

463218

发布于
2016-08-02

你可以在 pipeline 里判断是哪个爬虫的结果：

def process_item(self, item, spider):
    if spider.name == 'news':
        #这里写存入 News 表的逻辑
        news = News()
        ...（省略部分代码）
        self.session.add(news)
        self.session.commit()
     elif spider.name == 'bsnews':
        #这里写存入 News 表的逻辑
        bsnews = BsNews()
        ...（省略部分代码）
        self.session.add(bsnews)
        self.session.commit()
        
      return item

对于这种多个爬虫在一个工程里的，需要不同爬虫在 pipeline 里使用不同逻辑的问题 scrapy 的作者是这么解释的。
去看看

阿呆吼

257211

发布于
2017-03-20

stackoverflow看到的，直接为每个spider定义不同的pipeline
http://stackoverflow.com/a/34...

down vote
Just remove all pipelines from main settings and use this inside spider.

This will define the pipeline to user per spider

class testSpider(InitSpider):

name = 'test'
custom_settings = {
    'ITEM_PIPELINES': {
        'app.MyPipeline': 400
    }
}

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

scrapy多个spider怎么指定pipeline

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？