python 中scrapy 中mongodb 去重后下载 如何写?

def process_item(self, item, spider):

    url = item['file_url']
    name = item['name']

    result = self.post.aggregate(
        [
            {"$group": {"_id": {"url": url, "name": name}}}
        ]
    )
    if result:
        pass
    else:

        self.post.insert({"url": url, "name": name})
        return item

def file_path(self, request, response=None, info=None):
    return request.meta.get('filename', '')

def get_media_requests(self, item, info):
    file_url = item['file_url']
    meta = {'filename': item['name']}
    yield Request(url=file_url, meta=meta)
    

这里我继承了一个pipeline 然后 用组合键判断去重 后然后下载,否则不下载,这个如何写?

阅读 1.9k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题