def process_item(self, item, spider):
print('打印的文件地址和名字为')
print(item['file_url'], item['name'])
key_word = {"file_url": item['file_url'], "name": item['name']}
res = self.db.find(key_word)
if res:
print('查到数据量')
raise DropItem("Duplicate item found: %s" % item)
else:
print('*****************************进入数据库**************************************************')
self.db.insert({"file_url": item['file_url'], "name": item['name']})
return item
这是数据库查到的,我上面的那个联合组键判断好像不对,因为程序根本没有那个url和name 还是进来,dropitme求指教
db.XiaoMiQuan.find()
{ "_id" : ObjectId("5bbf14dbc96b5b3f5627d11d"), "file_url" : "https://baogaocos.seedsufe.com/2018/07/19/doc_1532004923556.pdf", "name" : "AMCHAM-中国的“一带一路”:对美国企业的影响(英文)-2018.6-8页.pdf" }