利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

Question

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

发布于
2019-02-13

更新于
2019-02-13

使用wemgaic框架进行爬取页面数据时,利用FileCacheQueueScheduler进行的增量爬取，但是在爬取结束后（需要爬取的数据，都已经记录在urls.txt和cursor.txt两个文件下了），进程无法自动停止，而且还会漏掉一些数据，爬取不到，是因为爬取的数据不完全才导致进程没有停止的吗？还是别的什么原因
因为刚学爬虫，对这些很多都不懂，
希望各位大佬指点，谢谢

webmagic

java

阅读 2.4k

1 个回答

得票最新

ShakaW

8410

发布于
2019-04-04

✓ 已被采纳

根据网上的案例，重写了一下
public class FilesCacheQueueScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler,Closeable
这个方法，判断，保存的urls文件中，有没有之前保存的方法，有的话，则不进行爬取
因他爬取的时候，会先把一部分一部分读取路径，在爬取

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?