Scrapy+phantonjs 爬去速度过慢？

发布于
2017-01-26

scrapy 运行日志

**************ProxyMiddleware not pass************171.38.66.23:9999
2017-01-26 23:05:38 [selenium.webdriver.remote.remote_connection] DEBUG: POST http://127.0.0.1:57234/wd/hub/session {"desiredCapabilities": {"browserName": "phantomjs", "version": "", "platform": "ANY", "javascriptEnabled": true}, "requiredCapabilities": {}}
2017-01-26 23:05:38 [selenium.webdriver.remote.remote_connection] DEBUG: Finished Request
2017-01-26 23:05:38 [selenium.webdriver.remote.remote_connection] DEBUG: POST http://127.0.0.1:57234/wd/hub/session/e5c0aeb0-e3d8-11e6-a629-15e39efe8c5a/url {"url": "Matweb Engineering Materials List", "sessionId": "e5c0aeb0-e3d8-11e6-a629-15e39efe8c5a"}

phantonjs 中间件代码：

def process_request(self, request, spider):
        driver = webdriver.PhantomJS(executable_path=r"/Users/apple/phantomjs-2.1.1-macosx/bin/phantomjs")
        driver.get(request.url)
        body = driver.page_source
        print ("访问"+request.url)
        return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)

每次执行到selenium.webdriver.remote.remote_connection 。都会卡上20s，请问这是为什么？

scrapy phantomjs python3.x

阅读 5.9k

3 个回答

Xavier

最近我在试着爬取淘宝搜索结果，也是同样的问题，请教了一下我的一位前辈。在proess_request方法的第一行打印一下时间戳，发现url传入这里的时候似乎是以同步的方式逐个发送过来的，而这里返回了HtmlResponse，意味着请求将不会进入下载器（Downloader）。因此有可能这里的下载并不是以异步的方式处理的，如果希望以异步的方式进行处理，可能需要自己手写异步方法。

FreeLoop

2512922

发布于
2017-03-08

速度慢的原因有很多，电脑配置，网络原因等等。
如果想要提高速率，我们可以设置相关参数，使其不加载我们不需要的资源，比如图片，视频等等这些文件比较大的文件。如果你不想加载这些数据，可以进行如下设置

    #不加载图片
    dcap["phantomjs.page.settings.loadImages"] = False

具体可参考：phantomjs设置

xiong1000

1095711

发布于
2017-04-05

@FreeLoop 写的极是！
具体dcap的加法，请参看下面的链接
设置PHANTOMJS的USER-AGENT

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？
之前一直是好好的，代码也没变过，突然就报这个错误，并且在mac上是好的，我把win11上的代码移除重新从仓库里拉代码下拉也是一样的错误，是不是win上文件编码必须是gbk格式的。我用vscode编辑器右下角显示所有的文件都是UTF-8的，是不是都要把它转成gbk？
1 回答1.1k 阅读

Scrapy+phantonjs 爬去速度过慢？

你尚未登录，登录后可以

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？