pyspider 调用PhantomJS 进行DOM 操作？

代码：
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-09-28 01:03:55


from pyspider.libs.base_handler import *
import re

import random

import requests



class Handler(BaseHandler):    
    headers= {
                          "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding":"gzip, deflate, sdch",
    "Accept-Language":"zh-CN,zh;q=0.8",
    "Cache-Control":"max-age=0",
    "Connection":"keep-alive",
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"
    }
        
        
        
    crawl_config = {
        "timeout" : 20000,
        
        "headers" : headers,
        
    }

    @every(minutes=24 * 60)
    def on_start(self):
        url = ['http://36.48.62.24:8704/DataQuery/doublePublicity/sgsBm/jilin_xzcf',
               'http://36.48.62.24:8704/DataQuery/doublePublicity/sgsDq/jilin_xzcf'
              ]
        for i in url:
            self.crawl(i,callback=self.index_page,timeout = 200,fetch_type='js')

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('*').items():
            if each.attr.href:
                if re.findall(r'sjly',each.attr.href):
                   
                #url = 'http://cxcj.creditbj.gov.cn/%s'%each.attr.value1
                    self.crawl(each.attr.href, callback=self.index_page2,timeout = 200,fetch_type='js')
                    
                    
    @config(age=10 * 24 * 60 * 60)
    def index_page2(self, response):
        for each in response.doc('*').items():
            if each.attr.href:
                if re.findall(r'sgsDataInfo/jilin_xzcf',each.attr.href):
                    self.crawl(each.attr.href, callback=self.detail_page,timeout = 200,fetch_type='js')
        
        self.crawl('%s#more'%(response.url), callback=self.index_page2,timeout = 2000,fetch_type='js', js_script="""
                    function() {document.querySelectorAll("span > .f_black")[document.querySelectorAll("span > .f_black").length-2].click();}""")
                      

    @config(priority=5)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
            "text": response.doc('td').text(),
        }
执行的是一个向下翻页的功能，测试的时候偶尔会生效，不知道是什么原因造成的。
阅读 2.9k
pyspider 调用PhantomJS 进行DOM 操作？

你尚未登录，登录后可以