请问为什么这个爬虫没有爬出内容啊

item.py

python-*- coding: utf-8 -*
import scrapy
class BokeItem(scrapy.Item):
    url=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()

boke_spider.py

python-*- coding: utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider ,Rule
from scrapy.contrib.linkextractors import LinkExtractor
from boke.items import BokeItem

class BokeItem(CrawlSpider):
    name = 'blog'
    start_urls =['http://blog.sina.com.cn/s/blog_4701280b0102eo83.html']

    def parse_torrent(self,response):
        torrent=BokeItem()
        torrent['url']=response.url
        torrent['title']=response.xpath("//h2[@class='titName SG_txta']/text()").extract()[0]
        torrent['content']=response.xpath("//div[@style='min-height:22px']/text()").extract()[0]
        return  torrent
阅读 5.4k
3 个回答

from scrapy.contrib.spiders import CrawlSpider ,Rule

你调用的是CrawlSpider类,但是显然没有写任何的规则

建议改为Spider类,并将parse_torrent改名为parse,如下:

from scrapy.contrib.spiders import Spider
from boke.items import BokeItem
class BokeItem(Spider):

试试去看看官方doc

试试看看这个博客,专门针对scrapy

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题