想爬取 http://47.99.86.238/portal/li... 该网站的数据,采用的是 scrapy,其他都设置好了,唯独有一项值获取是None,各位麻烦帮忙看看。
我自己使用插件可以匹配到值,但是在程序中storyMale打印的结果是None。
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
# 爬虫名称
name = 'sister_story_spider'
# 允许使用的域名
allowed_domains = ['http://47.99.86.238']
# 爬虫开始的域名
start_urls = ['http://47.99.86.238/portal/list/index/id/11.html']
def parse(self, response):
# 解析第一行数据
data_list = response.xpath("//div[@id='List']")
for data_item in data_list:
# 实例化对象
sisterStoryDataItem = SisterStoryDataItem()
# 设置并读取详细的数据
sisterStoryDataItem['storyFeMale'] = data_item.xpath(".//span//span//text()").extract_first()
print('storyFeMale is: ', sisterStoryDataItem['storyFeMale'])
sisterStoryDataItem['storyMale'] = data_item.xpath("normalize-space(.//div[@class='H-flex-item H-margin-vertical-both-10 H-margin-10']//div[@class='wz1wz H-theme-font-color-333 H-font-size-14 H-text-horizontal-left H-text-show-row-2']//text())").extract_first()
print('storyMale is: '.format(sisterStoryDataItem['storyMale']))
sisterStoryDataItem['storySort'] = data_item.xpath(".//span[@class='H-display-block H-flex-item H-text-align-right H-theme-font-color-999 H-font-size-12']//text()").extract_first()
print('storySort is: ', sisterStoryDataItem['storySort'])
你期待的结果是什么?实际看到的错误信息又是什么?
期待的结果是能够匹配到具体的值,但是目前是无法匹配到的。
错误日志如下:
text()前面一个/就可以了
http://www.youngtxt.com/