利用爬虫爬取链家二手房所在小区数据时遇到的问题

新手上路,请多包涵

原网页及使用chrome检查结果如图:

图片描述

我的目的是提取该二手房所在的小区信息,包括小区均价建筑年代建筑类型楼栋总数户型总数,源代码为:

>>>from lxml import etree
>>>import requests
>>>url = 'http://bj.lianjia.com/chengjiao/101101498110.html'
>>>r = requests.get(url)
>>>xiaoqu_avg_price = tree.xpath('//*[@id="resblockCardContainer"]/div/div/div[2]/div/div[1]/span/text()')
>>>xiaoqu_avg_price
[]

返回结果为空。进一步查看html源代码发现此处为:

图片描述

请问我该如何获取我想要的信息?源代码中的resblockCard是什么?谢谢

阅读 7k
1 个回答

不用看源码,里边很多都是用的模版函数,resblockCard是个入参,其实只要看检查元素里面的dom结构就可以了,利用BeautifulSoup,用获取dom节点数据的方式很容易爬链家的数据的。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进