原网页及使用chrome检查结果如图:
我的目的是提取该二手房所在的小区信息,包括小区均价,建筑年代,建筑类型,楼栋总数,户型总数,源代码为:
>>>from lxml import etree
>>>import requests
>>>url = 'http://bj.lianjia.com/chengjiao/101101498110.html'
>>>r = requests.get(url)
>>>xiaoqu_avg_price = tree.xpath('//*[@id="resblockCardContainer"]/div/div/div[2]/div/div[1]/span/text()')
>>>xiaoqu_avg_price
[]
返回结果为空。进一步查看html源代码发现此处为:
请问我该如何获取我想要的信息?源代码中的resblockCard是什么?谢谢
不用看源码,里边很多都是用的模版函数,resblockCard是个入参,其实只要看检查元素里面的dom结构就可以了,利用BeautifulSoup,用获取dom节点数据的方式很容易爬链家的数据的。