2

背景
前段时间很多成都的朋友准备买房,遇到了各种问题。有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来;有的没有2年社保或户口买房;现在人才落户放宽后,有机会买房了,却又发现很多地方需要全款。那么现在成都二手房的情况究竟怎么样了?到底该买哪个区的呢?

思路

  1. 使用爬虫从链家爬取二手房的数据

  2. 将数据导入可视化分析平台

  3. 制作透视图

这里使用的可视化分析平台是公司内部开发平台,我直接拿来用用看下能否做出什么有意思的图出来。

结果
虫子爬取到的单条数据:

{'area': 85.21,
 'average_price': '17017',
 'city': '锦江',
 'community': '翡翠城四期  ',
 'focus_num': '117',
 'house_id': '106100521101',
 'last_buy_time': '2011-02-16',
 'link': 'https://cd.lianjia.com/ershoufang/106100521101.html',
 'location': '104.102412,30.618452',
 'model': ' 2室1厅 ',
 'price': 1450000.0,
 'publish_time': '2017-07-27',
 'title': '翡翠城四期 套二 有装修 有阳台',
 'watch_num': '81'}

对虫子进行了升级,能够拿到地理数据和发布时间了。

成都二手房每平方米的平均价格:
成都二手房

遇到的问题
首先我在知乎上找到一个分析北京房价的虫子,于是我下载下来准备用来收集成都的,但是却发现很久没维护,虫子跑不动了,于是我改了改,让虫子重新跑起来。虫子在爬取链家数据的时候,当爬取到3000多条的时候,遇到了链家的反爬虫策略,让输入验证码,我也就爬一次看看,并不想浪费太多的时间在验证码的识别上。网上有朋友告诉我使用和浏览器一样的hears和cache就可以,于是我试了一下,发现果然可行。

下面是我的虫子的地址,感兴趣的朋友,可以下载下来试试:
https://github.com/BlackKnigh...
但是,hears和cache的那部分代码因为在笔记本上,没有来得及push。估计下周一去push。


NicolasHe
325 声望11 粉丝

千日修以返初心,万日练以达极真