背景
前段时间很多成都的朋友准备买房,遇到了各种问题。有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来;有的没有2年社保或户口买房;现在人才落户放宽后,有机会买房了,却又发现很多地方需要全款。那么现在成都二手房的情况究竟怎么样了?到底该买哪个区的呢?
思路
使用爬虫从链家爬取二手房的数据
将数据导入可视化分析平台
制作透视图
这里使用的可视化分析平台是公司内部开发平台,我直接拿来用用看下能否做出什么有意思的图出来。
结果
虫子爬取到的单条数据:
{'area': 85.21,
'average_price': '17017',
'city': '锦江',
'community': '翡翠城四期 ',
'focus_num': '117',
'house_id': '106100521101',
'last_buy_time': '2011-02-16',
'link': 'https://cd.lianjia.com/ershoufang/106100521101.html',
'location': '104.102412,30.618452',
'model': ' 2室1厅 ',
'price': 1450000.0,
'publish_time': '2017-07-27',
'title': '翡翠城四期 套二 有装修 有阳台',
'watch_num': '81'}
对虫子进行了升级,能够拿到地理数据和发布时间了。
成都二手房每平方米的平均价格:
遇到的问题
首先我在知乎上找到一个分析北京房价的虫子,于是我下载下来准备用来收集成都的,但是却发现很久没维护,虫子跑不动了,于是我改了改,让虫子重新跑起来。虫子在爬取链家数据的时候,当爬取到3000多条的时候,遇到了链家的反爬虫策略,让输入验证码,我也就爬一次看看,并不想浪费太多的时间在验证码的识别上。网上有朋友告诉我使用和浏览器一样的hears和cache就可以,于是我试了一下,发现果然可行。
下面是我的虫子的地址,感兴趣的朋友,可以下载下来试试:
https://github.com/BlackKnigh...
但是,hears和cache的那部分代码因为在笔记本上,没有来得及push。估计下周一去push。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。