背景: 目前在做网站的爬取工作,想通过url地址获取网页源码。 问题: 有的网站的“下一页”按钮,点击后,地址栏中的url并没有发生变化,但是却实现了翻页功能。请问如何能够获取到实际请求的url地址。
背景: 目前在做网站的爬取工作,想通过url地址获取网页源码。 问题: 有的网站的“下一页”按钮,点击后,地址栏中的url并没有发生变化,但是却实现了翻页功能。请问如何能够获取到实际请求的url地址。
15 回答8.4k 阅读
8 回答6.2k 阅读
1 回答4k 阅读✓ 已解决
3 回答6k 阅读
3 回答2.2k 阅读✓ 已解决
2 回答3.1k 阅读
2 回答3.8k 阅读
应该是ajax动态加载的(具体我也不清楚,没学过ajax),点击下一页后主要加载了两个文件,如下:

GetHotelRoomSet/isajax/List包含了一些酒店的信息,只需要把这些信息在http://hotel.elong.com/wuxi/star5.html上更新即可,不需要请求新的url。而另一个文件是一些最新的订酒店信息。
你要抓的酒店数据其实都在GetHotelRoomSet/isajax/List里面,它的url如下:
form data:
