背景: 目前在做网站的爬取工作,想通过url地址获取网页源码。 问题: 有的网站的“下一页”按钮,点击后,地址栏中的url并没有发生变化,但是却实现了翻页功能。请问如何能够获取到实际请求的url地址。
背景: 目前在做网站的爬取工作,想通过url地址获取网页源码。 问题: 有的网站的“下一页”按钮,点击后,地址栏中的url并没有发生变化,但是却实现了翻页功能。请问如何能够获取到实际请求的url地址。
8 回答6.5k 阅读
4 回答704 阅读✓ 已解决
2 回答3.4k 阅读
3 回答1.9k 阅读✓ 已解决
1 回答2.2k 阅读✓ 已解决
1 回答2.1k 阅读✓ 已解决
1 回答972 阅读✓ 已解决
应该是ajax动态加载的(具体我也不清楚,没学过ajax),点击下一页后主要加载了两个文件,如下:

GetHotelRoomSet/isajax/List包含了一些酒店的信息,只需要把这些信息在http://hotel.elong.com/wuxi/star5.html上更新即可,不需要请求新的url。而另一个文件是一些最新的订酒店信息。
你要抓的酒店数据其实都在GetHotelRoomSet/isajax/List里面,它的url如下:
form data:
