试图从网站上抓数据,如果是静态的网页,整个数据库以文本的形式在网页上似乎不是难事。但是,有些网站的数据是动态生成的。例如:需要用户输入关键字,选择时间段进行搜索后生成数据表格,或者需要手动点击多级链接后出现数据表格。对此类网页抓数据的方法毫无头绪。求一个相对简单的解决方案,只要能解决问题就行,不局限于一定要使用某一软件或语言。
要抓的网页例子:
http://meps.ahrq.gov/mepsweb/data_stats/quick_tables_search.jsp?component=1&subcomponent=0
次站是需要进行关键字搜索,通过站内搜索引擎获得数据表
http://apps.who.int/gho/data/node.main
次站需要点击多级链接后生成数据表
万分感谢愿意提供思路的前辈!
意识到了问题的难度,想试图简化这个问题。有什么可以批量抓取静态网页的包或软件可以推荐吗?简易也没关系,最好是可以拿来就用,多多益善。谢谢!
动态生成的肯定能抓取到他ajax提交的地址吧,能抓取到地址就模拟数据提交一下,返回的都是你要的数据吧.哪就ok了吧.