关于网站抓数据的问题【菜鸟】

试图从网站上抓数据,如果是静态的网页,整个数据库以文本的形式在网页上似乎不是难事。但是,有些网站的数据是动态生成的。例如:需要用户输入关键字,选择时间段进行搜索后生成数据表格,或者需要手动点击多级链接后出现数据表格。对此类网页抓数据的方法毫无头绪。求一个相对简单的解决方案,只要能解决问题就行,不局限于一定要使用某一软件或语言。

要抓的网页例子:

http://meps.ahrq.gov/mepsweb/data_stats/quick_tables_search.jsp?component=1&subcomponent=0
次站是需要进行关键字搜索,通过站内搜索引擎获得数据表

http://apps.who.int/gho/data/node.main
次站需要点击多级链接后生成数据表

万分感谢愿意提供思路的前辈!


意识到了问题的难度,想试图简化这个问题。有什么可以批量抓取静态网页的包或软件可以推荐吗?简易也没关系,最好是可以拿来就用,多多益善。谢谢!

阅读 5.3k
5 个回答

动态生成的肯定能抓取到他ajax提交的地址吧,能抓取到地址就模拟数据提交一下,返回的都是你要的数据吧.哪就ok了吧.

你可以看看 火车头 工具

python写过抓图片的

推荐问题
logo
101 新手上路
子站问答
访问
宣传栏