足兆叉虫 - SegmentFault 思否

pyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

2015-01-10

阅读 2 分钟

87.5k

在上两篇教程中，我们学习了怎么从 HTML 中提取信息，也学习了怎么处理一些请求复杂的页面。但是有一些页面，它实在太复杂了，无论是分析 API 请求的地址，还是渲染时进行了加密，让直接抓取请求非常麻烦。这时候就是 PhantomJS 大显身手的时候了。

pyspider 爬虫教程（二）：AJAX 和 HTTP

足兆叉虫

2015-01-10

阅读 5 分钟

23.7k

在上一篇教程中，我们使用 self.crawl API 抓取豆瓣电影的 HTML 内容，并使用 CSS 选择器解析了一些内容。不过，现在的网站通过使用 AJAX 等技术，在你与服务器交互的同时，不用重新加载整个页面。但是，这些交互手段，让抓取变得稍微难了一些：你会发现，这些网页在抓回来后，和浏览器中的并不相同。你需要的信息并不在...

pyspider 爬虫教程（一）：HTML 和 CSS 选择器

足兆叉虫

2015-01-10

阅读 4 分钟

52.8k

虽然以前写过如何抓取WEB页面和如何从 WEB 页面中提取信息。但是感觉还是需要一篇 step by step 的教程，不然没有一个总体的认识。不过，没想到这个教程居然会变成一篇译文，在这个爬虫教程系列文章中，会以实际的例子，由浅入深讨论爬取（抓取和解析）的一些关键问题。