- Summary: 介绍了 Crawlee 这一网页抓取和浏览器自动化库,包括其功能(HTTP 和浏览器爬行接口、持久化队列、可插拔存储等)、安装方式(Crawlee CLI 快速尝试、手动安装及安装预发布版本)、在 Apify 平台上的使用、支持渠道(GitHub 提交问题、Stack Overflow 提问、Discord 服务器等)以及贡献方式(欢迎代码贡献,参考 CONTRIBUTING.md)和许可证(Apache License 2.0)。
- 主要观点: Crawlee 可端到端处理爬行和抓取,帮助构建可靠爬虫,默认配置能躲避现代机器人保护;提供多种安装方式,包括 Crawlee CLI 和手动安装;有丰富功能,如 HTTP 和浏览器爬行、持久化队列等;可在 Apify 平台上使用;提供多种支持渠道和贡献方式。
关键信息:
- 支持 Node.js 16 或更高版本。
- Crawlee 作为
crawlee
NPM 包提供。 - 可用 Crawlee CLI 快速开始,也可手动安装到项目中。
- 具备多种功能,如 HTTP 和浏览器爬行、存储等。
- 可在 Apify 平台上部署。
- 有 GitHub 问题提交、Stack Overflow 提问、Discord 服务器等支持渠道。
- 欢迎代码贡献,遵循 CONTRIBUTING.md 规范。
- 项目采用 Apache License 2.0 许可证。
重要细节:
- 通过
npx crawlee create my-crawler
创建爬虫,cd my-crawler
后npm start
运行。 - 手动安装需
npm install crawlee playwright
,并使用PlaywrightCrawler
。 - 预发布版本可在 npm list of releases中找到,安装时需在
package.json
中指定依赖覆盖。 - 在 Apify 平台上使用可参考Apify SDK website。
- 贡献遵循CONTRIBUTING.md规范。
- 通过
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。