GitHub - apify/crawlee: Crawlee—一个用于 Node.js 的网页抓取和浏览器自动化库，用于构建可靠的爬虫。使用 JavaScript 和 TypeScript。为 AI、LLMs、RAG 或 GPT 提取数据。从网站下载 H

发布于 7 月 24 日

Summary: 介绍了 Crawlee 这一网页抓取和浏览器自动化库，包括其功能（HTTP 和浏览器爬行接口、持久化队列、可插拔存储等）、安装方式（Crawlee CLI 快速尝试、手动安装及安装预发布版本）、在 Apify 平台上的使用、支持渠道（GitHub 提交问题、Stack Overflow 提问、Discord 服务器等）以及贡献方式（欢迎代码贡献，参考 CONTRIBUTING.md）和许可证（Apache License 2.0）。
主要观点: Crawlee 可端到端处理爬行和抓取，帮助构建可靠爬虫，默认配置能躲避现代机器人保护；提供多种安装方式，包括 Crawlee CLI 和手动安装；有丰富功能，如 HTTP 和浏览器爬行、持久化队列等；可在 Apify 平台上使用；提供多种支持渠道和贡献方式。
关键信息:
- 支持 Node.js 16 或更高版本。
- Crawlee 作为crawleeNPM 包提供。
- 可用 Crawlee CLI 快速开始，也可手动安装到项目中。
- 具备多种功能，如 HTTP 和浏览器爬行、存储等。
- 可在 Apify 平台上部署。
- 有 GitHub 问题提交、Stack Overflow 提问、Discord 服务器等支持渠道。
- 欢迎代码贡献，遵循 CONTRIBUTING.md 规范。
- 项目采用 Apache License 2.0 许可证。
重要细节:
- 通过npx crawlee create my-crawler创建爬虫，cd my-crawler后npm start运行。
- 手动安装需npm install crawlee playwright，并使用PlaywrightCrawler。
- 预发布版本可在 npm list of releases中找到，安装时需在package.json中指定依赖覆盖。
- 在 Apify 平台上使用可参考Apify SDK website。
- 贡献遵循CONTRIBUTING.md规范。

阅读 27