GitHub - apify/crawlee: Crawlee—一个用于 Node.js 的网页抓取和浏览器自动化库,用于构建可靠的爬虫。使用 JavaScript 和 TypeScript。为 AI、LLMs、RAG 或 GPT 提取数据。从网站下载 H

  • Summary: 介绍了 Crawlee 这一网页抓取和浏览器自动化库,包括其功能(HTTP 和浏览器爬行接口、持久化队列、可插拔存储等)、安装方式(Crawlee CLI 快速尝试、手动安装及安装预发布版本)、在 Apify 平台上的使用、支持渠道(GitHub 提交问题、Stack Overflow 提问、Discord 服务器等)以及贡献方式(欢迎代码贡献,参考 CONTRIBUTING.md)和许可证(Apache License 2.0)。
  • 主要观点: Crawlee 可端到端处理爬行和抓取,帮助构建可靠爬虫,默认配置能躲避现代机器人保护;提供多种安装方式,包括 Crawlee CLI 和手动安装;有丰富功能,如 HTTP 和浏览器爬行、持久化队列等;可在 Apify 平台上使用;提供多种支持渠道和贡献方式。
  • 关键信息:

    • 支持 Node.js 16 或更高版本。
    • Crawlee 作为crawleeNPM 包提供。
    • 可用 Crawlee CLI 快速开始,也可手动安装到项目中。
    • 具备多种功能,如 HTTP 和浏览器爬行、存储等。
    • 可在 Apify 平台上部署。
    • 有 GitHub 问题提交、Stack Overflow 提问、Discord 服务器等支持渠道。
    • 欢迎代码贡献,遵循 CONTRIBUTING.md 规范。
    • 项目采用 Apache License 2.0 许可证。
  • 重要细节:

    • 通过npx crawlee create my-crawler创建爬虫,cd my-crawlernpm start运行。
    • 手动安装需npm install crawlee playwright,并使用PlaywrightCrawler
    • 预发布版本可在 npm list of releases中找到,安装时需在package.json中指定依赖覆盖。
    • 在 Apify 平台上使用可参考Apify SDK website
    • 贡献遵循CONTRIBUTING.md规范。
阅读 27
0 条评论