nicar - 2025 - scraping/README.md 在主分支 · simonw/nicar - 2025 - scraping

主要观点:介绍了在 2025 年 3 月 8 日 NICAR 数据新闻会议上的一小时前沿网络抓取技术工作坊,包括视频抓取、使用图像模型、现代抓取技术(如 Playwright)等内容,适合有一定网络抓取经验的记者,需自带笔记本电脑,还介绍了预修要求、课程结构及四个实践练习(Git 抓取、使用浏览器 JavaScript 抓取、使用 LLM 提取结构化数据、视频抓取),并提供了相关工具和资源及安装步骤。
关键信息

  • 工作坊时间:2025 年 3 月 8 日 11:30am,地点在 NICAR 2025 数据 journalism 会议。
  • 预修要求:GitHub 账户、Python 环境(推荐 GitHub Codespaces)、Google 账户。
  • 课程结构:互动式、实践操作,包括四个练习。
  • Git 抓取:创建基于模板的 GitHub 仓库来抓取网站变化,可避免资源浪费并设置通知。
  • 浏览器 JavaScript 抓取:解决网页抓取问题,可提取页面数据,还可用于无限滚动网页页面,可结合 shot-scraper 自动化。
  • LLM 结构化数据提取:需 API 密钥,可尝试不同模型,如 GPT-4o mini 和 Gemini 2.0 等,对 PDF 等复杂内容也有效。
  • 视频抓取:利用 Gemini 模型接受视频输入,以 Google AI Studio 为例,可尝试从难抓取网站提取数据。
  • 后续合作:作者正在构建工具套件,欢迎交流合作。
  • 工具资源:git-scraper-template、shot-scraper-template、shot-scraper har、git-history 等,以及安装命令。
    重要细节
  • 各练习的具体代码和操作步骤,如 Git 抓取中创建仓库的步骤、浏览器 JavaScript 抓取中的函数和示例、LLM 提取数据的各种命令和参数等。
  • 不同模型的价格和使用限制,如 GPT-4.5 价格高,Gemini 模型有免费和付费层级等。
  • 各工具的详细介绍和使用场景,如 git-scraper-template 用于快速开始 Git 抓取,shot-scraper-template 用于创建截图仓库等。
阅读 12
0 条评论