nicar - 2025 - scraping/README.md 在主分支 · simonw/nicar - 2025 - scraping

主要观点：介绍了在 2025 年 3 月 8 日 NICAR 数据新闻会议上的一小时前沿网络抓取技术工作坊，包括视频抓取、使用图像模型、现代抓取技术（如 Playwright）等内容，适合有一定网络抓取经验的记者，需自带笔记本电脑，还介绍了预修要求、课程结构及四个实践练习（Git 抓取、使用浏览器 JavaScript 抓取、使用 LLM 提取结构化数据、视频抓取），并提供了相关工具和资源及安装步骤。
关键信息：

工作坊时间：2025 年 3 月 8 日 11:30am，地点在 NICAR 2025 数据 journalism 会议。
预修要求：GitHub 账户、Python 环境（推荐 GitHub Codespaces）、Google 账户。
课程结构：互动式、实践操作，包括四个练习。
Git 抓取：创建基于模板的 GitHub 仓库来抓取网站变化，可避免资源浪费并设置通知。
浏览器 JavaScript 抓取：解决网页抓取问题，可提取页面数据，还可用于无限滚动网页页面，可结合 shot-scraper 自动化。
LLM 结构化数据提取：需 API 密钥，可尝试不同模型，如 GPT-4o mini 和 Gemini 2.0 等，对 PDF 等复杂内容也有效。
视频抓取：利用 Gemini 模型接受视频输入，以 Google AI Studio 为例，可尝试从难抓取网站提取数据。
后续合作：作者正在构建工具套件，欢迎交流合作。
工具资源：git-scraper-template、shot-scraper-template、shot-scraper har、git-history 等，以及安装命令。
重要细节：
各练习的具体代码和操作步骤，如 Git 抓取中创建仓库的步骤、浏览器 JavaScript 抓取中的函数和示例、LLM 提取数据的各种命令和参数等。
不同模型的价格和使用限制，如 GPT-4.5 价格高，Gemini 模型有免费和付费层级等。
各工具的详细介绍和使用场景，如 git-scraper-template 用于快速开始 Git 抓取，shot-scraper-template 用于创建截图仓库等。