主要观点:介绍了在 2025 年 3 月 8 日 NICAR 数据新闻会议上的一小时前沿网络抓取技术工作坊,包括视频抓取、使用图像模型、现代抓取技术(如 Playwright)等内容,适合有一定网络抓取经验的记者,需自带笔记本电脑,还介绍了预修要求、课程结构及四个实践练习(Git 抓取、使用浏览器 JavaScript 抓取、使用 LLM 提取结构化数据、视频抓取),并提供了相关工具和资源及安装步骤。
关键信息:
- 工作坊时间:2025 年 3 月 8 日 11:30am,地点在 NICAR 2025 数据 journalism 会议。
- 预修要求:GitHub 账户、Python 环境(推荐 GitHub Codespaces)、Google 账户。
- 课程结构:互动式、实践操作,包括四个练习。
- Git 抓取:创建基于模板的 GitHub 仓库来抓取网站变化,可避免资源浪费并设置通知。
- 浏览器 JavaScript 抓取:解决网页抓取问题,可提取页面数据,还可用于无限滚动网页页面,可结合 shot-scraper 自动化。
- LLM 结构化数据提取:需 API 密钥,可尝试不同模型,如 GPT-4o mini 和 Gemini 2.0 等,对 PDF 等复杂内容也有效。
- 视频抓取:利用 Gemini 模型接受视频输入,以 Google AI Studio 为例,可尝试从难抓取网站提取数据。
- 后续合作:作者正在构建工具套件,欢迎交流合作。
- 工具资源:git-scraper-template、shot-scraper-template、shot-scraper har、git-history 等,以及安装命令。
重要细节: - 各练习的具体代码和操作步骤,如 Git 抓取中创建仓库的步骤、浏览器 JavaScript 抓取中的函数和示例、LLM 提取数据的各种命令和参数等。
- 不同模型的价格和使用限制,如 GPT-4.5 价格高,Gemini 模型有免费和付费层级等。
- 各工具的详细介绍和使用场景,如 git-scraper-template 用于快速开始 Git 抓取,shot-scraper-template 用于创建截图仓库等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。