对我的网站进行定期截图

H1:关于网站视觉历史记录的实践

主要观点:

  • 阅读[DPC 位列表],意识到应将在线服务的内容和界面视为两个独立关注点,仅保存其一会丢失重要上下文,如 TikTok 的界面影响其使用和视频制作。
  • 探讨如何保存用户界面,挑战在于大多数界面无单一版本且不断变化,只能保存特定时间点的快照,截图是一种较好的方式。
  • 利用 Playwright 库实现自动截图,通过 GitHub Actions 按每周一的时间表运行,将截图保存到 Git Large File Storage (LFS) 中。
  • 用 Wayback Machine 回溯填充旧截图,发现其中存在很多问题,如页面样式或 HTML、CSS 不匹配等,不应仅依赖 Wayback Machine 保存网站。

关键信息:

  • [DPC 位列表]是数字材料清单及长期保存风险的清单。
  • TikTok 流行的垂直滑动界面影响了用户使用和视频制作。
  • 使用playwright screenshot命令安装并截图,通过 GitHub Actions 工作流设置定时截图任务。
  • 利用 Git LFS 处理大文件,设置 GITHUB_TOKEN 权限让 GitHub Actions 能推送截图到仓库。
  • 通过 Wayback Machine 回溯获取旧截图,发现很多问题。

重要细节:

  • 示例代码中包含安装 Playwright、设置定时任务、处理文件名等细节。
  • 提到调整超时时间以确保截图下载正确。
  • 指出网站应建立自己的保存系统,而非仅依赖 Wayback Machine。
阅读 100
0 条评论