以缓慢的方式构建个人的网络档案

作者通过一个静态网站管理书签,并保存了 2000 多个页面的本地快照,以确保即使原始网站离线或更改,也能随时访问。

个人网页存档的特点和需求

  • 个人用途:这是一个仅供个人使用的网页存档,可自由决定包含内容和工作方式,与专业或机构设置不同,更注重个人需求。
  • 完整副本:存档应包含所书签的每个页面的完整副本,包括文本、图像、视频、样式等,即使原始站点更改或离线,仍能查看保存的页面。
  • 本地存储:不依赖可能会中断、更改或关闭的在线服务,如 Pinboard 曾不可靠,作者曾为此付费但仍出现问题。
  • 易存新页:每周会添加几个新书签,希望存档能及时更新,且添加页面不应成为负担。
  • 支持私页:可包含付费墙或登录屏幕后的私人页面,因为许多网络存档只保存公共内容,自己保存私人页面更重要。
  • 可编辑快照:既可添加外部资源,也可删除不需要的内容,如广告、跟踪代码等,以减少快照大小,提高可读性。

网页存档的外观和结构

  • 静态文件夹:将存档的书签视为静态文件,保存在本地文件系统的文件夹中,每个页面都有一个包含 HTML、样式表、图像和其他链接文件的文件夹,类似于“迷你网站”,方便在浏览器中打开查看。
  • 不使用 WARC 或 WACZ:许多机构使用 WARC 或 WACZ 格式存储网页存档,但作者认为在个人存档中不需要额外的上下文信息,也不想依赖有限的工具,更喜欢文件和文件夹的灵活性,可在任何浏览器中打开 HTML 文件进行编辑。

保存本地网页副本的方法

  • 手动保存单个页面:通过浏览器的“保存为”按钮保存 HTML 文件,然后在浏览器和文本编辑器中打开,使用开发者工具查找并下载需要本地保存的外部文件,如样式表、字体、图像等,编辑 HTML 指向本地副本,直到页面加载正常,获得自包含的离线副本。在开发者工具的“网络”标签中查看页面加载的文件来源,确保从本地磁盘获取;在“控制台”标签中检查页面加载错误,修复问题。
  • 删除垃圾内容:在保存页面时删除不需要的内容,如广告、时间敏感事件的横幅、内联相关内容链接、Cookie 通知、分析和跟踪等服务,以减少快照大小,提高加载速度和可读性。但在公共环境中会更谨慎,因为机构网络存档通常尽量保持页面原样。
  • 使用模板:对于经常书签的大型复杂网站,创建简单的 HTML 模板,将新页面的文本和图像复制到模板中,而不是每次都解析网站的 HTML,这样更快速,且保存了文章的内容。
  • 回填现有书签:将来自多个来源的部分收藏逐渐整合到新的存档中,每天处理几个书签,修复损坏的页面,下载缺失的文件,删除广告等垃圾内容,花费约一年时间迁移了 2000 多个书签,确保每个书签都经过手动检查。
  • 备份备份:将保存为文件夹的网站像其他文件一样备份,使用 Time Machine 和 Carbon Copy Cloner 备份到外部 SSD,使用 Backblaze 创建云备份。

不使用自动化工具的原因

  • 自动化工具虽能保存大量网页,但存在准确性问题,如 Pinboard 存档中存在缺失图像、损坏样式或依赖原始站点 JavaScript 等问题,作者决定手动创建新存档,虽速度较慢,但能确保每个页面都有良好的副本。

关于网页存档的经验教训

  • 依赖已失效服务:发现许多页面依赖已不存在的第三方服务,如照片分享网站、链接重定向服务等,导致页面加载时关键资源缺失。
  • 页面内容变化:即使网站仍在运行,页面内容也可能已更改,如 iTunes 教程在 LiveJournal 上被替换为“18+警告”,这种失败难以自动检测,需要人工查看。
  • 糟糕的重定向:许多网站的原始 URL 已失效,但通过搜索标题可在不同 URL 找到故事,这让人失望,作者认为设置重定向很重要,可方便查找旧内容。
  • 图像保存难题:如今的图像更复杂,有懒加载和<picture>标签等特性,自动化工具难以处理,作者在个人存档中总是保存每个图像的最高分辨率副本,但不确定这是否是最佳答案。
  • 收集边界模糊:对于保存初始 HTML 页面后还应保存什么内容,难以制定良好的规则,需要根据具体情况做出决策,这也是手动创建存档的原因之一。

是否应创建个人网页存档

  • 推荐拥有个人网页存档,就像保存喜欢的书籍纸质副本一样,即使原始网站消失也能随时阅读。但不推荐完全模仿作者的做法,手动创建存档花费大量时间和精力,只有有网站建设经验的人才能做到。不过,即使只是拍摄一些屏幕截图、保存一些 PDF 或下载喜欢的小说的 HTML 副本,也是有用的备份。如果想扩大存档规模,可以使用自动化工具,但手动创建的文件夹即使只有几个文件也比没有好。在创建存档的过程中,作者学到了很多关于网页构建的知识,在系列文章的第三部分将分享这些经验。如果想知道第三篇文章的发布时间,可以订阅作者的 RSS 或时事通讯。
阅读 22
0 条评论