2025 年 2 月 17 日 | 作者:彼得·米加尔德
Bruce 推荐语:
- Why markdown 的文章
- 重复搜索的信息,值得长期保存。
- 见过两次的信息,更可能有价值。
- 信息的二次接触,有助于筛选真正重要的内容。
- 过滤掉只见过一次的无用信息,减少信息过载。
- 高频召回的信息,往往对你更有利。
斯坦尼斯瓦夫·莱姆的故事《浴缸里发现的回忆录》开篇描述了一种奇异现象,它能将所有书面材料化为尘埃。虽然这是科幻情节,但类似的事情也会在我们的数字世界中发生。
数字世界的死亡警示
如果你在网上发布了某些内容,迟早它会消失。[1]
最好的情况是,网站重构时链接发生了变化。更常见的情况是,内容丢失了。唯一的希望是有人将其保存在互联网档案馆的时光机里,使其免于被遗忘。
需要登录的封闭网络环境更糟糕——当它们关闭时,其中的所有内容都会永远消失。如果你自己没有保存,那它就没了。此外,任何服务(免费或付费)都可能随时限制对内容的访问——要么完全限制,要么实际上让你根本找不到你要找的东西。你几年前在推特(Twitter)上发布的内容,现在在“X”平台上,再过几年可能需要登录、付费订阅才能查看,或者——根本就看不到了。
即使是自建服务器托管也并非万无一失——如果你忘记支付托管费用,或者服务器崩溃,你的内容就可能消失。而且,即使你的数据幸存下来,访问它也可能很棘手:WordPress博客将文章存储在数据库中,而服务器更新可能会破坏这些数据库。我在自己的PHP照片画廊无法访问时学到了这个教训——幸运的是,我把所有照片都保存成了按日期整理的简单JPG格式。
唯一可靠的解决方案是将内容以无需专门软件就能打开的格式存储——这些格式在未来几十年都能被访问。
《指环王》开场场景中的加拉德瑞尔(视频、文字记录)
为何有些事物值得留存
保存内容的动机多种多样,从数字化的“我不会全然死去”,到实用主义的观点,再到将存档本身作为目标等。
对我而言,关键原因如下:
- 我想保留并拥有自己所写的东西——它们是我的一部分,是我的历史,是我真实的经历
- 我希望所有内容都能集中存放,并且便于搜索
- 我想将其与人工智能工具结合使用(查找相似笔记、进行总结、用作上下文参考)
- 我希望能够随心所欲地复用或分享这些内容(通过电子邮件、博客文章、电子书等任何形式)
纯文本
作为一名数据科学家,我把事物转化为向量。
作为一个毫不掩饰的档案管理员,我把事物转化为 Markdown 格式。
最持久的解决方案是把内容刻在石头上——这样可以保存数千年。但这几乎不切实际,而且也无法让内容便于搜索或分享。
次优选择是采用 UTF - 8 编码和 Markdown 格式的纯文本文件。只要计算机存在,我们就能轻松读取纯文本文件。
Markdown 文件本质上就是带有一些额外语法的纯文本,这些额外语法用于处理常见元素,如章节、项目符号和链接等。该格式有意避免对显示细节(如字体选择)进行精确控制。遵循最小权限原则,我认为这种限制是一种优点。作为对比,可以想想 PDF——这是一种功能强大到甚至能运行《毁灭战士》游戏的格式。
对于个人笔记,我使用 Obsidian,这是一款我非常喜欢且每天都在用的笔记应用程序。虽然它是一个功能强大且插件丰富的工具,但让我一直坚持使用它的原因是它的简洁性——它把所有内容都存储在纯文件中。没有专有格式的限制,正是它如此吸引人的地方。
对于博客写作,大多数静态网站生成器都支持 Markdown 格式。这篇博客文章就是用 Markdown 格式撰写的。在记笔记和发布内容时使用相同的标记语言,能让内容分享变得顺畅。
我是这样做的
我梦想着能自动将我所写或遇到的一切内容转换为 Markdown 格式。但现实要复杂得多——一方面我有自闭症特质,总想把所有东西都存档;另一方面我患有注意力缺陷多动障碍(ADHD),这让维护这样的存档系统变得困难重重,两者之间始终存在着矛盾。
所以我采取了一种务实的方法——当我发现有价值留存的内容时,我会把它复制到一个 Markdown 文件中,并在文件开头添加元数据,注明其发布日期、来源和相关标签:
我会特意保存自己发布的、日后可能有用的内容。比如会议演讲摘要、桑拿活动介绍、技术说明等,这样在未来查找和再次使用它们就容易多了。
当我发现自己在搜索旧内容(比如我想分享或重读的脸书帖子)时,我会立即保存它。如果我发现一篇博客文章不见了,我会从互联网档案馆把它找回来并保存好。当转发一封带有详细说明的邮件时——你猜对了,我也会保存它。
值得搜索一次的内容,就值得永久保存。
担心保存的内容太多吗?其实,磁盘存储成本很低——对于文本文件来说,几乎可以说是免费的。
实用工具
有时手动复制就足够了。对于更复杂的格式处理,人工智能工具非常有用——由于它们接受过 Markdown 方面的训练,因此在处理和提取内容方面表现出色。你可以使用它们来转换在线文本或解析 PDF 文件(如幻灯片),这在《摄入数百万份 PDF 文件以及 Gemini 2.0 为何改变一切》一文中有相关介绍。
对于某些来源的内容,我创建了半自动化的解决方案。例如,我编写了一个 Python 脚本,用于将我 Kindle 中的高亮内容和笔记转换为 Markdown 格式。
有许多工具可用于格式转换。其中功能最全面的是 pandoc,它可以在几十种格式之间进行转换,从 Word 文档到 LaTeX 文档,以及介于两者之间的各种格式。
社区还为特定平台创建了专门的工具。你可以找到将 Medium 文章转换为 Markdown 格式的工具(可以通过导出文件或直接通过 URL 进行转换)、存档 Reddit 线程的工具,以及适用于许多其他使用场景的工具。
由于我们处理的是轻量级文本文件,因此有很多工具可用于备份这些文件。Git 特别适合对这些内容进行版本控制和同步。
此外,我会定期从自己使用的每个服务中下载数据。即使下载的数据是由 JSON、XML、HTML、CSV 等各种格式混合而成的,我也会保留这些数据。即使在某个时刻我没有时间将其处理成 Markdown 格式,至少数据还在。
下一步计划
我希望能有一个全面的工具来导出所有内容,尤其是社交媒体上的内容。那些引起很多人共鸣的帖子以及具有个人意义的帖子都值得保存。
虽然 Facebook 提供了有限的数据导出功能,但并不完善。最明显的是,无法保存完整的讨论线程,而这往往是帖子中最有价值的部分。
那么你呢?你会搜索哪些内容?你已经存档了什么,又希望自己保存了什么?
在 Hacker News、Mastodon、Reddit 或 LinkedIn 上讨论这篇文章。
脚注
- 链接失效问题可以通过像 Perma.cc 这样的服务来解决——不过这些服务最终也可能消失。研究表明,对于法律文件而言,一半的链接会在 5 年内失效。我在这里关注的是个人内容的保存和搜索。↩
- 但出于实际原因,也出于收集本身的乐趣,我在 Pinboard 上收藏了超过 1.4 万个链接。没错,数据是以 JSON 格式下载的。↩
- 我并非声称 Markdown 是唯一的解决方案。使用其他格式也有合理的理由。我关注的是 UTF - 8 编码的纯文本。如果你更喜欢其他标记语言(如 reStructuredText、AsciiDoc、Org - Mode)或者只是无格式的纯文本——这些原则仍然适用。在某些情况下,原始格式也可行——例如,如果是 JSON 或代码。↩
- 以 HTML(超文本标记语言)为例。它原本是为了给文本增添语义,但现在主要用作构建用户界面的工具。虽然这种演变带来了很多好处,但 HTML 已不再适合纯粹的内容存储。↩
- 本博客使用 Nuxt 3 Content(来源:github.com/stared/stared.github.io)。它延续了我之前使用 Jekyll 和 Gridsome 的版本。多亏了 Markdown,平台之间的迁移十分顺畅——见《新博客——从 Medium 迁移到 Gridsome》。在最近从 Gridsome 迁移到 Nuxt 3 Content 的过程中,Cursor IDE 帮了大忙。Astro 是另一个颇受欢迎的静态网站生成器。↩
作者:彼得·米格达尔,一个充满好奇心的人,魔法博士。查看我的其他博客文章。我正在寻找有影响力的项目来参与。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。