本文主要介绍 UUID 从 v1 到 v8 的演进历程,特别详细解读了最新的 UUIDv7 和 UUIDv8,介绍了 UUID 在分布式系统和数据库索引中的应用和优势。原文:From UUID to UUIDv7 and Beyond: The Evolution of Unique Identifiers

0190dffef1ad726bd83fab761dd389c6

你在数据库或系统中见过这样一串数字吗?它很可能就是 UUID。这并不是一串随机字符,作为 RFC 标准,UUID 已经存在了几十年,并经历了 7 个版本的演变。今天,我们就来了解一下 UUID

什么是 UUID?

UUID(Universally Unique Identifier,通用唯一标识符) 是一个 128 位值,广泛用于分布式系统中的唯一标识。其格式为 32 个十六进制数字,用连字符分隔,通常表示为

xxxxxxxx-xxxx-Mxxx-Nxxx-xxxxxxxxxxxx

这里,M 表示 UUID 版本,N 表示变体。

UUID 由开放软件基金会(Open Software Foundation)定义,并标准化为 RFC 4122。UUID 无需中心化协调即可确保唯一性,常用于数据库、文件系统和会话标识符等。2024 年,RFC 9562 推出了另外三个版本 -- 6、7 和 8 -- 以解决早期版本的局限性。

UUID 版本简史

UUID 不断发展,以满足对时间敏感的应用需求。最常用的版本包括:

  • UUIDv1:利用时间和节点信息,包含时间戳和 MAC 地址。虽然能有效保证唯一性,但由于 MAC 地址会暴露敏感信息,因此会带来隐私问题。
  • UUIDv4:随机生成,提供了简单性和隐私性,但代价是潜在的(尽管极不可能发生)碰撞。该版本被广泛应用于顺序排列并不重要的场合。
  • UUIDv3UUIDv5:利用哈希算法(v3 使用 MD5,v5 使用 SHA-1)从命名空间标识符和名称推导出 UUID,确保相同输入的结果具有确定性。

RFC 9562 中引入的更新版本带来了重大改进:

  • UUIDv6:v1 的重组版本,具有更强的私密性,并针对时间顺序排序进行了优化。
  • UUIDv7:旨在提供基于时间的顺序排序,是数据库索引和分布式系统的理想选择。
  • UUIDv8:允许自定义应用特定元数据字段,提供无与伦比的灵活性。
了解 UUIDv7:现代改进

UUIDv7 解决了早期版本的主要缺陷,尤其是在数据库索引和分布式系统方面。通过使用有时间顺序的结构,可以确保:

  • 高效索引:基于时间的顺序排列减少了数据库索引中的碎片,从而提高了查询性能。
  • 高可扩展性:适用于需要唯一、有序标识符的分布式环境。
  • 隐私性:避免包含 MAC 地址等敏感信息。

例如,生成 UUIDv7 需要将时间戳编码到标识符中,这样即使在分布式系统中也能确保有序。谷歌的 UUID 库等工具支持用各种编程语言生成 UUIDv7。

package main  
  
import (  
    "fmt"  
    "github.com/google/uuid"
)  
  
func main() {  
    id, _ := uuid.NewV7()  
    fmt.Println("Generated UUIDv7:", id)  
}

有关 UUIDv7 规范的更多信息,请参见 RFC 9562 第 5 节

UUIDv8:未来的灵活性(尚未正式发布)

UUIDv8 引入了一项突破性功能:针对特定应用需求的自定义位。该版本允许在 UUID 中直接嵌入元数据,使其具有很强的适应性:

  • 物联网设备:嵌入设备特定信息
  • 跨系统数据传输:包含上下文元数据,便于跟踪。
  • 自定义应用:根据特定领域需求定制 UUID。

UUIDv8 的灵活性需要权衡利弊,如确保自定义字段在应用上下文中保持唯一性。随着采用率的提高,很可能会出现最佳实践和库来规范这些实施。

有关 UUIDv8 的详细信息,请参阅 RFC 9562 第 6 节

比较 UUID 版本
版本构造方式主要功能用例
v1时间 + MAC地址高唯一性, 隐私问题传统系统, 内部工具
v4随机简单, 高隐私性Web应用, 通用功能
v6基于时间(重构的)有序, 隐私增强现代数据库
v7时间有序(RFC 9562)索引优化分布式系统, 日志
v8自定义字段高灵活性IoT, 特定应用
超越 UUID:替代方案与灵感

UUIDv7 和 UUIDv8 的开发参考了其他 ID 生成方法,如:

  • ULID:将基于时间戳的排序与随机性相结合,确保单调性。
  • Snowflake:由 Twitter 提出,包含时间戳、机器 ID 和序列号。
  • KSUID:为分布式系统优化的 K 排序唯一标识符。

虽然这些替代方案在特定情况下很有效,但 UUID 为大部分应用提供了标准化、跨平台的解决方案。

结论和建议

UUID 的发展反映了分布式系统日益增长的复杂性,以及对高效、安全和灵活的唯一标识符的需求。随着 UUIDv7 和 UUIDv8 等新版本的普及,开发人员应该:

  • 选择正确的版本:使用 UUIDv7 满足有时间顺序的需求,使用 UUIDv8 满足自定义元数据的需求。
  • 利用库:利用现有的库,确保符合 RFC 规范。
  • 随时了解信息:监控 UUID 标准和库的更新,利用新功能。

通过了解和使用合适的 UUID 版本,从而确保系统的可扩展性、性能和安全性。


你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。为了方便大家以后能第一时间看到文章,请朋友们关注公众号"DeepNoMind",并设个星标吧,如果能一键三连(转发、点赞、在看),则能给我带来更多的支持和动力,激励我持续写下去,和大家共同成长进步!

本文由mdnice多平台发布


俞凡
21 声望14 粉丝

你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起...