大规模 Terraform 漂移检测：如何及早发现配置漂移

发布于 2025-04-15

主要观点：Terraform 管理云平台基础设施时有一个在大规模时罕见的假设，即部署基础设施的状态总是仅通过 Terraform 管理，但实际环境会演变，导致配置漂移。为解决此问题，有自动化漂移检测系统，跨多云环境运行，通过将 Git 视为基础设施真相来源等方式设计，支持多云，融入开发者工作流，改善信号和责任，从生产中吸取教训，结论是使用 Terraform 等工具需结合漂移检测以维持一致性。
关键信息：

Terraform 假设及实际环境演变导致配置漂移。
自动化漂移检测系统跨多云环境运行。
设计原则是将 Git 视为基础设施真相来源。
多云支持通过模块化运行器实现。
融入开发者工作流的方式，如 PR 集成、抑制已知非问题等。
改善信号和责任的措施，如人类可读的差异输出、漂移老化和优先级等。
从生产中吸取的教训，如先从关键模块开始、先检测后强制等。
重要细节：
配置漂移发生的情况，如在云控制台手动更改、事件中的未跟踪热修复等。
漂移的风险，如降低可靠性、引入脆弱性等。
检测系统的工作流程，如刷新 Terraform 状态、对比代码等。
多云支持中各环境的执行方式及数据存储位置。
融入开发者工作流中的具体做法，如在 PR 中注释差异和警告等。
改善信号和责任的具体细节，如差异输出的改进、漂移老化模型等。
从生产中吸取教训的具体实践，如先检测关键模块等。

阅读 98