云实例初始化的行业标准：Cloud-Init

前言

Cloud-Init[1] 是跨平台云实例初始化的行业标准。它得到了所有主要公共云提供商的支持，适用于私有云基础设施的配置系统以及裸机安装。Cloud-Init 将在启动时识别其运行所在的云环境，读取来自云端提供的任何元数据，并据此初始化系统。这可能涉及设置网络和存储设备，配置 SSH 访问密钥以及系统的许多其他方面。之后，Cloud-Init 还将解析并处理传递给该实例的任何可选用户或供应商数据。在你想要创建自定义的 Linux 部署镜像时或者每次部署一个新的 Linux 服务器时，有很多事情需要初始化并且进行自动化处理。Cloud-Init 可以帮助我们实现这些自动化任务。

现状：Cloud-Init 在云平台中的普及

Cloud-Init 几乎已经成为云计算领域中初始化虚拟机的事实标准，其广泛的应用几乎遍及所有主流的云平台。通过观察 Cloud-Init 支持的数据源（datasource），可以发现其兼容性极强，不仅支持众多云服务提供商，如 AWS（亚马逊云服务）、Azure（微软云）、Aliyun（阿里云），还包括多种私有云和容器虚拟化部署方案，例如 CloudStack、OpenNebula、OpenStack 和 LXD。Cloud-Init 的普及标志着其在云基础设施自动化部署领域的关键作用，涵盖了包括但不限于以下平台和服务：

Amazon EC2
Alibaba cloud (AliYun)
Azure
Google Compute Engine
LXD

用途：Cloud-Init 解决了什么问题？

Cloud-Init 主要解决了快速、自动化配置和启动云实例的问题，以便高效地适应云计算环境中的动态变化需求。这个工具的设计初衷旨在简化云实例的初始化流程。自从作为一个开源项目推出以来，Cloud-Init 迅速获得了广泛的认可，并很快成为了几乎所有主要云服务提供商（如 Amazon Web Services、Google cloud Platform 和 Microsoft Azure）支持的标准部分。

云计算部署的挑战

在云计算的早期阶段，虚拟机的设置和配置是一个耗时且复杂的过程，特别是面对大规模的配置和依赖软件安装需求时。虽然预配置的系统镜像能够实现快速部署，但随着计算需求的多样化和架构的复杂化，这种方法逐渐显得不够灵活和高效。运维人员需要对每个实例进行手动配置，如配置网络、存储、SSH 密钥、软件包和各种其他系统方面，这不仅增加了运维工作量，也提高了出错的可能性。

Cloud-Init 的解决方案

Cloud-Init 应运而生，以解决这一痛点。它允许用户在云实例首次启动时自动执行一系列定制化的配置任务，如设置主机名、网络配置、用户管理、安装软件包等，极大地简化了云实例的部署和管理。通过使用 Cloud-Init，用户可以为云实例定制启动脚本和配置文件，从而实现真正的“一次配置，到处运行”，大幅提升了云资源的部署效率和灵活性。在云实例启动过程中，Cloud-Init 负责识别其运行的云环境，并据此对系统进行相应的初始化设置。这意味着在首次启动时，云实例将被自动配置好网络、存储、SSH 密钥、软件包以及其他多种系统设置，无需额外的人工干预。Cloud-Init 的核心价值在于它为云实例的启动和连接提供了一种无缝的桥梁，确保实例按照预期的方式运作。对于使用云服务的用户来说，Cloud-Init 提供了一种无需安装即可进行的首次启动配置管理方案。对于云提供商，它提供了可以与其云集成的实例设置。

Cloud-Init 的功能和使用场景

Cloud-Init 提供了一系列功能，能够支持多种云计算环境中的自动化配置和管理任务。通过这些功能和使用场景，Cloud-Init 为云计算环境中的自动化部署和管理提供了强大的支持，极大地提升了云资源的配置灵活性和效率。

Cloud-Init 的常见用例

Cloud-Init 通常用于在应用进程真正启动之前完成一些自定义的初始化操作。常见的初始化操作包括但不限于：

设置 hostname
添加 SSH keys
在第一次启动时执行一个脚本
格式化并且挂载一个数据盘
启动 Ansible playbook
安装一个 DEB/RPM 包

我们的项目 AutoMQ[2] 是基于云实现的云原生 Kafka。在云上（以 AWS 为例）如果不使用 k8s 部署，AutoMQ 将会使用 ASG 和 EC2 来运行。AutoMQ 启动前涉及一系列初始化任务和配置才可以完整正常的启动。以下内容是 AutoMQ 企业版控制面实际采用的 Cloud-Init 脚本内容，用于完成启动初始化。其大体的步骤主要是：

初始化 systemd 使用的 service 文件
使用 aws sdk 利用 ECS RAM Role 完成身份认证，保证其有对其他云服务的访问权限
准备 AutoMQ 需要的环境变量
通过脚本启动 AutoMQ systemd 服务。

 #cloud-config

write_files:
  - path: /etc/systemd/system/kafka.service
    permissions: '0644'
    owner: root:root
    content: |
      // ignore some code...
      

  - path: /opt/automq/scripts/run.info
    permissions: '0644'
    owner: root:root
    content: |
      role=
      wal.path=
      init.finish=

runcmd:

    // ignore some code....

    echo "Start getting the meta and wal volume ids" > ${AUTOMQ_HOME}/scripts/automq-server.log
    region_id=$(curl -s http://169.254.169.254/latest/meta-data/placement/region)
    
    aws configure set default.region ${region_id} --profile ec2RamRoleProfile
    aws configure set credential_source Ec2InstanceMetadata --profile ec2RamRoleProfile
    aws configure set role_arn #{AUTOMQ_INSTANCE_PROFILE} --profile ec2RamRoleProfile
    
    instance_id=$(curl -s http://169.254.169.254/latest/meta-data/instance-id)


  - |
    echo "AUTOMQ_ENABLE_LOCAL_CONFIG=#{AUTOMQ_ENABLE_LOCAL_CONFIG}" >> ${AUTOMQ_HOME}/scripts/env.info
    // ignore some code....


  - |
    echo "export AUTOMQ_NODE_ROLE='#{AUTOMQ_NODE_ROLE}'" >> /etc/bashrc
    // ignore some code....

    source /etc/bashrc

  - sh ${AUTOMQ_HOME}/scripts/automq-server.sh up --s3url="#{AUTOMQ_S3URL}" >> ${AUTOMQ_HOME}/scripts/automq-server.log 2>&1 &

注意：该 userdata 内容不完整，仅为参考示意，需要配合 AutoMQ 其他脚本和企业版代码才可以直接运行

当我有 Docker 或者 k8s 时，为什么选择 Cloud-Init？

在谈论初始化环境时，你可能会想到 Docker 或者 k8s。但好消息是，你实际上不必在两者之间做出选择。因为为了使用 Docker 或者 k8s，你仍然需要在机器上安装和配置 Docker 或者 K8s 的组件，这时候就需要使用 Cloud-Init 来进行配置了。大家只是在不同抽象级别的 runtime 上的差异而已，两者并不冲突。可以把 Cloud-Init 理解为 VM 世界的 Dockerfile。

Cloud-Init 是如何工作的？

工作流程大致可以分为两个阶段[3]，分别发生在启动过程的早期（本地启动阶段）和晚期。

早期启动阶段

在网络配置启用之前的本地启动阶段，Cloud-Init 主要执行以下操作：

识别数据源：通过检查硬件内置值来识别实例运行的数据源，数据源是所有配置数据的来源。
获取配置数据：一旦识别出数据源，Cloud-Init 从中获取配置数据。这些数据指示 Cloud-Init 要执行的操作，可能包括实例的元数据（如机器 ID、主机名和网络配置）、供应商数据和用户数据（userdata）。其中，供应商数据由云供应商提供，用户数据（userdata）由用户提供，这些数据通常在网络配置之后应用。
写入网络配置：Cloud-Init 写入网络配置并配置 DNS，以备网络服务启动时应用。

晚期启动阶段

在网络配置之后的启动阶段，Cloud-Init 执行非关键配置任务，根据供应商数据和用户数据（userdata）配置运行中的实例。具体操作包括：

配置管理：Cloud-Init 可以与 Puppet、Ansible 或 Chef 等工具交互，应用更复杂的配置并确保系统是最新的。
安装软件：在此阶段，Cloud-Init 可以安装软件，并运行软件更新以确保系统完全更新并准备就绪。
用户账户：Cloud-Init 能够创建和修改用户账户，设置默认密码，并配置权限。
执行用户脚本：如果用户数据中提供了自定义脚本，Cloud-Init 可以运行它们，允许安装附加指定的软件，应用安全设置等。它还可以将 SSH 密钥注入到实例的 authorized_keys 文件中，从而允许安全地远程访问机器。

启动阶段的细分

Detect：运行平台识别工具 ds-identify 以确定实例运行的平台。
Local：在 Cloud-Init-local.service 下运行，主要负责识别“本地”数据源和应用网络配置。Network：在 Cloud-Init.service 下运行，要求所有配置的网络在线，并处理用户数据。Config：在 cloud-config.service 下运行，只运行配置模块，如 runcmd。
Final：在 cloud-final.service 下运行，是引导的最后一部分，运行用户定义的代码。

Cloud-Init 与其他工具的区别和工作流

虽然 Cloud-Init、Packer 和 Ansible 都是自动化部署和配置工具，但它们在功能、定位和工作流方面有所不同。

Cloud-Init 主要专注于云实例的初始启动和配置过程。
Packer 专注于创建不变的机器镜像，以便在多个平台上复用。
Ansible 则是一个更全面的配置管理和应用部署工具，适用于系统配置和应用部署的自动化。

这些工具虽然在某些方面有重叠，但通过协同工作，它们可以在不同阶段提供更加精细化和高效的自动化部署和管理流程。

总结

本文详细介绍了 Cloud-Init 的功能和使用场景以及介绍了其与其他自动化部署工具的区别。希望这对你有所帮助。
AutoMQ[2] 致力于引领消息和流系统走向云原生时代。充分利用云上成熟和规模化的云服务兑现云的价值和潜力是我们一直在贯彻的宗旨。为了更好地使用云服务，充分了解各种云服务的特性、定价、原理是我们义不容辞的任务。在未来，我们也将持续为大家分享云技术，做你身边的云专家，让我们一起用好云，将云的价值真正发挥出来。

参考资料

[1] Cloud-Init: https://github.com/canonical/Cloud-Init
[2] AutoMQ: https://github.com/AutoMQ/automq
[3] Introduction to Cloud-Init: https://cloudinit.readthedocs.io/en/latest/explanation/introd...

END

关于我们

我们是来自 Apache RocketMQ 和 Linux LVS 项目的核心团队，曾经见证并应对过消息队列基础设施在大型互联网公司和云计算公司的挑战。现在我们基于对象存储优先、存算分离、多云原生等技术理念，重新设计并实现了 Apache Kafka 和 Apache RocketMQ，带来高达 10 倍的成本优势和百倍的弹性效率提升。

🌟 GitHub 地址：https://github.com/AutoMQ/automq
💻 官网：https://www.automq.com

云实例初始化的行业标准：Cloud-Init

AutoMQ

引用和评论

Kafka Linking：揭秘 AutoMQ 如何实现全球首个Zero-Downtime Kafka 迁移方案

Java8的新特性

Java11的新特性

Java5的新特性

Java9的新特性

Java13的新特性

Java7的新特性