怎样构建一个好的 Docker 镜像

本文的原文地址是 What constitutes a good docker image?

注:本文不会全部翻译,只会挑选个人认为有价值的部分进行摘取性翻译,如想详细阅读,请看原文

构建一个好的 Docker 镜像

debian 的基础镜像

在撰写本文时,ubuntu:14.04 为 195 MB,然而 debian:wheezy 是 85 MB,但是 Ubuntu 额外的几百兆字节不会给你带来任何价值(我所知道的)。在一些极端情况下,甚至可能你的基础镜像是 2 MB busybox。这可能仅仅实际上是二进制包的静态连接。

没有充足的原因,不要安装构建工具

构建工具占用太多空间,并且从源码构建通常很慢。如果你只是安装别人的软件,通常不需要从源码构建,并且它应该被避免。比如,没有必要安装 python,gcc 等等。为了获取最新版本的 node.js 并运行在一台 Debian 主机上。在 node.js downloads page 这里有一个可用的二进制的压缩包。类似的,redis 可以通过包管理器安装。

至少有几个很好的理由使用构建工具:

  • 你需要一个指定的版本(比如,在 Debian 仓库,redis 版本太老)
  • 你需要使用指定的选项编译
  • 你需要 npm install 安装一些模块来编译进二进制包

在第二种情况下,好好的想清楚,你是否真应该这样做。在第三种情况下,我建议在另外一个 "npm installer" 镜像安装构建工具,基于最小的 node.js 镜像。

不要遗留临时文件

下面的 Dockerfile 结果镜像大小是 109 MB:

FROM debian:wheezy
RUN apt-get update && apt-get install -y wget
RUN wget http://cachefly.cachefly.net/10mb.test
RUN rm 10mb.test

在另一方面,这看似相当的 Dockerfile 结果镜像大小是 99 MB:

FROM debian:wheezy
RUN apt-get update && apt-get install -y wget
RUN wget http://cachefly.cachefly.net/10mb.test && rm 10mb.test

因此看起来如果你在 Dockerfile 的两个步骤之间在磁盘空间留下了一个文件,当你删除这个文件的时候,空间不会被回收。也可以完全避免临时文件,仅仅在命令行之间管道输出。比如:

wget -O - http://nodejs.org/dist/v0.10.32/node-v0.10.32-linux-x64.tar.gz | tar zxf -

将提取压缩文件,并没有把它放在文件系统上。

包管理后进行清理

如果你运行 apt-get update 设置你的容器,它在 /var/lib/apt/lists/ 目录构成了数据,但是一旦镜像完成,这些数据是不需要的。你可以安全的清理那个目录来节约一些兆字节。

这个 Dockerfile 生成一个 99 MB 镜像:

FROM debian:wheezy
RUN apt-get update && apt-get install -y wget

然而这个生成一个 90 MB 的镜像:

FROM debian:wheezy
RUN apt-get update && apt-get install -y wget && rm -rf /var/lib/apt/lists/*

指定包的版本

当一个 Docker 镜像是不可变的,一个 Dockerfile 是不保证在运行在不同的时间生成相同的输出。这个问题,当然,是外部状态,并且我们难以控制它。最好在某种程度上最小化你的 Dockerfile 外部状态的影响,这是有可能的。做这个的一个简单方式是指定包的版本,当通过包管理器更新的时候。这里有一个怎样做的示例:

# apt-get update
# apt-cache showpkg redis-server
Package: redis-server
Versions:
2:2.4.14-1
...

# apt-get install redis-server=2:2.4.14-1

我们所能希望的是,但是这是没有保障的,包仓库从现在开始的一年仍然会是这个版本。尽管如此,明确的显示你镜像中依赖的软件版本是不可否认的价值。

组合命令

如果你有一系列的相关命令,最好的方式是在一个命令中串联它们。这是一个更有意义的构建缓存(逻辑分组步骤集中到一个缓存步骤)并使得文件系统层级数量降下来了(我认为通常这是可取的,但是不知道在客观上是否是更好的)。

反斜线符号 \ 在这里帮助你提升可读性:

RUN apt-get update && \
    apt-get install -y \
        wget=1.13.4-3+deb7u1 \
        ca-certificates=20130119 \
        ...

使用环境变量避免重复

这是我阅读官方的 node.js Docker 镜像的 Dockerfile 学来的一个技巧。此外,这个 Dockerfile 是非常棒的。我唯一的指责就是它是基于一个巨大的 buildpack-deps 镜像,带着各种各样我不需要或不想要的东西。

你可以使用 ENV 定义环境变量,然后在一系列的命令中引用它们。下面,我从链接的 Dockerfile 中转述了摘要:

ENV NODE_VERSION 0.10.32

RUN curl -SLO "http://nodejs.org/dist/v$NODE_VERSION/node-v$NODE_VERSION-linux-x64.tar.gz" \
    && tar -xzf "node-v$NODE_VERSION-linux-x64.tar.gz" -C /usr/local --strip-components=1 \
    && rm "node-v$NODE_VERSION-linux-x64.tar.gz"

上面这个版本信息,你只需要使用环境变量 NODE_VERSION 定义一次即可,而不用每次都写。

阅读 7.1k

推荐阅读
yexiaoxiaobai
用户专栏

刀锋上的跳舞的 SRE,喜爱 Perl, Python, Go,常被正则婊戏耍,热衷于鼓捣一些小玩具。

129 人关注
151 篇文章
专栏主页