RuntimeError: DataLoader worker (pid 5909) is killed by****

近期在测试环境中的Docker中跑项目的时候遇到的错误，记录下来方便日后查阅。关键错误log如下：


  File "/usr/lib/python3.6/multiprocessing/queues.py", line 113, in get
    return _ForkingPickler.loads(res)
  File "/usr/local/lib/python3.6/dist-packages/torch/multiprocessing/reductions.py", line 282, in rebuild_storage_fd
    fd = df.detach()
  File "/usr/lib/python3.6/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
  File "/usr/lib/python3.6/multiprocessing/resource_sharer.py", line 87, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
  File "/usr/lib/python3.6/multiprocessing/connection.py", line 493, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.6/multiprocessing/connection.py", line 732, in answer_challenge
    message = connection.recv_bytes(256)         # reject large message
  File "/usr/lib/python3.6/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
  File "/usr/lib/python3.6/multiprocessing/connection.py", line 407, in _recv_bytes
    buf = self._recv(4)
  File "/usr/lib/python3.6/multiprocessing/connection.py", line 379, in _recv
    chunk = read(handle, remaining)
ConnectionResetError: [Errno 104] Connection reset by peer
Error in atexit._run_exitfuncs:
Traceback (most recent call last):
  File "/usr/lib/python3.6/multiprocessing/popen_fork.py", line 28, in poll
    pid, sts = os.waitpid(self.pid, flag)
  File "/usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils/signal_handling.py", line 66, in handler
    _error_if_any_worker_fails()
RuntimeError: DataLoader worker (pid 5909) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.

于是在容器中使用df -h查看share memory的大小：部分结果如下所示：
shm 64M 0 64M 0% /dev/shm
这尴尬的。。。问题锁定，就是由于Docker容器中share memory不足造成的bug。
解决方法：在docker run创建容器的时候加入 --shm-size 8G的参数就OK了。

RuntimeError: DataLoader worker (pid 5909) is killed by****

Oops

引用和评论

DDPM 理解

🔥吐血整理 Bolt.diy 部署与应用攻略

【Docker】基本概念及语法与环境搭建

狂揽17k star！Docker可视化神器，一键部署项目真香！

Docker 安装报【未打开 com.docker.vmnetd 因其包含恶意软件此操作未对 mac 造成危害】

麒麟系统中theia终端崩溃问题排查小记

Jenkins SSH 认证失败问题 (`com.jcraft.jsch.JSchException: Auth fail`)