概述

在做mongo建连优化时,突然发现打出的包无法启动。有日志如下:

{"Kernel pid terminated",application_controller,"{application_start_failure,kernel,{{shutdown,{failed_to_start_child,kernel_safe_sup,{on_load_function_failed,fast_pbkdf2}}},{kernel,start,[normal,[]]}}}"}
Kernel pid terminated (application_controller) ({application_start_failure,kernel,{{shutdown,{failed_to_start_child,kernel_safe_sup,{on_load_function_failed,fast_pbkdf2}}},{kernel,start,[normal,[]]}}}

原因是打包机的环境变更,导致:

root@xxxxx:/srv/apps/xxxxx/lib/fast_pbkdf2-1.0.5/priv# ldd fast_pbkdf2.so 
        linux-vdso.so.1 =>  (0x00007ffc71bc6000)
        libcrypto.so.1.1 => not found
        libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007faf60b69000)
        /lib64/ld-linux-x86-64.so.2 (0x00007faf61139000)

排查过程

  1. 回滚代码到可启动包代码。重新打包,也无法启动。
  2. 基本判定是打包机环境变更问题。并找了打包机的管理同学。
  3. 设可运行包为a,不可运行包为b,对比a, b的差异。
  4. a, b包均可在开发环境正常运行。
  5. nm 命令对比 a/b 的fast_pbkdf2.so symbols。
  6. 用 erlang crash viewer 查看 crashdump,无有效信息。
  7. 打包机管理同学发现回滚mongodb安装后问题修复。
  8. ldd 命令发现真正问题:打包机安装mongodb后,fast_pbkdf2.so link到了libcrypto.so.1.1,而之前是 libcrypto.so.1.0.0,我本地开发环境有libcrypto.so.1.1,故a, b都可运行,而生产容器只有 libcrypto.so.1.0.0,所以运行失败。

    代码

    OTP-24.1
    init.erl:1465
    erlang load 失败时,会on_load_function_failed。这里除了load失败的模块,没有携带任何有效信息。

    run_on_load_handlers([M|Ms], Debug) ->
     debug(Debug, {running_on_load_handler,M}),
     Fun = fun() ->
           Res = erlang:call_on_load_function(M),
           exit(Res)
       end,
     {Pid,Ref} = spawn_monitor(Fun),
     receive
     {'DOWN',Ref,process,Pid,OnLoadRes} ->
         Keep = OnLoadRes =:= ok,
         erlang:finish_after_on_load(M, Keep),
         case Keep of
         false ->
             Error = {on_load_function_failed,M},
             debug(Debug, Error),
             exit(Error);
         true ->
             debug(Debug, {on_load_handler_returned_ok,M}),
             run_on_load_handlers(Ms, Debug)
         end
     end;
    run_on_load_handlers([], _) -> ok.

    结论

  • erlang 遇到动态库的on_load_function_failed时,从 c/c++ 动态库加载的角度排查。
  • 打包应该保持和生产环境一致,可以用同一个docker镜像。

enjolras1205
77 声望9 粉丝