GPULlama3.java 将 GPU 加速的大型语言模型推理引入纯 Java 中

主要观点:曼彻斯特大学的 Beehive Lab 发布了 GPULlama3.java,这是 Llama3 的首个 Java 原生实现并具有自动 GPU 加速,利用 TornadoVM 实现,无需开发者写 CUDA 或原生代码,能改变 Java 开发者在企业环境中处理 AI 应用的方式。
关键信息

  • TornadoVM 是创新的异构编程框架,可在 GPU、FPGA 和多核 CPU 上自动加速 Java 程序,通过扩展 GraalVM 实现。
  • 系统通过扩展 Graal JIT 编译器,用特殊后端将 Java 字节码转换为 GPU 兼容代码,标记为加速的方法会进行相应转换。
  • GPULlama3.java 支持 NVIDIA、Intel 和 Apple Silicon 等多种硬件后端,通过命令行标志配置,利用现代 Java 特性如 Java 21+、GGUF 格式、量化支持等。
  • 项目基于 Mukel 的原始 Llama3.java 并添加 TornadoVM 集成,加入了其他 Java LLM 项目,Java 生态系统在扩展 AI/ML 能力。
  • TornadoVM 起源于曼彻斯特大学研究,自 2013 年发展,GPULlama3.java 处于 beta 阶段,在 Apple Silicon 上性能欠佳,正在开发 Metal 后端。
    重要细节
  • 给出了 TornadoVM 的 Task-Graph API 示例和编程指南说明。
  • 提到不同硬件后端的支持情况,如 NVIDIA 全支持 OpenCL 和 PTX 后端,Intel 通过 OpenCL 支持 Arc 和集成显卡,Apple Silicon 通过 OpenCL 支持 M1/M2/M3 但已弃用 OpenCL favor Metal。
  • 给出了运行 GPULlama3.java 的命令行示例。
  • 强调了项目的开源性及对开发者的帮助,同时指出性能优化仍在进行中。
阅读 197
0 条评论