GPULlama3.java 将 GPU 加速的大型语言模型推理引入纯 Java 中

发布于 2025-06-24

主要观点：曼彻斯特大学的 Beehive Lab 发布了 GPULlama3.java，这是 Llama3 的首个 Java 原生实现并具有自动 GPU 加速，利用 TornadoVM 实现，无需开发者写 CUDA 或原生代码，能改变 Java 开发者在企业环境中处理 AI 应用的方式。
关键信息：

TornadoVM 是创新的异构编程框架，可在 GPU、FPGA 和多核 CPU 上自动加速 Java 程序，通过扩展 GraalVM 实现。
系统通过扩展 Graal JIT 编译器，用特殊后端将 Java 字节码转换为 GPU 兼容代码，标记为加速的方法会进行相应转换。
GPULlama3.java 支持 NVIDIA、Intel 和 Apple Silicon 等多种硬件后端，通过命令行标志配置，利用现代 Java 特性如 Java 21+、GGUF 格式、量化支持等。
项目基于 Mukel 的原始 Llama3.java 并添加 TornadoVM 集成，加入了其他 Java LLM 项目，Java 生态系统在扩展 AI/ML 能力。
TornadoVM 起源于曼彻斯特大学研究，自 2013 年发展，GPULlama3.java 处于 beta 阶段，在 Apple Silicon 上性能欠佳，正在开发 Metal 后端。
重要细节：
给出了 TornadoVM 的 Task-Graph API 示例和编程指南说明。
提到不同硬件后端的支持情况，如 NVIDIA 全支持 OpenCL 和 PTX 后端，Intel 通过 OpenCL 支持 Arc 和集成显卡，Apple Silicon 通过 OpenCL 支持 M1/M2/M3 但已弃用 OpenCL favor Metal。
给出了运行 GPULlama3.java 的命令行示例。
强调了项目的开源性及对开发者的帮助，同时指出性能优化仍在进行中。

阅读 341