现在你可以在终端中使用 LLM 针对图像、音频和视频运行提示。

发布于 2024-10-29

2024 年 10 月 29 日：

发布 LLM 0.17，这是用于与数百种不同大语言模型交互的组合命令行工具和 Python 库的最新版本，如 GPT-4o、Llama、Claude 和 Gemini。
0.17 的主要特征是可用于提示多模态模型，能发送图像、音频和视频文件给能处理它们的 LLM。
处理图像示例：安装 LLM 后设置 OpenAI 密钥，使用llm 'describe this image' -a https://static.simonwillison.net/static/2024/pelican.jpg等命令描述图像，不同模型费用不同，如 gpt-4o-mini 约 0.218 美分，gpt-4o 约 0.1787 美分。
使用插件运行音频和视频示例：安装llm-gemini并设置 Gemini API 密钥，使用llm 'describe this image' -a https://static.simonwillison.net/static/2024/pelican.jpg -m gemini-1.5-pro-latest等命令处理图像和音频，如转录 7 分 40 秒音频约 0.0833 美分。
Python API 示例：使用import llm等代码通过 Python 库执行多模态提示并附加文件，任何模型插件都可用相同接口，可方便尝试不同模型。
潜在应用举例：如用 Bash 脚本为目录中每个图像生成alt=文本，在 Discord 频道有各种创意用法，如判断图像是否有雾等，但仍需评估模型在不同任务中的表现，且存在 AI 相关风险。
2024 年 11 月 12 日更新：现在可使用 Ollama、llm-ollama 和 Llama 3.2 Vision 在本地机器上运行图像提示。

阅读 41