2024 年 10 月 29 日:
- 发布 LLM 0.17,这是用于与数百种不同大语言模型交互的组合命令行工具和 Python 库的最新版本,如 GPT-4o、Llama、Claude 和 Gemini。
- 0.17 的主要特征是可用于提示多模态模型,能发送图像、音频和视频文件给能处理它们的 LLM。
- 处理图像示例:安装 LLM 后设置 OpenAI 密钥,使用
llm 'describe this image' -a https://static.simonwillison.net/static/2024/pelican.jpg等命令描述图像,不同模型费用不同,如 gpt-4o-mini 约 0.218 美分,gpt-4o 约 0.1787 美分。 - 使用插件运行音频和视频示例:安装
llm-gemini并设置 Gemini API 密钥,使用llm 'describe this image' -a https://static.simonwillison.net/static/2024/pelican.jpg -m gemini-1.5-pro-latest等命令处理图像和音频,如转录 7 分 40 秒音频约 0.0833 美分。 - Python API 示例:使用
import llm等代码通过 Python 库执行多模态提示并附加文件,任何模型插件都可用相同接口,可方便尝试不同模型。 - 潜在应用举例:如用 Bash 脚本为目录中每个图像生成
alt=文本,在 Discord 频道有各种创意用法,如判断图像是否有雾等,但仍需评估模型在不同任务中的表现,且存在 AI 相关风险。 - 2024 年 11 月 12 日更新:现在可使用 Ollama、llm-ollama 和 Llama 3.2 Vision 在本地机器上运行图像提示。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。