主要观点:Qwen 团队宣布 Qwen3-Coder 系列代码模型,用于长上下文多步编程任务,最强大变体有 4800 亿参数和 350 亿活跃参数,支持 256K 令牌及通过上下文扩展达 100 万,强调执行和决策,通过强化学习在真实任务中训练,还扩展长程智能体强化学习,部署可在云基础设施上运行 20000 个并行环境的系统;发布 Qwen Code 开源命令行界面,Claude Code 用户可通过代理或路由配置在 DashScope 路由请求,CLI 工具兼容多种环境;Qwen3-Coder 现通过 DashScope API 可用,开发者可使用国际端点,预计不久后发布其他模型尺寸,降低推理成本;部分 Reddit 用户指出本地部署大模型需大量基础设施,运行小版本可降低费用,需平衡 GPU 成本与云或托管解决方案。
关键信息:
- 模型系列:Qwen3-Coder
- 变体参数:4800 亿参数、350 亿活跃参数
- 支持令牌:256K 原生、100 万扩展
- 训练方式:强化学习
- 相关工具:Qwen Code、可通过代理或路由在 DashScope 路由请求的 Claude Code
- 可用方式:通过 DashScope API,国际端点可用
- 未来工作:扩展 Qwen Coding Agent 及探索自我提升机制
重要细节: - 模型旨在处理仓库规模输入和扩展工具交互
- 训练在模拟环境中进行,模型能使用工具和响应多轮反馈
- Qwen Code 是从 Gemini CLI 分叉的开源界面,可通过 npm 安装并支持 OpenAI 兼容 API
- CLI 工具兼容 Cline、Node.js 和 Python 环境,有完整环境变量和 API 支持
- 本地部署大模型需合适多 GPU 设置,运行小版本可降低费用,需平衡成本与需求等因素
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。