祛魅最热门的通用Agent赛道
一、引言
Artificial Intelligence (人工智能) 领域的产品形态一直在变化。
最初 ChatGPT 等产品主要用于文本生成和对话、写文章、生成代码和创作等。随着不断发展,AI产品的能力扩展到各种垂直领域的赛道,出现了如 Stable Diffusion 等可用文本生成图像和视频的产品,用户只需输入文本描述即可生成相应的图像和视频。
但AI赛道还处于早期,正在疯狂创新,创新就是会激进的推翻过去一切。
Manus 出来的那天大家都被点燃了,原来AI的产品可以这么激进,竟然能代替我们去规划任务、执行我们日常在电脑上所操作的大部分日常任务。
二、不同Agent产品形态
- 垂直型Agent产品:专注于某个垂直领域(比如文生图、文生视频、写代码)
通用型Agent产品的不同:
- 通用性:不只专注于某个垂直领域(比如文生图、客服、写代码),而是能跨场景工作,例如:写报告、发邮件、下订单、查资料、写代码、处理表格等。
- 强大的自主性:可以根据目标任务进行自主规划和多步骤执行,不再是一步一问式地依赖人类指令。例如:你只告诉它“帮我写一篇关于新能源的调研报告”,它会自己查资料、归纳、撰写、润色、输出。
- 更强的工具调度能力:可以调用浏览器、Python脚本、第三方 API、数据库等各种工具,甚至可以自己安装和调用插件,解决任务中遇到的问题。
本质上所有的Agent都是基于LLM(大语言模型)和其它模型做了二次封装
三、几款有代表性的通用Agent产品介绍
1. [Manus - 第一个发布并点燃通用型Agent赛道的产品]
亮点:运行在真正、独立的虚拟机沙盒中
2. [Coze空间 - 字节跳动旗下]
亮点:字节跳动背书,支持通过mcp接入字节生态圈产品
3. [超级麦吉 - Super Magic ]
亮点:首个全部开源的一站式 AI 生产力平台
上述的通用Agent产品,Manus是使用了真正的虚拟机,超级麦吉是做到了一站式 AI 生产力平台,并将通用型Agent产品的代码全部开源。
四、通用型 Agent 的实现原理
首先,通用型 Agent也是由LLM驱动,它会接收你的输入,比如你问它一个问题或者让它帮忙做事。接着,它会分析你说的是什么意思,确定你的目的是什么。然后,它会根据这个目的,结合之前的对话和它记得的信息,想出一个行动计划。为了完成这个计划,它可能会调用各种工具或服务,比如查资料、调用接口、执行代码等。完成这些动作后,它会把结果整理好,然后输出给到你。
这是通用型Agent的常见架构:
本质上通用型Agent也是LLM驱动,无非是多了可以根据用户的提示词规划出对应的任务,并有了更多的工具,甚至可以自己打造工具给自己调用。
我们用一段 Node.js
代码来简单实现这个架构图的内容:
// agent.js - 通用型 Agent 核心框架
// 1. 用户输入
async function handleUserInput(userInput, userId) {
const perception = await perceive(userInput);
const intent = await recognizeIntent(perception);
const memory = await getMemory(userId);
const plan = await planTask(intent, memory);
const result = await executePlan(plan);
const response = await generateResponse(result);
// 可选:更新用户记忆
await updateMemory(userId, intent, result);
return response;
}
// 2. 感知层(对原始输入进行预处理)
async function perceive(rawInput) {
return {
cleanedText: rawInput.trim().toLowerCase(),
tokens: rawInput.split(/\s+/)
};
}
// 3. 意图识别
async function recognizeIntent(perception) {
const text = perception.cleanedText;
if (text.includes("天气")) return { type: "query_weather", location: "上海" };
if (text.includes("写代码")) return { type: "generate_code", language: "javascript" };
return { type: "unknown" };
}
// 4. 记忆模块(简单缓存)
const memoryDB = {};
async function getMemory(userId) {
return memoryDB[userId] || {};
}
async function updateMemory(userId, intent, result) {
memoryDB[userId] = {
lastIntent: intent,
lastResult: result
};
}
// 5. 任务规划器
async function planTask(intent, memory) {
switch (intent.type) {
case "query_weather":
return {
steps: ["fetchWeather"],
params: { location: intent.location }
};
case "generate_code":
return {
steps: ["invokeLLM"],
params: { prompt: "写一个JavaScript函数,实现加法" }
};
default:
return { steps: ["defaultReply"], params: {} };
}
}
// 6. 执行器
async function executePlan(plan) {
const { steps, params } = plan;
if (steps.includes("fetchWeather")) {
return await fakeWeatherAPI(params.location);
}
if (steps.includes("invokeLLM")) {
return await fakeLLM(params.prompt);
}
return "我还不会处理这个请求哦~";
}
// 工具模拟
async function fakeWeatherAPI(city) {
return `今天天气晴朗,${city}气温28℃。`;
}
async function fakeLLM(prompt) {
return `function add(a, b) { return a + b; } // ${prompt}`;
}
// 7. 响应生成
async function generateResponse(data) {
return `这是你的结果:\n${data}`;
}
调用示例:
handleUserInput("帮我查一下上海的天气", "user123")
.then(console.log);
这个结构模拟了一个基础但清晰的通用 Agent 系统流程:
模块 | 功能说明 |
---|---|
感知层 | 清洗原始输入 |
意图识别 | 判断用户要干啥 |
记忆模块 | 记住用户历史 |
任务规划 | 拆解目标成步骤 |
工具调用 | 模拟API、语言模型等工具调用 |
响应生成 | 把结果包装成自然语言回复 |
五、通用型Agent到底能做什么?
以 超级麦吉 为例:
预测小米YU7的配置和价格:
巴菲特的股东大会邀请了你,但你没时间参加,也没时间看媒体的回放。它可以帮你生成对应的报告总结。
以Manus为例,针对数据做分析与处理
结论: 通用型Agent能代替坐办公室的打工人做脏话累活,但目前任需人工校验。 另外,通用型Agent无法代替打工人被老板diss,所以打工人无法被通用型Agent替代
六、启动开源的通用型Agent - 超级麦吉
1. 拉代码
git clone git@github.com:dtyq/magic.git
cd magic
2.生成.env文件
cp .env.example .env
cp config/.env_super_magic.example config/.env_super_magic
cp config/.env_magic_gateway.example config/.env_magic_gateway
cp config/.env_sandbox_gateway.example config/.env_sandbox_gateway
3.选择模型和注入key
直接修改 /config/..env_super_magic
文件内容,配置上你想要的模型和key,以及Bing的key就可以跑了:
# LLMs Configuration
# Supports large models in any openai format
OPENAI_API_BASE_URL="https://api.openai.com/v1"
OPENAI_API_KEY="OPENAI_API_KEY"
OPENAI_MODEL="gpt-4o-global"
OPENAI_4_1_MODEL="gpt-4.1"
OPENAI_4_1_MINI_MODEL="gpt-4o-mini"
OPENAI_4_1_NANO_MODEL="gpt-4o-nano"
# Bing Search
BING_SUBSCRIPTION_ENDPOINT="https://api.bing.microsoft.com/v7.0"
BING_SUBSCRIPTION_KEY=BING_SUBSCRIPTION_KEY
4.启动超级麦吉
执行
./bin/magic.sh start
等启动完成以后,直接访问 localhost:8080
即可看到超级麦吉的登录页面,输入手机号和密码即可登录:
- 账号
13812345678
:密码为letsmagic.ai
开发文档:https://docs.letsmagic.cn/zh/development/advanced/init.html
5.用DeepSeek也可以跑
我在本地用DeepSeek成功启动,跑任务相当快,算是真的彻底开源并可以一键部署的一站式 AI 生产力平台吧,我也还在等他们其它的产品开源。
有兴趣的可以去看超级麦吉他们的官网:https://letsmagic.cn
六、总结与展望
- AI的目的并非是要代替人,而是要让人更好、更快的工作
- 目前通用Agent形态产品或许这不是最终的形态,但目前确实能够帮助我们更好的工作,替代我们去做一些脏话、累活,我们只需要在关键时刻人工介入即可,跟使用 Cursor 是类似的
- AI还处于非常早期,要坚信未来AI能给我们带来的远远不止今天这些
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。