祛魅最热门的通用Agent赛道

一、引言

Artificial Intelligence (人工智能) 领域的产品形态一直在变化。

最初 ChatGPT 等产品主要用于文本生成和对话、写文章、生成代码和创作等。随着不断发展，AI产品的能力扩展到各种垂直领域的赛道，出现了如 Stable Diffusion 等可用文本生成图像和视频的产品，用户只需输入文本描述即可生成相应的图像和视频。

但AI赛道还处于早期，正在疯狂创新，创新就是会激进的推翻过去一切。

Manus 出来的那天大家都被点燃了，原来AI的产品可以这么激进，竟然能代替我们去规划任务、执行我们日常在电脑上所操作的大部分日常任务。

二、不同Agent产品形态

垂直型Agent产品：专注于某个垂直领域（比如文生图、文生视频、写代码）
通用型Agent产品的不同：
- 通用性：不只专注于某个垂直领域（比如文生图、客服、写代码），而是能跨场景工作，例如：写报告、发邮件、下订单、查资料、写代码、处理表格等。
- 强大的自主性：可以根据目标任务进行自主规划和多步骤执行，不再是一步一问式地依赖人类指令。例如：你只告诉它“帮我写一篇关于新能源的调研报告”，它会自己查资料、归纳、撰写、润色、输出。
- 更强的工具调度能力：可以调用浏览器、Python脚本、第三方 API、数据库等各种工具，甚至可以自己安装和调用插件，解决任务中遇到的问题。
本质上所有的Agent都是基于LLM（大语言模型）和其它模型做了二次封装

三、几款有代表性的通用Agent产品介绍

1. [Manus - 第一个发布并点燃通用型Agent赛道的产品]

亮点：运行在真正、独立的虚拟机沙盒中

2. [Coze空间 - 字节跳动旗下]

亮点：字节跳动背书，支持通过mcp接入字节生态圈产品

3. [超级麦吉 - Super Magic ]

亮点：首个全部开源的一站式 AI 生产力平台

上述的通用Agent产品，Manus是使用了真正的虚拟机，超级麦吉是做到了一站式 AI 生产力平台，并将通用型Agent产品的代码全部开源。

四、通用型 Agent 的实现原理

首先，通用型 Agent也是由LLM驱动，它会接收你的输入，比如你问它一个问题或者让它帮忙做事。接着，它会分析你说的是什么意思，确定你的目的是什么。然后，它会根据这个目的，结合之前的对话和它记得的信息，想出一个行动计划。为了完成这个计划，它可能会调用各种工具或服务，比如查资料、调用接口、执行代码等。完成这些动作后，它会把结果整理好，然后输出给到你。

这是通用型Agent的常见架构：

本质上通用型Agent也是LLM驱动，无非是多了可以根据用户的提示词规划出对应的任务，并有了更多的工具，甚至可以自己打造工具给自己调用。

我们用一段 Node.js代码来简单实现这个架构图的内容：

// agent.js - 通用型 Agent 核心框架

// 1. 用户输入
async function handleUserInput(userInput, userId) {
  const perception = await perceive(userInput);
  const intent = await recognizeIntent(perception);
  const memory = await getMemory(userId);
  const plan = await planTask(intent, memory);
  const result = await executePlan(plan);
  const response = await generateResponse(result);

  // 可选：更新用户记忆
  await updateMemory(userId, intent, result);

  return response;
}

// 2. 感知层（对原始输入进行预处理）
async function perceive(rawInput) {
  return {
    cleanedText: rawInput.trim().toLowerCase(),
    tokens: rawInput.split(/\s+/)
  };
}

// 3. 意图识别
async function recognizeIntent(perception) {
  const text = perception.cleanedText;

  if (text.includes("天气")) return { type: "query_weather", location: "上海" };
  if (text.includes("写代码")) return { type: "generate_code", language: "javascript" };

  return { type: "unknown" };
}

// 4. 记忆模块（简单缓存）
const memoryDB = {};

async function getMemory(userId) {
  return memoryDB[userId] || {};
}

async function updateMemory(userId, intent, result) {
  memoryDB[userId] = {
    lastIntent: intent,
    lastResult: result
  };
}

// 5. 任务规划器
async function planTask(intent, memory) {
  switch (intent.type) {
    case "query_weather":
      return {
        steps: ["fetchWeather"],
        params: { location: intent.location }
      };
    case "generate_code":
      return {
        steps: ["invokeLLM"],
        params: { prompt: "写一个JavaScript函数，实现加法" }
      };
    default:
      return { steps: ["defaultReply"], params: {} };
  }
}

// 6. 执行器
async function executePlan(plan) {
  const { steps, params } = plan;

  if (steps.includes("fetchWeather")) {
    return await fakeWeatherAPI(params.location);
  }

  if (steps.includes("invokeLLM")) {
    return await fakeLLM(params.prompt);
  }

  return "我还不会处理这个请求哦～";
}

// 工具模拟
async function fakeWeatherAPI(city) {
  return `今天天气晴朗，${city}气温28℃。`;
}

async function fakeLLM(prompt) {
  return `function add(a, b) { return a + b; } // ${prompt}`;
}

// 7. 响应生成
async function generateResponse(data) {
  return `这是你的结果：\n${data}`;
}

调用示例：

handleUserInput("帮我查一下上海的天气", "user123")
  .then(console.log);

这个结构模拟了一个基础但清晰的通用 Agent 系统流程：

模块	功能说明
感知层	清洗原始输入
意图识别	判断用户要干啥
记忆模块	记住用户历史
任务规划	拆解目标成步骤
工具调用	模拟API、语言模型等工具调用
响应生成	把结果包装成自然语言回复

五、通用型Agent到底能做什么？

以 超级麦吉 为例：

预测小米YU7的配置和价格：

巴菲特的股东大会邀请了你，但你没时间参加，也没时间看媒体的回放。它可以帮你生成对应的报告总结。

以Manus为例，针对数据做分析与处理

结论：通用型Agent能代替坐办公室的打工人做脏话累活，但目前任需人工校验。另外，通用型Agent无法代替打工人被老板diss,所以打工人无法被通用型Agent替代

六、启动开源的通用型Agent - 超级麦吉

1. 拉代码

git clone git@github.com:dtyq/magic.git
  
cd magic

2.生成.env文件

cp .env.example .env
cp config/.env_super_magic.example config/.env_super_magic
cp config/.env_magic_gateway.example config/.env_magic_gateway
cp config/.env_sandbox_gateway.example config/.env_sandbox_gateway

3.选择模型和注入key

直接修改 /config/..env_super_magic文件内容,配置上你想要的模型和key，以及Bing的key就可以跑了：

# LLMs Configuration
# Supports large models in any openai format
OPENAI_API_BASE_URL="https://api.openai.com/v1"
OPENAI_API_KEY="OPENAI_API_KEY"
OPENAI_MODEL="gpt-4o-global"
OPENAI_4_1_MODEL="gpt-4.1"
OPENAI_4_1_MINI_MODEL="gpt-4o-mini"
OPENAI_4_1_NANO_MODEL="gpt-4o-nano"

# Bing Search
BING_SUBSCRIPTION_ENDPOINT="https://api.bing.microsoft.com/v7.0"
BING_SUBSCRIPTION_KEY=BING_SUBSCRIPTION_KEY

4.启动超级麦吉

执行

./bin/magic.sh start

等启动完成以后，直接访问 localhost:8080即可看到超级麦吉的登录页面，输入手机号和密码即可登录：

账号 13812345678：密码为 letsmagic.ai

开发文档：https://docs.letsmagic.cn/zh/development/advanced/init.html

5.用DeepSeek也可以跑

我在本地用DeepSeek成功启动，跑任务相当快,算是真的彻底开源并可以一键部署的一站式 AI 生产力平台吧，我也还在等他们其它的产品开源。

有兴趣的可以去看超级麦吉他们的官网:
https://letsmagic.cn

六、总结与展望

AI的目的并非是要代替人，而是要让人更好、更快的工作
目前通用Agent形态产品或许这不是最终的形态，但目前确实能够帮助我们更好的工作，替代我们去做一些脏话、累活，我们只需要在关键时刻人工介入即可，跟使用 Cursor 是类似的
AI还处于非常早期，要坚信未来AI能给我们带来的远远不止今天这些

祛魅最热门的通用Agent赛道