1

祛魅最热门的通用Agent赛道

一、引言

Artificial Intelligence (人工智能) 领域的产品形态一直在变化。

最初 ChatGPT 等产品主要用于文本生成和对话、写文章、生成代码和创作等。随着不断发展,AI产品的能力扩展到各种垂直领域的赛道,出现了如 Stable Diffusion 等可用文本生成图像和视频的产品,用户只需输入文本描述即可生成相应的图像和视频。

但AI赛道还处于早期,正在疯狂创新,创新就是会激进的推翻过去一切。

Manus 出来的那天大家都被点燃了,原来AI的产品可以这么激进,竟然能代替我们去规划任务、执行我们日常在电脑上所操作的大部分日常任务。

二、不同Agent产品形态

  • 垂直型Agent产品:专注于某个垂直领域(比如文生图、文生视频、写代码)
  • 通用型Agent产品的不同:

    • 通用性:不只专注于某个垂直领域(比如文生图、客服、写代码),而是能跨场景工作,例如:写报告、发邮件、下订单、查资料、写代码、处理表格等。
    • 强大的自主性:可以根据目标任务进行自主规划多步骤执行,不再是一步一问式地依赖人类指令。例如:你只告诉它“帮我写一篇关于新能源的调研报告”,它会自己查资料、归纳、撰写、润色、输出。
    • 更强的工具调度能力:可以调用浏览器、Python脚本、第三方 API、数据库等各种工具,甚至可以自己安装和调用插件,解决任务中遇到的问题。
    本质上所有的Agent都是基于LLM(大语言模型)和其它模型做了二次封装

三、几款有代表性的通用Agent产品介绍

1. [Manus - 第一个发布并点燃通用型Agent赛道的产品]

image

亮点:运行在真正、独立的虚拟机沙盒中

2. [Coze空间 - 字节跳动旗下]

image

亮点:字节跳动背书,支持通过mcp接入字节生态圈产品

3. [超级麦吉 - Super Magic ]

亮点:首个全部开源的一站式 AI 生产力平台

image

上述的通用Agent产品,Manus是使用了真正的虚拟机,超级麦吉是做到了一站式 AI 生产力平台,并将通用型Agent产品的代码全部开源。

四、通用型 Agent 的实现原理

首先,通用型 Agent也是由LLM驱动,它会接收你的输入,比如你问它一个问题或者让它帮忙做事。接着,它会分析你说的是什么意思,确定你的目的是什么。然后,它会根据这个目的,结合之前的对话和它记得的信息,想出一个行动计划。为了完成这个计划,它可能会调用各种工具或服务,比如查资料、调用接口、执行代码等。完成这些动作后,它会把结果整理好,然后输出给到你。

这是通用型Agent的常见架构:

image

本质上通用型Agent也是LLM驱动,无非是多了可以根据用户的提示词规划出对应的任务,并有了更多的工具,甚至可以自己打造工具给自己调用。

我们用一段 Node.js代码来简单实现这个架构图的内容:

// agent.js - 通用型 Agent 核心框架

// 1. 用户输入
async function handleUserInput(userInput, userId) {
  const perception = await perceive(userInput);
  const intent = await recognizeIntent(perception);
  const memory = await getMemory(userId);
  const plan = await planTask(intent, memory);
  const result = await executePlan(plan);
  const response = await generateResponse(result);

  // 可选:更新用户记忆
  await updateMemory(userId, intent, result);

  return response;
}

// 2. 感知层(对原始输入进行预处理)
async function perceive(rawInput) {
  return {
    cleanedText: rawInput.trim().toLowerCase(),
    tokens: rawInput.split(/\s+/)
  };
}

// 3. 意图识别
async function recognizeIntent(perception) {
  const text = perception.cleanedText;

  if (text.includes("天气")) return { type: "query_weather", location: "上海" };
  if (text.includes("写代码")) return { type: "generate_code", language: "javascript" };

  return { type: "unknown" };
}

// 4. 记忆模块(简单缓存)
const memoryDB = {};

async function getMemory(userId) {
  return memoryDB[userId] || {};
}

async function updateMemory(userId, intent, result) {
  memoryDB[userId] = {
    lastIntent: intent,
    lastResult: result
  };
}

// 5. 任务规划器
async function planTask(intent, memory) {
  switch (intent.type) {
    case "query_weather":
      return {
        steps: ["fetchWeather"],
        params: { location: intent.location }
      };
    case "generate_code":
      return {
        steps: ["invokeLLM"],
        params: { prompt: "写一个JavaScript函数,实现加法" }
      };
    default:
      return { steps: ["defaultReply"], params: {} };
  }
}

// 6. 执行器
async function executePlan(plan) {
  const { steps, params } = plan;

  if (steps.includes("fetchWeather")) {
    return await fakeWeatherAPI(params.location);
  }

  if (steps.includes("invokeLLM")) {
    return await fakeLLM(params.prompt);
  }

  return "我还不会处理这个请求哦~";
}

// 工具模拟
async function fakeWeatherAPI(city) {
  return `今天天气晴朗,${city}气温28℃。`;
}

async function fakeLLM(prompt) {
  return `function add(a, b) { return a + b; } // ${prompt}`;
}

// 7. 响应生成
async function generateResponse(data) {
  return `这是你的结果:\n${data}`;
}

调用示例:

handleUserInput("帮我查一下上海的天气", "user123")
  .then(console.log);

这个结构模拟了一个基础但清晰的通用 Agent 系统流程:

模块功能说明
感知层清洗原始输入
意图识别判断用户要干啥
记忆模块记住用户历史
任务规划拆解目标成步骤
工具调用模拟API、语言模型等工具调用
响应生成把结果包装成自然语言回复

五、通用型Agent到底能做什么?

超级麦吉 为例:

预测小米YU7的配置和价格:

image

巴菲特的股东大会邀请了你,但你没时间参加,也没时间看媒体的回放。它可以帮你生成对应的报告总结。

image

以Manus为例,针对数据做分析与处理

image

结论: 通用型Agent能代替坐办公室的打工人做脏话累活,但目前任需人工校验。 另外,通用型Agent无法代替打工人被老板diss,所以打工人无法被通用型Agent替代

六、启动开源的通用型Agent - 超级麦吉

1. 拉代码

git clone git@github.com:dtyq/magic.git
  
cd magic

2.生成.env文件

cp .env.example .env
cp config/.env_super_magic.example config/.env_super_magic
cp config/.env_magic_gateway.example config/.env_magic_gateway
cp config/.env_sandbox_gateway.example config/.env_sandbox_gateway

3.选择模型和注入key

直接修改 /config/..env_super_magic文件内容,配置上你想要的模型和key,以及Bing的key就可以跑了:

# LLMs Configuration
# Supports large models in any openai format
OPENAI_API_BASE_URL="https://api.openai.com/v1"
OPENAI_API_KEY="OPENAI_API_KEY"
OPENAI_MODEL="gpt-4o-global"
OPENAI_4_1_MODEL="gpt-4.1"
OPENAI_4_1_MINI_MODEL="gpt-4o-mini"
OPENAI_4_1_NANO_MODEL="gpt-4o-nano"

# Bing Search
BING_SUBSCRIPTION_ENDPOINT="https://api.bing.microsoft.com/v7.0"
BING_SUBSCRIPTION_KEY=BING_SUBSCRIPTION_KEY

4.启动超级麦吉

执行

./bin/magic.sh start

等启动完成以后,直接访问 localhost:8080即可看到超级麦吉的登录页面,输入手机号和密码即可登录:

  • 账号 13812345678:密码为 letsmagic.ai

开发文档:https://docs.letsmagic.cn/zh/development/advanced/init.html

5.用DeepSeek也可以跑

我在本地用DeepSeek成功启动,跑任务相当快,算是真的彻底开源并可以一键部署的一站式 AI 生产力平台吧,我也还在等他们其它的产品开源。

image

有兴趣的可以去看超级麦吉他们的官网:
https://letsmagic.cn

image

六、总结与展望

  • AI的目的并非是要代替人,而是要让人更好、更快的工作
  • 目前通用Agent形态产品或许这不是最终的形态,但目前确实能够帮助我们更好的工作,替代我们去做一些脏话、累活,我们只需要在关键时刻人工介入即可,跟使用 Cursor 是类似的
  • AI还处于非常早期,要坚信未来AI能给我们带来的远远不止今天这些

PeterTan
14.5k 声望30k 粉丝