当 APM 遇上业务:阿里云 ARMS 自定义指标采集的价值、实践与选型指南

12 月 4 日
阅读 12 分钟
251
在数字化转型的浪潮中,应用性能监控(APM)已经成为保障系统稳定运行的重要基石。然而,传统的 APM 系统往往只能提供系统层面的性能数据,而无法深入业务核心。阿里云应用实时监控服务(ARMS)推出的自定义指标采集功能,正是为了打破这一局限,让监控真正成为业务增长的助推器。

从“看曲线”到“懂问题”:MetricSet Explorer 如何重构指标分析体验

12 月 4 日
阅读 5 分钟
148
随着业务全面上云和微服务架构的普及,我们正迎来一个“大观测”的时代。系统的每一个角落都在产生海量的指标数据(Metrics),它们是衡量系统健康度的关键。然而,数据的极大丰富也带来了新的困境——“指标洪水”。运维团队和 SRE 工程师们发现自己被淹没在无穷无尽的监控大盘和告警信息中,患上了“告警&大盘疲劳症”。

Nginx Ingress 官宣退役,你的 Kubernetes 网关迁移方案是什么?

12 月 4 日
阅读 6 分钟
227
编者按: Ingress NGINX 退役引发开发者们的强烈关注,《遗憾,Ingress NGINX 要退役了》。官方已经提供了完备的应对措施,迁移到 Gateway API,以及20+ Ingress 控制器。但实施迁移的时候,企业还会希望了解新的 Ingress 控制器是否兼容 Ingress NGINX 的注解,迁移过程中如何进行灰度切流,遇到流量损失如何快速回滚等...

如何利用 RocketMQ for AI 构建高效、可靠、可扩展的多智能体系统?

12 月 4 日
阅读 4 分钟
194
在现代 AI 应用中,多智能体(Multi-Agent)系统已成为解决复杂问题的关键架构。然而,随着智能体数量增多和任务复杂度提升,传统的同步通信模式逐渐暴露出级联阻塞、资源利用率低和可扩展性差等瓶颈。为应对这些挑战,RocketMQ for AI 提供了面向 AI 场景的异步通信解决方案,通过事件驱动架构实现智能体间的高效协作。...

Entity Explorer:基于 UModel 的实体探索平台

12 月 4 日
阅读 8 分钟
152
作者:灵亦什么是实体探索(Entity Explorer)1.1 实体探索概述在可观测性领域,实体(Entity)指的是任何可以被独立识别和监控的对象,例如:基础设施实体: 主机、容器、网络设备、存储系统应用层实体: 微服务、API 接口、数据库实例、消息队列业务实体: 用户会话、业务流程、交易订单运维实体: 部署环境、代码仓库...

深度拆解:SAE 刚性交付的底层逻辑,从资源池整合到异构调度实现

12 月 3 日
阅读 5 分钟
201
资源的刚性交付,不是云上天生就具备的能力。当选择自建或自管理一个 Kubernetes/ECS 资源池时,就必须直面一个残酷的现实:所依赖的底层 IaaS 资源本身就是非刚性的。

2025 SECon × AgentX 大会:AI 原生应用架构专场精彩回顾 & PPT 下载

12 月 3 日
阅读 2 分钟
166
近日,2025 SECon × AgentX大会——AI 原生应用架构专场圆满落幕,本次专场阿里云联合信通院共同出品,现场吸引了 80+ 名技术从业者深度参与。

云监控 UModel Explorer:用“图形化”重新定义可观测数据建模

12 月 3 日
阅读 14 分钟
200
在复杂可观测系统的构建过程中,数据建模往往是“从混沌到秩序”的关键一步。传统的建模方式往往依赖配置文件或代码定义,这种方式虽然精确,但缺乏直观性,难以让团队成员快速理解和协作。UModel Explorer 正是为了改变这一现状而设计。它构建了一个完整的可视化建模环境,让工程师可以像绘制架构图一样,通过拖拽、连线...

AgentScope 拥抱函数计算 FC,为 Agent 应用提供 Serverless 运行底座

12 月 2 日
阅读 9 分钟
259
在 AI Agent 应用加速落地的今天,开发者和企业普遍面临三大核心痛点:部署成本高、运维复杂度高、资源利用率低。为应对这些挑战,AI Agent 与云原生、Serverless 架构的深度融合正成为行业新趋势。我们很高兴地宣布,AgentScope 正式集成基于阿里云函数计算(Function Compute, FC)的全新 Serverless 运行时,为多智能...

Agentic 应用落地必看!手把手搭建 Dify 全链路可观测系统

11 月 26 日
阅读 17 分钟
565
Dify 是时下热门的低代码 LLM 应用开发平台,其丰富的模型支持、Prompt 编排、RAG 引擎、Workflow/Agent 框架以及插件生态大大便利了 Agentic 应用的开发。

一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理

11 月 26 日
阅读 5 分钟
386
在云原生架构普及的背景下,容器化显著提升了应用交付效率和资源利用率,但也带来了运维挑战。由于容器对底层系统的抽象,内存可见性降低,导致高负载下出现的内存占用过高、抖动甚至服务退化等问题难以及时发现和定位。传统依赖人工、日志回溯和逐节点分析的排查方式效率低下,难以应对动态环境;而隐性内存泄漏等长期...

DevPod 如何重塑 AI 模型工程化:DeepSeek-OCR 从开发到生产的完整工作流解析

11 月 26 日
阅读 20 分钟
437
告别碎片化开发体验,DevPod 打造从代码到服务的一站式闭环。本文手把手演示在函数计算 Funmodel 上完成 DeepSeek-OCR 模型从云端开发、本地调试到生产部署的完整工作流,让模型真正走出实验室,实现分钟级服务化,重塑 AI 模型从开发到落地的高效路径。

云拨测:当“正常变更”摧毁全球网络时,谁来守护你的业务可用性?

11 月 25 日
阅读 3 分钟
332
2025 年 11 月 18 日,一场没有攻击、没有黑客、却让全球数百万网站陷入瘫痪的事故悄然发生——X 厂商因一次看似微不足道的数据库权限变更,引发连锁反应,导致其全球边缘网络陷入间歇性瘫痪近 4 小时。数百万依赖其 CDN、安全防护与 Serverless 服务的企业网站和服务出现大规模HTTP 5xx错误。用户看到的是冰冷的错误页面...

RAG 应用落地指南:基于 EventBridge 构建高可用、可扩展的数据处理管道

11 月 25 日
阅读 5 分钟
391
当企业想用大模型和内部非公开信息打造智能问答系统时,RAG(Retrieval-Augmented Generation,检索增强生成)已成为必备技术。然而,在实际落地中,构建 RAG 应用的数据准备过程繁琐复杂且充满挑战,让很多企业和开发者望而却步。本文将介绍构建 RAG 的最佳实践:通过阿里云事件总线 EventBridge 提供的多源 RAG 处理方...

一起聊聊大规模 AI Agent 部署与运维实战

11 月 25 日
阅读 1 分钟
287
AI Agent 已是企业智能化的标配,但传统的基础设施正成为其发展的瓶颈。为此,阿里云将云原生与 AI 工程化深度融合,打造全新的 AI 原生技术栈。本次活动,我们将聚焦于云基础设施从传统形态向 AI 原生架构的演进路径,与您一同:

【本不该故障系列】从 runC 到 runD:SAE 如何化解安全泄露风险

11 月 24 日
阅读 5 分钟
374
对于大多数客户而言,使用 Serverless 容器服务时最核心的顾虑始终是安全性与租户隔离能力。确实,并非只要采用了容器技术、实现了资源共享,就天然具备稳定可靠的安全保障。容器本身只是隔离手段之一,其安全边界高度依赖底层运行时模型。在非阿里云 SAE 的环境中,客户在使用基于 runC 的「共享资源的产品」「且没有使...

AI 原生应用开发实战营·深圳站精彩回顾 & PPT 下载

11 月 24 日
阅读 3 分钟
400
近日,阿里云 AI 原生应用开发实战营 · 深圳站圆满落幕。继北京、上海、杭州、成都等城市之后,本场活动吸引了 130+ 名技术从业者深度参与。

UModel 数据治理:运维世界模型构建实践

11 月 21 日
阅读 5 分钟
297
最初,我们面向单一数据类型构建监控体系——CPU、内存、磁盘,一个个孤立的指标告诉我们“什么地方出了问题”。随着系统复杂度提升,我们开始收集多类数据——日志、指标、链路并行发展,试图从不同维度观察同一个系统。

2025 SECon+AgentX 大会 — AI 原生应用架构专场

11 月 21 日
阅读 2 分钟
395
2025 SECon+AgentX 智能时代软件工程技术大会将于 11 月 21 日在上海举办,大会专注于软件开发技术的最新趋势,深度探讨大模型驱动的技术革新以及智能体在工程化落地过程中的关键技术突破与产品商业化验证的会议。重点打造覆盖全产业链的智能体技术实践平台和行业应用产品交流平台。

企业级AI应用落地:森马如何通过AI网关解决大模型“多而杂、难观测、不稳健”的挑战?

11 月 21 日
阅读 4 分钟
439
本文导读:森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%。

告别查询超时!SLS物化视图的核心原理与使用场景,开发者必看!

11 月 19 日
阅读 5 分钟
408
在阿里云日志服务里,一个看似简单的看板,点开却要等上几十秒;高峰期多人同时查日志,系统直接“卡成 PPT”;更糟的是,有时结果还不准——因为达到资源限制,系统只能“估算”答案。

阿里云可观测 2025 年 10 月产品动态

11 月 19 日
阅读 1 分钟
423
本月可观测热文回顾文章一览:用户说“App 卡死了”,你却查不到原因?可能是监控方式错了清理祖传 AK 不怕炸锅:基于 UModel 的云监控 2.0 身份凭证观测实践告别手动埋点!Android 无侵入式数据采集方案深度解析从数据孤岛到智能洞察:构建面向未来的 Operation intelligence 体系从“天书”到源码:HarmonyOS NEXT 崩溃堆...

百倍启动加速,大规模 Agent 部署和运维的捷径是什么?

11 月 19 日
阅读 13 分钟
293
前言:随着 AI 原生浪潮的到来,智能体(Agent)正成为企业创新的新引擎。然而,在生产环境中大规模落地 Agent,却面临开发复杂、运维困难、成本高等挑战。这些问题应该如何解决?企业内部大规模部署和运维 Agent 是否有捷径可走?针对这些问题,InfoQ 近日对话了阿里云云原生应用平台 Serverless 计算负责人杨皓然(花...

阿里云 Serverless 计算 10 月产品动态

11 月 19 日
阅读 1 分钟
408
精选文章文章一览:加速智能体开发:从 Serverless 运行时到 Serverless AI 运行时Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎揭秘 MCP Streamable HTTP 协议亲和性的技术内幕为什么别人用 DevPod 秒启 DeepSeek-OCR,你还在装环境?产品最新消息

SLS 脱敏函数实践:智能化与数据安全的融合

11 月 19 日
阅读 4 分钟
414
过去两年,电商客服、工单、物流等环节的自动化正急速推进。一个智能助手可以同时处理上百条退款请求、物流查询、账单追踪;它不知疲倦地与用户对话,也在后台不停调用接口、记录日志、汇总报表。在这些自动化交互中,隐藏着大量敏感数据:

这两个开源项目在世界互联网大会乌镇峰会获奖

11 月 17 日
阅读 2 分钟
390
2025 “直通乌镇”全球互联网大赛是世界互联网大会乌镇峰会重要活动之一,自 2019 年以来已连续举办 7 届。本届大赛以“发现未来新势力 共筑数字新生态”为主题,设置人工智能、智联出行、数智医疗、智能制造、智能终端、开源项目(分为开源模型应用赛和开源竞技挑战赛)六大赛道。

大模型成本太高?阿里云Serverless AI原生架构,教你极致省钱又稳健部署!

11 月 17 日
阅读 3 分钟
367
在 AI 大模型浪潮席卷全球的今天,企业纷纷加速拥抱 AI,推动智能客服、内容生成、流程自动化等场景快速落地。然而,许多企业在实践中却遭遇了“三高困境”——成本高、复杂度高、风险高。

AI 原生应用开发实战营·京沪双城回顾 & PPT 下载

11 月 13 日
阅读 5 分钟
353
近日,阿里云 AI 原生应用开发实战营 · 北京站&上海站圆满落幕。继深圳、杭州、成都等城市之后,这两场活动吸引了 250+ 名技术从业者深度参与。

从 Transform 到 Transformer,用 EventBridge 与百炼构建实时智能的 ETL 数据管道

11 月 13 日
阅读 5 分钟
412
作为数据处理领域的经典模式,ETL(Extract-Transform-Load)通过提取、转换、加载三个步骤,高效地处理着各类结构化数据。然而,面对 AI 时代海量、异构、实时的“数据洪流”,传统 ETL 链路,尤其是其核心的转换(Transform)环节,正面临严峻挑战。本文将从一个初级开发者也能理解和上手的视角,探讨 AI 时代的数据处理...

AI 原生应用开发实战营·深圳站丨限时报名开启!

11 月 13 日
阅读 1 分钟
462
为系统性探讨 AI 原生架构的设计原则、工程实现与可观测性保障,阿里云将于 2025 年 11 月 14 日(星期五)13:30–17:00,在深圳市阿里中心后海 T3 栋岳麓书院举办「AI 原生应用开发实战营」线下专场活动。