SegmentFault 阿里云栖号最新的文章

基于对比稀疏扰动技术的时间序列解释框架 ContraLSP

2024-05-31T15:08:00+08:00

开篇

近日，由阿里云计算平台大数据基础工程技术团队主导，与南京大学、宾夕法尼亚州立大学、清华大学等高校合作，解释时间序列预测模型的论文《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP，该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测，黑盒时序分类等仿真数据，和一个真实时序数据集分类任务中进行了实验，ContraLSP在解释性能上超越了SOTA模型，显著提升了时间序列数据解释的质量。

背景

在金融、游戏和医疗保健等领域，为机器学习模型所做的预测提供可靠的解释具有极高的重要性，因为透明度和可解释性通常是道德和法律的先决条件。如图1所示，学者们经常处理复杂的视觉、文本、图结构数据通过选择最显著的因子，但是对解释时间序列模型的方法的研究仍然是一个未充分探索的前沿。此外，将最初为不同数据类型设计的解释器进行适配带来了挑战，因为它们的归纳偏差可能难以适应时间序列数据本质上的复杂性和较低的可解释性。

$$ 图一：基于显著图的解释在视觉、图数据、游戏场景的应用 $$

挑战

现有的解释方法涉及使用显著性方法，这些方法的解释区分取决于它们与任意模型的交互方式。一些工作建立了显著图，例如，结合梯度或构造注意力机制，以更好地处理时间序列特征，而它们难以发现时间序列模式。其他替代方法，包括Shapley值或LIME，通过加权线性回归在局部近似模型预测，为我们提供解释。这些方法主要提供实例级别的显著图，但特征间的互相关常常导致显著的泛化误差。在时间序列中最常见的基于扰动的方法通常通过基线、生成模型或使数据无信息的特征来修改数据，但这些扰动的非显著区域并不总是无意义的并且存在不在数据分布内的样本，导致解释模型存在偏差，如图二所示。我们的工作通过样本间反事实扰动，专注于理解模型在不同群组间的整体和具体行为。

$$ 图二：在阐述不同风格的扰动时，图示中的红线代表属于两个类别中类别1的一个样本，而深色背景表示显著特征，其他部分则为非显著特征。其他扰动可能不是无信息的或不在数据分布内，而我们的扰动是反事实的，即朝向负样本的分布。 $$

破局

对于一个具体的扰动：，我们需要与其原始实例x对于的标签y一致，通过掩码m来计算显著的区域。其优化目标可表示为如下式子，其中第一项保证扰动和原始实例输入到黑盒时序模型f中得到的预测一致性，第二项保证解释区域m最小化，第三项保证解释区域的平滑性。基于此，本文提出了ContraLSP框架，该框架如图三所示。这是一个局部稀疏解释模型，它通过引入反事实样本来构建无信息扰动同时保持样本分布。此外，我们融入了特定于样本的稀疏门控机制来生成更倾向于二值化且平滑的掩码，这有助于简洁地整合时间趋势并精选显著特征。在保证标签的一致性条件下，其整体优化目标修改为：

$$ 图三： ContraLSP整体框架 $$

（1）通过对比学习提取反事实扰动：我们的ContraLSP通过对比学习来学习反事实样本，以增强无信息扰动，同时保持样本分布。这允许在异质样本中将扰动的特征趋向于负样本的分布，从而增加了扰动的影响。具体来说，我们首先通过距离相似性寻找时序样本中的正负样本对。将当前实例通过一个神经网络生成出反事实示例，使得它更加靠近负样本并更加远离正样本，如图四所示。其优化三元组的目标函数为：

$$ 图四：使用三元组损失（triplet loss）生成反事实扰动 $$

（2）具有平滑约束的稀疏门：在学习掩码时需要保证显著特征的稀疏和平滑。如图五所示，当扰动实例是不平滑的时间序列，输入到的黑盒模型中可能会造成分类错误，影响解释的性能。

$$ 图五：掩码序列是否平滑的对比。如果不平滑，黑盒模型可能会预测错误。 $$

因此，我们采用学习时间趋势描述平滑的扰动，并且用该平滑约束下的l0正则去限制掩码。具体来说，我们令掩码m生成通过门控的形式：

，其中平滑因子为，通过时间趋势学习温度，使其控制sigmoid-weighted单元。一个不同温度下平滑掩码的示例如图六所示。最后优化掩码的损失函数为：

$$ 图六：不同温度条件下的sigmoid-weighted单元。平滑掩码（红色）相较于硬掩码（黑色）更好的适应时间序列。 $$

应用

现已将ContraLSP集成到飞天大数据AI管控平台ABM的时序指标下钻和异常检测算法服务中，后续将进一步研究如何将ContraLSP技术与现有平台结合进行时间序列上的根因分析。

论文标题：Explaining Time Series via Contrastive and Locally Sparse Perturbations
论文作者：刘子川，张颖莹，王天纯，王泽凡，骆东升，杜梦楠，吴敏，王毅，陈春林，范伦挺，文青松
论文链接：https://openreview.net/pdf?id=qDdSRaOiyb
slide链接：https://github.com/zichuan-liu/ContraLSP/blob/main/intro_contralsp_slides.pdf

原文链接

本文为阿里云原创内容，未经允许不得转载。

Spring AI 抢先体验，5 分钟玩转 Java AI 应用开发

2024-05-23T14:37:44+08:00

Spring AI 是 Spring 官方社区项目，旨在简化 Java AI 应用程序开发，让 Java 开发者像使用 Spring 开发普通应用一样开发 AI 应用。

Spring Cloud Alibaba AI 以 Spring AI 为基础，并在此基础上提供阿里云通义系列大模型全面适配，让用户在 5 分钟内开发基于通义大模型的 Java AI 应用。

$$ Spring AI x 通义千问 Demo 已上线至 sca.aliyun.com $$

Spring AI 简介

据 Spring AI 官网描述，该项目的灵感来自著名的 Python 项目，如 LangChain 和 LlamaIndex，但 Spring AI 并不是这些项目的直接复制。Spring AI 相信下一波 Generative AI 生成式应用程序将不仅面向 Python 开发人员，而且将在许多编程语言中广泛应用。

Spring AI 的核心是提供抽象，作为开发 Java AI 应用程序的基础，提供以下功能：

提供多种大模型服务对接能力，包括业界大多数主流大模型服务等；
支持灵活的 Prompt Template 和模型输出解析 Output Parsing 能力;
支持多模态的生成式 AI 能力，如对话，文生图、文生语音等；
提供通用的可移植的 API 以访问各类模型服务和 Embedding 服务，支持同步和流式调用，同时也支持传递特定模型的定制参数；
支持 RAG 能力的基础组件，包括 DocumentLoader、TextSpillter、EmobeddingClient、VectorStore 等；
支持 AI Spring Boot Starter 实现配置自动装配。

Spring Cloud Alibaba AI 简介

Spring Cloud Alibaba AI 目前基于 Spring AI 0.8.1[1]版本 API 完成通义系列大模型的接入。通义接入是基于阿里云灵积模型服务[2]，灵积模型服务建立在“模型即服务”（Model-as-a-Service，MaaS）的理念基础之上，围绕 AI 各领域模型，通过标准化的API提供包括模型推理、模型微调训练在内的多种模型服务。

在当前最新版本中，Spring Cloud Alibaba AI 主要完成了几种常见生成式模型的适配，包括对话、文生图、文生语音等，开发者可以使用 Spring Cloud Alibaba AI 开发基于通义的聊天、图片或语音生成 AI 应用，框架还提供 OutParser、Prompt Template、Stuff 等实用能力。

以下是当前官方提供的 Spring Cloud Alibaba AI 应用开发示例，访问 http://sca.aliyun.com 可查看。

聊天对话应用
文生图应用
文生语音应用
模型输出解析OutputParser（实现从 String 到自动 POJO 映射）
使用 Prompt Template
让 AI 模型接入外部数据（Prompt Stuff）

体验第一个 Spring AI 应用开发

本项目演示如何使用 spring-cloud-starter-alibaba-ai 完成一个在线聊天 AI 应用，底层使用通义千问提供的模型服务。可在此查看完整示例源码[3]。

开发聊天对话应用

在项目 pom.xml 中加入 2023.0.1.0 版本 Spring Cloud Alibaba 依赖：

<dependencyManagement>
  <dependencies>
    <dependency>
      <groupId>com.alibaba.cloud</groupId>
      <artifactId>spring-cloud-alibaba-dependencies</artifactId>
      <version>2023.0.1.0</version>
      <type>pom</type>
      <scope>import</scope>
     </dependency>
   </dependencies>
</dependencyManagement>

<dependencies>
  <dependency>
      <groupId>com.alibaba.cloud</groupId>
      <artifactId>spring-cloud-starter-alibaba-ai</artifactId>
  </dependency>
</dependencies>

在 application.yml 配置文件中加入以下配置：

spring:
  cloud:
    ai:
      tongyi:
        chat:
          options:
            # Replace the following key with a valid API-KEY.
            api-key: sk-a3d73b1709bf4a178c28ed7c8b3b5axx

编写聊天服务实现类，由 Spring AI 自动注入 ChatClient、StreamingChatClient，ChatClient 屏蔽底层通义大模型交互细节。

@Service
public class TongYiSimpleServiceImpl extends AbstractTongYiServiceImpl {

  private final ChatClient chatClient;

  private final StreamingChatClient streamingChatClient;

  @Autowired
  public TongYiSimpleServiceImpl(ChatClient chatClient, StreamingChatClient streamingChatClient) {
    this.chatClient = chatClient;
    this.streamingChatClient = streamingChatClient;
  }
}

提供具体聊天逻辑实现

@Service
public class TongYiSimpleServiceImpl extends AbstractTongYiServiceImpl {

  // ......

  @Override
  public String completion(String message) {

    Prompt prompt = new Prompt(new UserMessage(message));

    return chatClient.call(prompt).getResult().getOutput().getContent();
  }

  @Override
  public Map<String, String> streamCompletion(String message) {

    StringBuilder fullContent = new StringBuilder();

    streamingChatClient.stream(new Prompt(message))
        .flatMap(chatResponse -> Flux.fromIterable(chatResponse.getResults()))
        .map(content -> content.getOutput().getContent())
        .doOnNext(fullContent::append)
        .last()
        .map(lastContent -> Map.of(message, fullContent.toString()))
        .block();

    log.info(fullContent.toString());

    return Map.of(message, fullContent.toString());
  }

}

编写 Spring 入口类并启动应用

@SpringBootApplication
public class TongYiApplication {
  public static void main(String[] args) {
    SpringApplication.run(TongYiApplication.class);
  }
}

至此，便完成了最简单的聊天 AI 应用开发，与普通的 Spring Boot 应用开发步骤完全一致！

验证应用效果

启动应用后，可通过如下两种方式验证应用效果。

方式一

浏览器地址栏输入：http://localhost:8080/ai/example

返回如下响应：

{
    "Tell me a joke": "Sure, here's a classic one for you:\n\nWhy was the math book sad?\n\nBecause it had too many problems.\n\nI hope that made you smile! If you're looking for more, just let me know."
}

方式二

进入 resources/static 目录下，使用浏览器打开 index.html 文件，输入问题，即可获得输出响应（确保 api-key 有效）：

申请通义API-KEY

为使示例能够正常接入通义大模型，需要在阿里云开通 DashScope 灵积模型服务，申请有效的 API-KEY 并更新到应用配置文件。具体操作步骤可参见如下文档：https://help.aliyun.com/zh/dashscope/developer-reference/acti...

未来规划

当前版本 Spring Cloud Alibaba AI 主要完成了几种常见生成式模型适配，包括对话、文生图、文生语音等。接下来的版本中，我们将继续完成 VectorStore、Embedding、ETL Pipeline 等更多适配，简化 RAG 等更多 AI 应用开发场景。

相关链接：

[1] Spring AI 0.8.1

https://docs.spring.io/spring-ai/reference/0.8-SNAPSHOT/index...

[2] 灵积模型服务

https://help.aliyun.com/zh/dashscope/

[3] 完整示例源码

https://github.com/alibaba/spring-cloud-alibaba/tree/2023.x/spring-cloud-alibaba-examples/spring-cloud-ai-example/src/main/java/com/alibaba/cloud/ai/example/tongyi/service/impl/helloworld

原文链接

本文为阿里云原创内容，未经允许不得转载。

无需重新学习，使用 Kibana 查询/可视化 SLS 数据

2024-05-22T15:41:27+08:00

1.场景

现在通过 SLS 的 ES 兼容能力，可以很方便地实现用 Kibana 来查询和可视化 SLS 的数据。对于从 ES 迁移到 SLS 的用户可以继续保留原来的 Kibana 使用习惯。下面来演示如何通过 Kibana 来访问 SLS。

2.使用方法

部署架构

这里蓝色部分是需要客户端部署的组件。

Kibana 就是用来可视化的
Proxy 用来区分 Kibana 的请求，将 SLS 相关的转发到 SLS 的 ES 兼容接口
Elasticsearch 用来存 Kibana 的 Meta

等等，为什么这里还需要一个 ES？原因是 SLS 的 Logstore 不支持更新，很多 Meta 类的数据不适合存在 SLS。

而 Kibana 有很多元数据要存储，比如 Kibana 的图表配置、Index Pattern 配置等。

因此需要部署一个 ES 实例，这个 ES 实例只会存 Kibana 的元数据，所以它的资源占用非常小。

3.部署过程

使用 docker-compose 部署

相关准备

安装好 docker 和 docker compose，下面的操作步骤对于 podman compose 的方式一样适用。

创建相关目录

mkdir sls-kibaba # 创建一个新的目录
cd sls-kibaba # 进入
mkdir es_data # 创建一个目录用于放es的数据

配置

在 sls-kibana 目录下下创建 docker-compose.yml 文件。

内容如下：（下面标识为此处请修改的地方，请根据实际情况做一下修改）

version: '3'
services:
  es:
    image: elasticsearch:7.17.3
    environment:
      - "discovery.type=single-node"
      - "ES_JAVA_OPTS=-Xms2G -Xmx2G"
      - ELASTIC_USERNAME=elastic
      - ELASTIC_PASSWORD=ES密码 # 此处请修改
      - xpack.security.enabled=true
    volumes:
      - ./data:/usr/share/elasticsearch/data
    networks:
      - es717net

  kproxy:
    image: sls-registry.cn-hangzhou.cr.aliyuncs.com/kproxy/kproxy:1.9d
    depends_on:
      - es
    environment:
      - ES_ENDPOINT=es:9200
      - SLS_ENDPOINT=https://etl-dev.cn-huhehaote.log.aliyuncs.com/es/ # 此处请修改，规则为 https://${project名}.${slsEnpoint名}/es/
      - SLS_PROJECT=etl-dev # 此处请修改
      - SLS_ACCESS_KEY_ID=ALIYUN_ACCESS_KEY_ID # 此处请修改, 确保有读logstore的权限
      - SLS_ACCESS_KEY_SECRET=ALIYUN_ACCESS_KEY_SECRET # 此处请修改为真实accessKeySecret
    networks:
      - es717net

  kibana:
    image: kibana:7.17.3
    depends_on:
      - kproxy
    environment:
      - ELASTICSEARCH_HOSTS=http://kproxy:9201
      - ELASTICSEARCH_USERNAME=elastic
      - ELASTICSEARCH_PASSWORD=ES密码 # 此处请修改（跟前面设置的ES密码相同）
      - XPACK_MONITORING_UI_CONTAINER_ELASTICSEARCH_ENABLED=true
    ports:
      - "5601:5601"
    networks:
      - es717net

networks:
  es717net:
    ipam:
      driver: default

启动本地 Kibana 服务：

docker compose up -d

检查 docker compose 启动状态：

docker compose ps

4.访问 Kibana

浏览器访问 http://$（部署 Kibaba 的 IP 地址}:5601，输入账号密码登录 Kibana。

4.1 配置 Index Pattern

选择 Stack Managment：

点击 Index Pattern Tab，在 Index Pattern 列表中看不到数据是正常的，日志服务的 Logstore 映射到 Kibana 中的 Index Patterns 需要手动创建。在提示框中单击 create an index pattern against hidden or system indices.

在 Create Index Pattern 页，Name 填写格式为 ${project}.${logstore}，注意这里比必须完全填写，不支持*匹配。

点完成 Create Index Pattern 完成 Pattern 创建，然后进入 Discover 里就可以查询数据了。

4.2 查询 Logstore

Kibana 的查询框中可以选择 KQL 和 Lucene 两种方式，SLS 的 ES 兼容接口都进行了支持。

简单的 host 查询：

复杂一些 query、filter 都可以查询。

4.3 可视化图表

那么除了查询，可以用 Kibana 来做可视化吗？当然可以！选择 Dashboard。

进入后点击 Create Dashboard 来创建一个图表。

通过设置，横轴、纵轴的字段和统计方式，可以很方便地做出想要图。

比如最简单的统计一个请求访问数的柱状图，时间为横轴，记录数为纵轴。

现在我想看到每个柱子中，status 的情况，可以选择 Break down by 的字段为 status。

4.4 FAQ

1）为什么在 Kibana 上看不到 SLS 上的 Logstore？

SLS 上的 Logstore 是通过 Kibana 的 Index Pattern 方式来查询的，而 SLS 上的 Logstore 需要通过手工创建 Index Pattern 的方式来创建。

2）Kibana 上创建 Index Pattern 的时候，不做输入的时候，为什么没有提示？

这个是正常的，在左侧输入正确的 project.project.{project}.{logstore} (这里project、project、{project}、{logstore}需替换成真实值)后，会展示：

3）Kibana 上创建 Index Pattern 的时候支持*通配吗？

不支持通配，需要完整填写 project.project.{project}.{logstore}，比如 etl-dev.accesslog 这种方式来匹配。

4）为什么 Kibana 上创建 Logstore 的 Index Pattern 时右侧没有提示出现？

有几种可能：

SLS 的 ES 兼容地址不对，在 kproxy 中配置时，规则为 https://${project名}.${slsEnpoint名}/es/，注意 /es/ 这个后缀。
对应的 accessKeyId、accessKeySerect 没有访问 SLS Logstore 的权限（读权限）。

5）我有多个 SLS Project 想在 Kibana 上访问，可以做到吗？

可以的，关键在于 kproxy 的配置。SLS_PROJECT、SLS_ENDPOINT、SLS_ACCESS_KEY_ID、SLS_ACCESS_KEY_SECRET 为第一个 Project 相关的变量名称。从第二个 Project 开始，其相关变量名称需加数字后缀，例如 SLS_PROJECT2、SLS_ENDPOINT2、SLS_ACCESS_KEY_ID2、SLS_ACCESS_KEY_SECRET2。如果后面某 Project 的 AccessKey 与第一个 Project 相同，则该 Project 对应的 AccessKey 可省略配置。

举例，假设另外一个 Project 要被 Kibaba 查，那么作为第二个 kproxy：

- SLS_ENDPOINT2=https://etl-dev2.cn-huhehaote.log.aliyuncs.com/es/
- SLS_PROJECT2=etl-dev2
- SLS_ACCESS_KEY_ID2=etl-dev2对应的accessKeyId  #如果和SLS_ACCESS_KEY_ID2一样可以不加
- SLS_ACCESS_KEY_SECRET2=etl-dev2对应的accessKeyKey #如果和SLS_ACCESS_KEY_ID2一样可以不加

5.小结

本文演示了使用 Kibana 连接 SLS ES 兼容接口进行查询和分析的方法，对于 Kibana 的 query 和可视化能力都能正常对接和使用。适合下面两种情况：

如果您之前的使用习惯是 Kibana，而日志已经存在了阿里云 SLS 上，可以使用该方案对接。
如果您现在使用的是标准的 ELK 方案，但厌倦了 ES 使用时维护工作或者调优，不妨试一试阿里云 SLS 的方案（c++ 底层、Serverless、低成本、ES 兼容）。

期待您的使用。

作者：荆磊

原文链接

本文为阿里云原创内容，未经允许不得转载。

大数据基础工程技术团队4篇论文入选ICLR，ICDE，WWW

2024-05-21T14:51:12+08:00

近日，由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。

论文成果是阿里云与华东师范大学、浙江大学、南京大学等高校共同研发，涉及时间序列与智能运维结合的多个应用场景。包括基于Pathways架构的自适应多尺度时间序列预测模型Pathformer；基于扰动技术的时间序列解释框架ContraLSP；多正常模式感知的频域异常检测算法MACE；轻量数据依赖的异常检测重训练方法LARA。此次，时间序列相关模型等多篇论文的入选，表明阿里云在大数据基础技术领域的研究得到了国际学术界的认可，不仅展示了阿里云的技术竞争力，也创造了更多国际合作交流的可能性。

ICLR（International Conference on Learning Representations）会议是机器学习和深度学习领域的顶级国际会议，与NeurIPS、ICML并称为机器学习三大顶级会议，在谷歌的全领域学术指标排行榜中位列前十，以展示人工智能、统计学和数据科学领域的深度学习各个方面的前沿研究以及机器视觉、计算生物学、语音识别、文本理解、游戏和机器人等重要应用领域而闻名全球。
ICDE（IEEE International Conference on Data Engineering）是数据库研究领域历史悠久的国际会议，与SIGMOD、VLDB并称为数据库三大顶级会议，会议聚焦于设计，构建，管理和评估高级数据密集型系统和应用等前沿研究问题。
WWW（The Web Conference）是为交叉，新兴，综合领域的顶级会议，CCF-A类，会议关注万维网的未来发展，汇聚全世界相关的科研工作者、从业者和领域专家，共同讨论互联网的发展、相关技术的标准化以及这些技术对社会和文化的影响。

Pathformer：基于Pathways架构的自适应多尺度时间序列预测模型

现实场景中的时间序列在不同的时间尺度展现出不同的变化，如云计算场景中的CPU，GPU，内存等资源需求呈现出日、月、季节等独特尺度的时间模式。这为时间序列预测带来一定的困难。一个好的时间序列预测模型需要考虑完备的时序多尺度建模能力以及进一步自适应选择多尺度的能力。

基于Transformer模型的多尺度建模，主要有两个挑战。

不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系，相反，考虑时间距离虽然能提取不同范围的时间依赖，但全局和局部间隔受到数据划分的影响，单一的时间分辨率并不完备。
固定地多尺度建模过程。对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉，然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。

针对这些问题，我们提出了一个基于Pathways架构的自适应多尺度Transformer模型 Pathformer，它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块，使用双重注意力机制建模局部和全局的时间依赖关系，使模型具备完备的多尺度建模能力。其次，我们提出自适应pathways，激活Transformer的多尺度间建模能力。它基于输入时序逐层地路由和聚合多尺度特征形成了自适应pathways的多尺度建模，可以提升模型的预测效果和泛化性。

ContraLSP：基于对比稀疏扰动技术的时间序列解释框架

在智能运维等领域，为机器学习模型所做的预测提供可靠的解释具有极高的重要性。现有的解释方法涉及使用显著性方法，这些方法的解释区分取决于它们与任意模型的交互方式。一些工作建立了显著图，例如，结合梯度或构造注意力机制，以更好地处理时间序列特征，而它们难以发现时间序列模式。其他替代方法，包括Shapley值或LIME，通过加权线性回归在局部近似模型预测，为我们提供解释。这些方法主要提供实例级别的显著图，但特征间的互相关常常导致显著的泛化误差。在时间序列中最常见的基于扰动的方法通常通过基线、生成模型或使数据无信息的特征来修改数据，但这些扰动的非显著区域并不总是无意义的并且存在不在数据分布内的样本，导致解释模型存在偏差。

基于此，本文提出了ContraLSP框架，该框架如图所示。这是一个局部稀疏解释模型，它通过引入反事实样本来构建无信息扰动同时保持样本分布。此外，我们融入了特定于样本的稀疏门控机制来生成更倾向于二值化且平滑的掩码，这有助于简洁地整合时间趋势并精选显著特征。在保证标签的一致性条件下，其整体优化目标为：

论文在白盒时序预测，黑盒时序分类等仿真数据，和真实时序数据集分类任务中进行了实验，ContraLSP在解释性能上超越了SOTA模型，显著提升了时间序列数据解释的质量。

MACE：多正常模式感知的频域异常检测算法

异常检测是智能运维领域的重要研究方向。近来，基于重构类方法的异常检测模型独占鳌头，在无监督异常检测中达到了很高的准确度，涌现了大量优秀的神经网络模型，例如：基于RNN类的神经网络OmniAnomaly, MSCRED; 基于transformer类的神经网络AnomalyTransformer, DCdetector等，但这类方法一个模型只能较好地捕捉一种或少数几种正常模式。因此，涌现出了一批以元学习为辅助，快速适应不同正常模式的异常检测模型，例如PUAD, TranAD等。但这些方法依然要求对不同的正常模式定制不同的模型，当存在十万级不同正常模式的服务时，很难维护这么多神经网络模型。

与其他神经网络直接从数据样本中判断当前样本是否为异常不同，MACE从数据样本与该数据样本对应的正常模式的关系中提取异常。在MACE中，我们首先提出使用频域表征机制提取出正常模式的频域子空间，并使用频域表征技术把当前数据样本映射到该频域子空间中。若该数据样本离这个正常模式的频域子空间越远则在映射后，映射点与原始样本距离越远，重构误差越大。若该数据样本离这个频域子空间的频域子空间越近，则在映射后，映射点与原始样本距离越近，重构误差越小。因此，我们可以根据当前数据样本与其对应的正常模式频域子空间的关系，令对于当前正常模式而言的正常数据重构误差远小于异常数据的重构误差，以此检测异常。更进一步，我们提出上下文感知的傅里叶变换和反变换机制，有效利用频域的稀疏性提升计算效率，在频域上不存在时序依赖，可以对该模型进行细粒度的高并发实现，进一步减少异常检测的时间开销。另外，我们提出Peak Convolution与Valley Convolution机制对短期异常进行增强使其更容易被检测到。

LARA：轻量数据依赖的异常检测重训练方法

在云服务的监控场景中，经常出现正常模式随时间不断变化，且在变化初期观测数据数量不足以支撑模型训练的问题。目前，可以解决正常模式更替变化的方法主要有迁移学习、元学习、基于信号处理的方法。但同时他们也存在一些弊端，并不完全适配当前问题。例如迁移学习未考虑本问题中多个历史正常模式之间存在的时序关系。元学习同样未考虑历史正常模式之间的时序关系，同时，需要存储大量的历史数据。基于信号处理的方法，这类方法推理阶段时间开销太大，无法在流量峰值处进行实时异常检测。

因此，我们提出方法LARA解决上述问题。为了解决重训练新观测数据不足的问题，我们提出反刍模块，该模块使用老模型恢复历史分布中与新观测数据相似的数据，并使用历史数据与新观测数据一起估计每一个新观测数据的隐藏状态z。为了解决重训练计算开销大的问题，我们使用映射函数M_z和M_x分别把老模型输出的隐藏状态和重构数据映射为当前分布的隐藏状态估计值与新观测数据，并数学证明了映射函数令映射误差最小的最优形式为线性，极大降低了重训练开销。更进一步，我们根据M_z 与M_x的形式，提出一种相应的损失函数设计范式，可以保证重训练问题是一个凸问题，具有唯一全局最优解，从而保证较快的收敛速率，降低重训练计算开销，避免陷入过拟合。

论文链接

1.论文标题：Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting

论文作者：陈鹏，张颖莹，程云爻，树扬，王益杭，文青松，杨彬，郭晨娟
论文链接：https://openreview.net/pdf?id=lJkOCMP2aW
代码链接：https://github.com/alibaba/sreworks-ext/tree/main/aiops/Pathformer_ICLR2024

2.论文标题：Explaining Time Series via Contrastive and Locally Sparse Perturbations

论文作者：刘子川，张颖莹，王天纯，王泽凡，骆东升，杜梦楠，吴敏，王毅，陈春林，范伦挺，文青松
论文链接：https://openreview.net/pdf?id=qDdSRaOiyb
代码链接：https://github.com/alibaba/sreworks-ext/tree/main/aiops/ContraLSP

3.论文标题：Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection

论文作者：陈飞佚，张颖莹，秦臻，范伦挺，姜仁河，梁宇轩，文青松，邓水光
论文链接：https://arxiv.org/abs/2311.16191

4.论文标题：LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection

论文作者：陈飞佚，秦臻，周孟初，张颖莹，邓水光，范伦挺，庞观
论文链接：https://arxiv.org/abs/2310.05668

原文链接

本文为阿里云原创内容，未经允许不得转载。

PolarDB-X V2.4 列存引擎开源正式发布

2024-05-21T10:56:29+08:00

架构简介

PolarDB-X 采用 Shared-nothing 与存储分离计算架构进行设计，系统由5个核心组件组成。

$$ PolarDB分布式架构图 $$

计算节点（CN, Compute Node）计算节点是系统的入口，采用无状态设计，包括 SQL 解析器、优化器、执行器等模块。负责数据分布式路由、计算及动态调度，负责分布式事务 2PC 协调、全局二级索引维护等，同时提供 SQL 限流、三权分立等企业级特性。
存储节点（DN, Data Node）存储节点负责数据的持久化，基于多数派 Paxos 协议提供数据高可靠、强一致保障，同时通过 MVCC 维护分布式事务可见性。
元数据服务（GMS, Global Meta Service）元数据服务负责维护全局强一致的 Table/Schema, Statistics 等系统 Meta 信息，维护账号、权限等安全信息，同时提供全局授时服务（即 TSO）。
日志节点（CDC, Change Data Capture）日志节点提供完全兼容 MySQL Binlog 格式和协议的增量订阅能力，提供兼容 MySQL Replication 协议的主从复制能力。
列存节点 (Columnar) 列存节点提供持久化列存索引，实时消费分布式事务的binlog日志，基于对象存储介质构建列存索引，能满足实时更新的需求、以及结合计算节点可提供列存的快照一致性查询能力

开源地址：[https://github.com/polardb/polardbx-sql]

版本说明

梳理下PolarDB-X 开源脉络：

2021年10月，在云栖大会上，阿里云正式对外开源了云原生分布式数据库PolarDB-X，采用全内核开源的模式，开源内容包含计算引擎、存储引擎、日志引擎、Kube等。
2022年1月，PolarDB-X 正式发布 2.0.0 版本，继 2021 年 10 月 20 号云栖大会正式开源后的第一次版本更新，更新内容包括新增集群扩缩容、以及binlog生态兼容等特性，兼容 maxwell 和 debezium 增量日志订阅，以及新增其他众多新特性和修复若干问题。
2022年3月，PolarDB-X 正式发布 2.1.0 版本，包含了四大核心特性，全面提升 PolarDB-X 稳定性和生态兼容性，其中包含基于Paxos的三副本共识协议。
2022年5月，PolarDB-X正式发布2.1.1 版本，重点推出冷热数据新特性，可以支持业务表的数据按照数据特性分别存储在不同的存储介质上，比如将冷数据存储到Aliyun OSS对象存储上。
2022年10月，PolarDB-X 正式发布2.2.0版本，这是一个重要的里程碑版本，重点推出符合分布式数据库金融标准下的企业级和国产ARM适配，共包括八大核心特性，全面提升 PolarDB-X 分布式数据库在金融、通讯、政务等行业的普适性。
2023年3月，PolarDB-X 正式发布2.2.1版本，在分布式数据库金融标准能力基础上，重点加强了生产级关键能力，全面提升PolarDB-X面向数据库生产环境的易用性和安全性，比如：提供数据快速导入、性能测试验证、生产部署建议等。
2023年10月份，PolarDB-X 正式发布 2.3.0版本，重点推出PolarDB-X标准版（集中式形态），将PolarDB-X分布式中的DN节点提供单独服务，支持paxos协议的多副本模式、lizard分布式事务引擎，同时可以100%兼容MySQL，对应PolarDB-X公有云的标准版。
2024年4月份，PolarDB-X 正式发布2.4.0版本，重点推出列存节点Columnar，可以提供持久化列存索引（Clustered Columnar Index，CCI）。PolarDB-X的行存表默认有主键索引和二级索引，列存索引是一份额外基于列式结构的二级索引（默认覆盖行存所有列），一张表可以同时具备行存和列存的数据，结合计算节点CN的向量化计算，可以满足分布式下的查询加速的诉求，实现HTAP一体化的体验和效果。

01 列存索引

随着云原生技术的不断普及，以Snowflake为代表的新一代云原生数仓、以及数据库HTAP架构不断创新，可见在未来一段时间后行列混存HTAP会成为一个数据库的标配能力，需要在当前数据库列存设计中面相未来的低成本、易用性、高性能上有更多的思考

PolarDB-X在V2.4版本正式发布列存引擎，提供列存索引的形态（Clustered Columnar Index，CCI），行存表默认有主键索引和二级索引，列存索引是一份额外基于列式结构的二级索引（覆盖行存所有列），一张表可以同时具备行存和列存的数据。

$$ PolarDB-X 列存索引 $$

原理简介

列存索引的数据结构：

$$ 列存数据结构 $$

列存索引是由列存引擎（Columnar）节点来构造的，数据结构基于Delta+Main(类LSM结构)二层模型，实时更新采用了标记删除的技术(update转化为delete标记 + insert)，确保了行存和列存之间实现低延时的数据同步，可以保证秒级的实时更新。数据实时写入到MemTable，在一个group commit的周期内，会将数据存储到一个本地csv文件，并追加到OSS上对应csv文件的尾部，这个文件称为delta文件。OSS对象存储上的.csv文件不会长期存在，而是由compaction线程不定期地转换成.orc文件。

列存索引的数据流转：

$$ 数据流转 $$

列存索引，构建流程：

1.数据通过CN写入到DN（正常的行存数据写入）
2.CDC事务日志，提供实时提取逻辑binlog（获取事务日志）
3.Columnar实时消费snapshot数据和cdc 增量binlog流，构建列存索引（异步实现行转列）

列存索引，查询流程：

1.CN节点，基于一套SQL引擎提供了统一入口
2.CN 从GMS获取当前最新的TSO(事务时间戳)
3.CN基于TSO获取当前列存索引的快照信息（GMS中存储了列存索引的元数据）
4.从DN或者OSS扫描数据，拉到CN做计算（行列混合计算）

tips. 更多列存引擎相关的技术原理文章，后续会逐步发布，欢迎大家持续关注。

性能体验

测试集：TPC-H 100GB 硬件环境：

按照正常导入TPC-H 100GB数据后，执行SQL创建列存索引：

create clustered columnar index `nation_col_index` on nation(`n_nationkey`) partition by hash(`n_nationkey`) partitions 1;
create clustered columnar index `region_col_index` on region(`r_regionkey`) partition by hash(`r_regionkey`) partitions 1;
create clustered columnar index `customer_col_index` on customer(`c_custkey`) partition by hash(`c_custkey`) partitions 96;
create clustered columnar index `part_col_index` on part(`p_size`) partition by hash(`p_partkey`) partitions 96;
create clustered columnar index `partsupp_col_index` on partsupp(`ps_partkey`) partition by hash(`ps_partkey`) partitions 96;
create clustered columnar index `supplier_col_index` on supplier(`s_suppkey`) partition by hash(`s_suppkey`) partitions 96;
create clustered columnar index `orders_col_index` on orders(`o_orderdate`,`o_orderkey`) partition by hash(`o_orderkey`) partitions 96;
create clustered columnar index `lineitem_col_index` on lineitem(`l_shipdate`,`l_orderkey`) partition by hash(`l_orderkey`) partitions 96;

场景1：单表聚合场景( count 、 groupby)

tpch-Q1的行存和列存的效果对比图：

$$ tpch-Q1 $$

select count的行存和列存的效果对比图：

$$ count查询 $$

场景2：TPC-H 22条query

基于列存索引的性能白皮书，开源版本可以参考：TPC-H测试报告

TPC-H 100GB，22条query总计25.76秒

详细数据如下：

02 兼容MySQL 8.0.32

PolarDB-X V2.3版本，推出了集中式和分布式一体化架构（简称集分一体），在2023年10月公共云和开源同时新增集中式形态，将分布式中的DN多副本单独提供服务，支持Paxos多副本、lizard分布式事务引擎，可以100%兼容MySQL。所谓集分一体化，就是兼具分布式数据库的扩展性和集中式数据库的功能和单机性能，两种形态可以无缝切换。在集分一体化数据库中，数据节点被独立出来作为集中式形态，完全兼容单机数据库形态。当业务增长到需要分布式扩展的时候，架构会原地升级成分布式形态，分布式组件无缝对接到原有的数据节点上进行扩展，不需要数据迁移，也不需要应用侧做改造。

回顾下MySQL 8.0的官方开源，8.0.11版本在2018年正式GA，历经5年左右的不断演进，修复和优化了众多稳定性和安全相关的问题，2023年后的8.0.3x版本后逐步进入稳态。 PolarDB-X在V2.4版本，跟进MySQL 8.0的官方演进，分布式的DN多副本中全面兼容MySQL 8.0.32，快速继承了官方MySQL的众多代码优化：

更好用的DDL能力，比如：Instant DDL（加列、减列）、Parallel DDL（并行索引创建）
更完整的SQL执行能力，比如：Hash Join、窗口函数等

标准版架构

PolarDB-X标准版，采用分层架构：

日志层：采用Paxos的多数派复制协议，基于Paxos consensus协议日志完全兼容MySQL binlog格式。相比于开源MySQL主备复制协议（基于binlog的异步或半同步），PolarDB-X标准版可以金融级容灾能力，满足机房级故障时，不丢任何数据，简称RPO=0。
存储层：自研Lizard事务系统，对接日志层，可以替换传统MySQL InnoDB的单机事务系统，分别设计了 SCN 单机事务系统和 GCN 分布式事务系统来解决这些弊端，可以满足集中式和分布式一体化的事务优化，同时PolarDB-X标准版基于SCN 单机事务系统可以提供完全兼容MySQL的事务隔离级别。
执行层：类似于MySQL的Server层，自研xRPC Server可以对接PolarDB-X企业版的分布式查询。同时为完全兼容MySQL，也提供兼容MySQL Server的SQL执行能力，对接存储层的事务系统来提供数据操作。

性能体验

硬件环境：

TPCC场景：对比开源MySQL（采用相同的主机硬件部署）

03 全球数据库 GDN

数据库容灾架构设计是确保企业关键数据安全和业务连续性的核心。随着数据成为企业运营的命脉，任何数据丢失或服务中断都可能导致重大的财务损失。在规划容灾架构时，企业需要考虑数据的恢复时间目标（RTO）和数据恢复点目标（RPO），以及相关的成本和技术实现的复杂性。

常见容灾架构

异地多活，主要指跨地域的容灾能力，可以同时在多地域提供读写能力。金融行业下典型的两地三中心架构，更多的是提供异地容灾，日常情况下异地并不会直接提供写流量。但随着数字化形式的发展，越来越多的行业都面临着容灾需求。比如，运营商、互联网、游戏等行业，都对异地多活的容灾架构有比较强的诉求。目前数据库业界常见的容灾架构：

同城3机房，一般是单地域多机房，无法满足多地域多活的诉求
两地三中心，分为主地域和异地灾备地域，流量主要在主地域，异地主要承担灾备容灾，异地机房日常不提供多活服务。
三地五中心，基于Paxos/Raft的多地域复制的架构
Geo-Partitioning，基于地域属性的partition分区架构，提供按用户地域属性的就近读写能力
Global Database，构建全球多活的架构，写发生在中心，各自地域提供就近读的能力

总结一下容灾架构的优劣势：

PolarDB-X的容灾能力

PolarDB-X 采用数据多副本架构（比如3副本、5副本），为了保证副本间的强一致性（RPO=0），采用Paxos的多数派复制协议，每次写入都要获得超过半数节点的确认，即便其中1个节点宕机，集群也仍然能正常提供服务。Paxos算法能够保证副本间的强一致性，彻底解决副本不一致问题。

PolarDB-X V2.4版本以前，主要提供的容灾形态：

单机房（3副本），能够防范少数派1个节点的故障
同城3机房（3副本），能够防范单机房故障
两地三中心（5副本），能够防范城市级的故障

阿里集团的淘宝电商业务，在2017年左右开始建设异地多活的架构，构建了三地多中心的多活能力，因此在PolarDB-X V2.4我们推出了异地多活的容灾架构，我们称之为全球数据库（Global Database Network，简称GDN）。 PolarDB-X GDN 是由分布在同一个国家内多个地域的多个PolarDB-X集群组成的网络，类似于传统MySQL跨地域的容灾（比如，两个地域的数据库采用单向复制、双向复制，或者多个地域组成一个中心+单元的双向复制等）。

常见的业务场景：

1.基于GDN的异地容灾

$$ 异地容灾 $$

业务默认的流量，读写都集中在中心的主实例，异地的从实例作为灾备节点，提供就近读的服务能力 PolarDB-X 主实例和从实例，采用双向复制的能力，复制延迟小于2秒，通过备份集的异地备份可以快速创建一个异地从实例。当PolarDB-X 中心的主实例出现地域级别的故障时，可以手动进行容灾切换，将读写流量切换到从实例

2.基于GDN的异地多活

$$ 异地多活 $$

业务适配单元化分片，按照数据分片的粒度的就近读和写，此时主实例和从实例，均承担读写流量 PolarDB-X 主实例和从实例，采用双向复制的能力，复制延迟小于2秒当PolarDB-X 中心的主实例出现地域级别的故障时，可以手动进行容灾切换，将读写流量切换到从实例

使用体验

PolarDB-X V2.4版本，暂时仅提供基于GDN的异地容灾，支持跨地域的主备复制能力（异地多活形态会在后续版本中发布)。GDN是一个产品形态，其基础和本质是数据复制，PolarDB-X提供了高度兼容MySQL Replica的SQL命令来管理GDN，简单来说，会配置MySQL主从同步，就能快速的配置PolarDB-X GDN。

1.可以使用兼容MySQL的CHANGE MASTER命令，搭建GDN复制链路

CHANGE MASTER TO option [, option] ... [ channel_option ]
option: {
    MASTER_HOST = 'host_name'
  | MASTER_USER = 'user_name'
  | MASTER_PASSWORD = 'password'
  | MASTER_PORT = port_num
  | MASTER_LOG_FILE = 'source_log_name'
  | MASTER_LOG_POS = source_log_pos
  | MASTER_LOG_TIME_SECOND = source_log_time
  | SOURCE_HOST_TYPE = {RDS|POLARDBX|MYSQL}
  | STREAM_GROUP = 'stream_group_name'
  | WRITE_SERVER_ID = write_server_id
  | TRIGGER_AUTO_POSITION = {FALSE|TRUE}
  | WRITE_TYPE = {SPLIT|SERIAL|TRANSACTION}
  | MODE = {INCREMENTAL|IMAGE}
  | CONFLICT_STRATEGY = {OVERWRITE|INTERRUPT|IGNORE|DIRECT_OVERWRITE}
  | IGNORE_SERVER_IDS = (server_id_list)
}
channel_option:
    FOR CHANNEL channel
server_id_list:
    [server_id [, server_id] ... ]

2.可以使用兼容MySQL的SHOW SLAVE STATUS命令，监控GDN复制链路

SHOW SLAVE STATUS [ channel_option ]
channel_option:
    FOR CHANNEL channel

3.可以使用兼容MySQL的CHANGE REPLICATION FILTER命令，配置数据复制策略

CHANGE REPLICATION FILTER option [, option] ... [ channel_option ]
option: {
    REPLICATE_DO_DB = (do_db_list)
  | REPLICATE_IGNORE_DB = (ignore_db_list)
  | REPLICATE_DO_TABLE = (do_table_list)
  | REPLICATE_IGNORE_TABLE = (ignore_table_list)
  | REPLICATE_WILD_DO_TABLE = (wild_do_table_list)
  | REPLICATE_WILD_IGNORE_TABLE = (wile_ignore_table_list)
  | REPLICATE_SKIP_TSO = 'tso_num'
  | REPLICATE_SKIP_UNTIL_TSO = 'tso_num'
  | REPLICATE_ENABLE_DDL = {TRUE|FALSE}
}
channel_option:
    FOR CHANNEL channel

4.可以使用兼容MySQL的START SLAVE 和 STOP SLAVE命令，启动和停止GDN复制链路

START SLAVE [ channel_option ]
channel_option:
    FOR CHANNEL channel
STOP SLAVE [ channel_option ]
channel_option:
    FOR CHANNEL channel

5.可以使用兼容MySQL的RESET SLAVE，删除GDN复制链路

RESET SLAVE ALL [ channel_option ]
channel_option:
    FOR CHANNEL channel

拥抱生态，提供兼容MySQL的使用方式，可以大大降低使用门槛，但PolarDB-X也需要做最好的自己，我们在兼容MySQL的基础上，还提供了很多定制化的功能特性。

原生的轻量级双向复制能力，举例来说：

1.PolarDB-X实例 R1 的server_id为100
2.PolarDB-X实例 R2 的server_id为200
3.构建 R1 到 R2的复制链路时，在R2上执行CHANGE MASTER并指定WRITE_SERVER_ID = 300、IGNORE_SERVER_IDS = 400
4.构建R2 到 R1的复制链路时，在R1上执行CHANGE MASTER并指定WRITE_SERVER_ID = 400、IGNORE_SERVER_IDS = 300

GDN场景下，保证主从实例之间的数据一致性是最为关键的因素，提供便捷的数据校验能力则显得尤为关键，V2.4版本不仅提供了完善的主从复制能力，还提供了原生的数据校验能力，在从实例上执行相关SQL命令，即可实现在线数据校验。V2.4版本暂时只支持直接校验模式(校验结果存在误报的可能)，基于sync point的快照校验能力(校验结果不会出现误报)，会在下个版本进行开源。

#开启校验
CHECK REPLICA TABLE {`test_db`.`test_tb`} | {`test_db`} 
[MODE='direct' | 'tso'] 
FOR CHANNEL xxx;
#查看校验进度
CHECK REPLICA TABLE [`test_db`.`test_tb`] | [`test_db`] SHOW PROGRESS;
#查看差异数据
CHECK REPLICA TABLE {`test_db`.`test_tb`} | {`test_db`} SHOW DIFFERENCE;

此外，数据的一致性不仅体现在数据内容的一致性上，还体现在schema的一致性上，只有二者都保证一致，才是真正的一致，比如即使丢失一个索引，当发生主从切换后，也可能引发严重的性能问题。PolarDB-X GDN支持各种类型的DDL复制，基本覆盖了其所支持的全部DDL类型，尤其是针对PolarDB-X特有schema的DDL操作，更是实现了充分的支持，典型的例子如：sequenc、tablegroup等DDL的同步。

除了数据一致性，考量GDN能力的另外两个核心指标为RPO和RTO，复制延迟越低则RPO越小，同时也间接影响了RTO，本次V2.4版本提供了RPO <= 2s、RTO分钟级的恢复能力，以Sysbench和TPCC场景为例，GDN单条复制链路在不同网络延迟条件(0.1ms ~ 20ms之间)下可以达到的最大RPS分布在2w/s 到 5w/s之间。当业务流量未触达单条复制链路的RPS瓶颈时，用单流binlog + GDN的组合来实现容灾即可，而当触达瓶颈后，则可以选择多流binlog + GDN的组合来提升扩展性，理论上只要网络带宽没有瓶颈，不管多大的业务流量，都可实现线性扩展，PolarDB-X GDN具备高度的灵活性和扩展性，以及在此基础之上的高性能表现。

04 开源生态完善

快速运维部署能力

PolarDB-X支持多种形态的快速部署能力，可以结合各自需求尽心选择

polardbx-operator是基于k8s operator架构，正式发布1.6.0版本，提供了polardb-x数据库的部署和运维能力，生产环境优先推荐，可参考polardbx-operator运维指南。

polardbx-operator 1.6.0新版本，围绕数据安全、HTAP、可观测性等方面完善集中式与分布式形态的运维能力，支持标准版的备份恢复，透明加密（TDE），列存只读（HTAP）、一键诊断工具、CPU 绑核等功能。同时兼容了8.0.32 新版本内核，优化了备份恢复功能的稳定性。详见：Release Note。

pxd 是基于开源用户物理机裸机部署的需求，提供快速部署和运维的能力, 可参考pxd运维。

发布pxd 0.7新版本，围绕版本升级、备库重搭，以及兼容8.0.32新版本内核。

标准版生态

V2.3版本开始，为方便用户进行快速体验，提供rpm包的下载和部署能力，可以一键完成标准版的安装，参考链接：

基于rpm包部署polardbx-标准版（https://doc.polardbx.com/zh/deployment/topics/deploy-by-rpm-s...）
【PolarDB-X开源】基于Paxos的MySQL三副本（https://zhuanlan.zhihu.com/p/669301230）

PolarDB-X标准版，基于Paxos协议实现多副本，基于Paxos的选举心跳机制，MySQL自动完成节点探活和HA切换，可以替换传统MySQL的HA机制。如果PolarDB-X替换MySQL，作为生产部署使用，需要解决生产链路的HA切换适配问题，开发者们也有自己的一些尝试（比如HAProxy 或自定义proxy）。在V2.4版本，我们正式适配了一款开源Proxy组件。

ProxySQL作为一款成熟的MySQL中间件，能够无缝对接MySQL协议支持PolarDB-X，并且支持故障切换，动态路由等高可用保障，为我们提供了一个既可用又好用的代理选项，更多信息可参考文档：使用开源ProxySQL构建PolarDB-X标准版高可用路由服务

原文链接

本文为阿里云原创内容，未经允许不得转载。

Apache RocketMQ ACL 2.0 全新升级

2024-05-14T16:21:32+08:00

引言

RocketMQ 作为一款流行的分布式消息中间件，被广泛应用于各种大型分布式系统和微服务中，承担着异步通信、系统解耦、削峰填谷和消息通知等重要的角色。随着技术的演进和业务规模的扩大，安全相关的挑战日益突出，消息系统的访问控制也变得尤为重要。然而，RocketMQ 现有的 ACL 1.0 版本已经无法满足未来的发展。因此，我们推出了 RocketMQ ACL 2.0 升级版，进一步提升 RocketMQ 数据的安全性。本文将介绍 RocketMQ ACL 2.0 的新特性、工作原理，以及相关的配置和实践。

升级的背景

ACL 1.0 痛点问题

RocketMQ ACL 1.0 的认证和授权流程如上图所示，在使用过程中，存在着以下痛点问题：

绕过访问控制的 IP 白名单：在标准安全实践中，IP 白名单通常用于限制客户端只能从特定 IP 或 IP 段访问资源。然而，ACL 1.0 中，IP 白名单被异常用于绕过鉴权验证的手段，偏离了标准实践中的安全意图。这种设计上的偏差可能造成潜在的安全隐患，特别是在公网场景中，多个客户端共享同一个 IP 的情况下，会导致未授权的 IP 地址绕过正常的访问控制检查对集群中的数据进行访问。

缺乏管控 API 精细化控制：RocketMQ 提供了 130 多个管控 API，支持了集群配置，Topic、Group 的元数据管理，以及消息查询、位点重置等操作。这些操作涉及到敏感数据的处理，以及影响系统的稳定性。因此，根据用户不同角色或职责，精确定义可访问的 API 和数据范围变得至关重要。然而，ACL 1.0 仅对其中 9 个 API 进行了支持，包括 Topic、Group 元数据，以及Broker配置，剩下的 API 有可能被攻击者利用，对系统进行攻击，窃取敏感的数据。此外，要实施对这么多的管控 API 进行访问控制，现有的设计会导致大量的编码工作，并且在新增 API 时也增加了遗漏的风险。

缺少集群组件间访问控制：在 RocketMQ 架构中，涵盖了 NameServer、Broker 主从节点、Proxy 等多个关键组件。目前，这些组件之间的互相访问缺失了关键的的权限验证机制。因此，一但旦在集群外自行搭建 Broker 从节点或 Proxy 组件，便可以绕过现有的安全机制，访问并获取集群内的敏感数据，这无疑给系统的数据安全和集群的稳定性造成巨大的威胁。

特性与原理

ACL 2.0 新特性

RocketMQ ACL 2.0 针对 ACL 1.0 中的问题进行了解决，同时还带来了六个主要的新特性，具体如下：

精细的API资源权限定义：ACL 2.0 对 RocketMQ 系统中所有的资源都进行了定义，包括集群、命名空间、主题、消费者组，以实现对所有类型的资源进行独立的访问控制。此外，它将所有的 API 都纳入权限控制范畴，覆盖了包括消息收发、集群管理、元数据等各项操作，确保所有资源的任何操作都施加了严格的权限控制。

授权资源的多种匹配模式：在资源众多的集群环境中，为每个资源进行逐一授权会带来繁复的配置过程和管理负担。因此，ACL 2.0 引入了三种灵活的匹配模式：完全匹配、前缀匹配，以及通配符匹配。这些模式可以让用户根据资源的命名规范和结构特点，快速地进行统一的设定，简化权限的管理操作，提升配置的效率。

支持集群组件间访问控制：由于将所有资源类型和API操作都纳入了访问控制体系，集群内部组件之间的连接和访问也受到了权限控制，包括 Broker 主从之间的 Leader 选举、数据复制的过程，以及 Proxy 到 Broker 的数据访问等环节，这可以有效地避免潜在的数据泄露问题和对系统稳定性的风险，加强了整个集群的安全性和可靠性。

用户认证和权限校验分离：通过对认证和授权这两个关键模块进行解耦，系统可以提供类似“只认证不鉴权”等方式的灵活选择，以适应各种不同场景的需求。此外，两个组件可以分别演进、独立发展，从而诞生出多样的认证方式和先进的鉴权方法。

安全性和性能之间的平衡：当启用 ACL 后，客户端的每次请求都必须会经过完整的认证和授权流程。这确保了系统的安全性，但同时也引入了性能上的开销。在 ACL 2.0 中，提供了无状态认证授权策略和有状态认证授权策略，来分别满足对安全有极致要求，以及安全可控但性能优先这两种不同的安全和性能需求。

灵活可扩展的插件化机制：当前市场上，认证方式存在多种实现，授权方式也有不同场景的定制需求。因此，ACL 2.0 设计了一套插件化的框架，在不同层面上进行接口的定义和抽象，以支持未来对认证和授权进行扩展，满足用户根据自身业务需求定制和实现相应的解决方案。

访问控制模型

基于角色的访问控制（RBAC）和基于属性的访问控制（ABAC）是访问控制体系中两种主要的方法。RocketMQ ACL 2.0 将这两种方法进行了融合，打造出了一套更加灵活和强大的访问控制系统。

RBAC 是基于角色的访问控制模型，通过角色进行权限的分配。RocketMQ ACL 2.0 将用户角色划分为超级用户（Super）和普通用户（Normal），超级用户具有最高级别的权限，能够无需授权即可访问资源，这简化了集群初始化及日常运维过程中的权限依赖问题。而普通用户在访问资源之前，需要被赋予相应的权限，适用于业务场景中，对资源进行按需访问。

ABAC 是基于属性的访问控制模型，通过用户、资源、环境、操作等多维属性来表达访问控制策略。RocketMQ ACL 2.0 为普通用户提供了这种灵活的访问控制机制。帮助管理员根据业务需求、用户职责等因素，对资源进行更加精细的访问控制。

在安全体系中，认证和授权分别扮演着不同的角色，RocetMQ ACL 2.0 将认证和授权进行了模块分离。这可以确保两个组件各司其职，降低系统的复杂度。认证服务致力于验证用户身份的合法性，而授权服务则专注于管理用户权限和访问控制。这样的划分不仅可以让代码更易于管理、维护和扩展，也为用户提供了使用上的灵活性。根据需求，用户可以选择单独启用认证或授权服务，也可以选择同时启用两者。这使得 RocketMQ ACL 既可以满足简单场景的快速部署，也能够适应复杂环境下对安全性的严格要求。

认证（Authentication）

认证作为一种安全机制，旨在验证发起访问请求者的身份真实性。它用于确保只有那些经过身份验证的合法用户或实体才能访问受保护的资源或执行特定的操作。简而言之，认证就是在资源或服务被访问之前回答“你是谁？”这个问题。

RocketMQ ACL 2.0 版本维持了与 ACL 1.0 相同的认证机制，即基于 AK/SK 的认证方式。这种方式主要通过对称加密技术来核验客户端的身份，保证敏感的认证信息（如密码）不会在网络上明文传输，从而提升了整体的认证安全性。

主体模型

为了提升 RocketMQ 系统的访问控制和权限管理，ACL 2.0 针对主体模型做了以下改进和扩展：

1.统一主体模型的抽象：为了实现不同实体的访问控制和权限管理，设计了统一的主体接口，允许系统中多个实例作为资源访问的主体。用户作为访问资源的主体之一，按照该模型实现了主体的接口。这为未来新实体类型的权限适配提供了扩展能力。
2.角色分级与权限赋予：

超级用户：为了简化管理流程，超级用户被自动授予了全部权限，无需单独配置，从而简化了系统的初始化和日常的运维管理工作。
普通用户：普通用户的权限则需要明确授权。ACL 2.0 提供了相关的权限管理工具，可以根据组织的政策和安全需求，为普通用户赋予合适的权限。

3.支持用户状态管理：为了应对可能出现的安全风险，比如用户密码泄露，ACL 2.0 提供了用户的启用与禁用功能。当发生安全事件，可以通过禁用用户状态，快速进行止血，从而达到阻止非法访问的目的。

认证流程

客户端流程：

1.客户端在构建 RPC 请求时，检查是否设置了用户名和密码，若未配置，则直接发送请求；
2.若已配置，则使用预设的加密算法对请求参数进行加密处理，并生成对应的数字签名（Signature）。
3.在请求中附加用户名和 Signature，并将其发送至服务端以进行身份验证。

服务端流程：

1.服务端接收到请求后，首先检查是否开启认证，若未开启，则不校验直接通过；若已开启了，则进入下一步。
2.服务端对请求进行认证相关的参数进行解析和组装，获取包括用户名和 Signature 等信息。
3.通过用户名在本地库中查询用户相关信息，用户不存在，则返回处理无；用户存在，则进入下一步。
4.获取用户密码，采用相同的加密算法对请求进行加密生成 Signature，并和客户端传递的 Signature 进行比对，若两者一致，则认证成功，不一致，则认证失败。

授权（Authorization）

核心概念

授权作为一种安全机制，旨在确定访问请求者是否拥有对特定资源进行操作的权限。简而言之，授权就是在资源被访问之前回答“谁在何种环境下对哪些资源执行何种操作”这个问题。

基于“属性的访问控制（ABAC）”模型，RocketMQ ACL 2.0 涵盖了以下一系列的核心概念。在系统实现中，都会以以下概念作为指导，完成整个权限管理和授权机制的设计和实现。

权限模型

基于属性的访问控制（ABAC）模型的核心概念，ACL 2.0 对权限模型做了精心的设计，要点如下：

向后兼容的权限策略：默认情况下，ACL 2.0 只匹配和检验用户自定义的权限，若未找到匹配项，则视为无权限访问资源。但考虑到 ACL 1.0 中，存在默认权限的设置，允许对未匹配资源进行“无权限访问”和“有权限访问”的默认判定。因此，我们针对默认权限策略进行了兼容，确保 ACL 1.0 到 ACL 2.0 的无缝迁移。

灵活的资源匹配模式：在资源类型方面，ACL 2.0 支持了集群（Cluster）、命名空间（Namespace）、主题（Topic）、消费者组（Group）等类型，用于对不同类型的资源进行访问控制。在资源名称方面，引入了完全匹配（LITERAL）、前缀匹配（PREFIXED），以及通配符匹配（ANY）三种模式，方便用户根据资源的命名规范和结构，快速设定统一的访问规则，简化权限的管理。

精细的资源操作类型：在消息的发送和消费的接口方面，分别定义为 PUB 和 SUB 这两种操作。在集群和资源的管理的接口方面，分别定义为 CREATE、UPDATE、DELETE、LIST、GET 五种操作。通过这种操作类型的细化，可以帮助用户在资源的操作层面，无需关心具体的接口定义，简化对操作的理解和配置。

坚实的访问环境校验：在请求访问的环境方面，ACL 2.0 加入了客户端请求 IP 来源的校验，这个校验控制在每个资源的级别，可以精确到对每个资源进行控制。IP 来源可以是特定的 IP 地址或者是一个 IP 段，来满足不同粒度的 IP 访问控制，为系统的安全性增添一道坚实的防线。

授权流程

客户端流程：

1.客户端在构建 RPC 请求时，构建本次调用的接口入参，接口对应权限背后的操作定义。
2.客户端在接口入参中设置本次访问的资源信息，然后将用户和资源等参数传递到服务端。

服务端流程：

1.服务端在收到请求后，首先检查是否开启授权，若未开启，则不校验直接通过；若已开启了，则进入下一步。
2.服务端对请求中和授权相关的参数进行解析和组装，这些数据包括用户信息、访问的资源、执行的操作，以及请求的环境等。
3.通过用户名在本地数据存储中查询用户相关信息，若用户不存在，则返回错误；若用户存在，则进入下一步。
4.判断当前用户是否是超级用户，若超级用户，则直接通过请求，无需做授权检查，若普通用户，则进入下一步进行详细的授权检查。
5.根据用户名获取相关的授权策略列表，并对本次请求的资源、操作，以及环境进行匹配，同时按照优先级进行排序。
6.根据优先级最高的授权策略做出决策，若授权策略允许该操作，则返回授权成功，若拒绝该操作，则返回无权限错误。

授权参数的解析

在 ACL 2.0 中，更具操作类型和请求频率，对授权相关参数（包括资源、操作等）的解析进行了优化。

硬编码方式解析

对于消息发送和消费这类接口，参数相对较为复杂，且请求频次也相对较高。考虑到解析的便捷性和性能上的要求，采用硬编码的方式进行解析。

注解方式解析

对于大量的管控接口，采用硬编码的方式工作量巨大，且这些接口调用频次较低，对性能要求不高，所以采用注解的方式进行解析，提高编码效率。

权限策略优先级

在权限策略匹配方面，由于支持了模糊的资源匹配模式，可能出现同一个资源对应多个权限策略。因此，需要一套优先级的机制来确定最终使用哪一套权限策略。

假设配置了以下授权策略，按照以上优先级资源的匹配情况如下：

认证授权策略

出于安全和性能的权衡和考虑，RocketMQ ACL 2.0 为认证和授权提供了两种策略：无状态认证授权策略（Stateless）和有状态认证授权策略（Stateful）。

无状态认证授权策略（Stateless）: 在这种策略下，每个请求都会经过独立的认证和授权过程，不依赖于任何先前的会话和状态信息。这种严格的策略可以保证更高级别的安全保证。对权限进行变更，可以更加实时的反应在随后的请求中，无需任何等待。然而，这种策略在高吞吐的场景中可能会导致显著的性能负担，如增加系统 CPU 的使用率以及请求的耗时。

有状态认证授权策略（Stateful）: 在这种策略下，同一个客户端连接，相同资源以及相同的操作下，第一次请求会经过完整的认证和授权，后续请求则不再进行重复认证和授权。这种方法可以有效地降低性能小号，减少请求的耗时，特别适合吞吐量较高的场景。但是，这种策略可能引入了安全上的妥协，对权限的变更也无法做到实时的生效。

在这两者策略的选择上，需要权衡系统的安全性要求和性能需求。如果系统对安全性的要求很高，并且可以容忍一定的性能损耗，那么无状态认证授权策略可能是更好的选择。相反，如果系统需要处理大量的并发请求，且可以在一定程度上放宽安全要求，那么有状态认证授权策略可能更合适。在实际部署时，还应该结合具体的业务场景和安全要求来做出决策。

插件化机制

为了适应未来持续发展的认证鉴权方式，以及满足用户针对特定场景的定制需求，RocketMQ ACL 2.0 在多个环节上提供了灵活性和可扩展性。

认证和授权策略的扩展：默认情况下，RocketMQ ACL 2.0 提供了无状态认证授权策略（Stateless）和有状态认证授权策略（Stateful），以满足绝大多数用户对安全和性能的要求。但是，后续仍然可以探索出更优的策略，来兼顾安全和性能之间的平衡。

认证和授权方式的扩展：当前，在认证方面，市场上已经沉淀了多种成熟的实现，RocketMQ 目前只实现了其中一种，通过插件化的能力进行预留，未来可以轻松的引入更多的认证机制。在授权方面，RocketMQ 基于 ABAC 模型实现了一套主流的授权方式，以适应广泛的用户需求。但也提供了插件化的能力，方便未来能适配出更多贴合未来发展的解决方案。

认证和授权流程的编排：基于责任链设计模式，RocketMQ ACL 2.0 对其默认的认证和授权流程进行了灵活的编排。用户可以扩展或重写这些责任链节点，从而能够定制针对其具体业务场景的认证和授权逻辑。

用户和权限存储的扩展：RocketMQ 默认采用 RocksDB 在 Broker 节点上本地存储用户和权限数据。然而，通过实现预定义的接口，用户可以轻松地将这些数据迁移至任何第三方服务或存储系统中，从而优化其架构设计和操作效率。

审计日志

审计日志，用于记录和监控所有关于认证和授权的访问控制操作。通过升级日志，我们可以追踪到每一个访问的请求，确保系统的可靠性和安全性，同时，它也有助于问题的排查，进行安全的升级和满足合规的要求。

RocketMQ ACL 2.0 对认证和授权相关的审计日志都进行了支持，格式如下：

认证日志

# 认证成功日志
[AUTHENTICATION] User:rocketmq is authenticated success with Signature = eMX/+tH/7Bc0TObtDYMcK9Ls+gg=.

# 认证失败日志
[AUTHENTICATION] User:rocketmq is authenticated failed with Signature = eMX/+tH/7Bc0TObtDYMcK9Ls+xx=.

授权日志

# 授权成功日志
[AUTHORIZATION] Subject = User:rocketmq is Allow Action = Pub from sourceIp = 192.168.0.2 on resource = Topic:TP-TEST for request = 10.

# 授权失败日志
[AUTHORIZATION] Subject = User:rocketmq is Deny Action = Sub from sourceIp = 192.168.0.2 on resource = Topic:GID-TEST for request = 10.

配置与使用

部署架构

在部署架构方面，RocketMQ 提供了两种部署形态，分别是存算一体架构和存算分离架构。

存算一体架构

在 RocketMQ 存算一体架构中，Broker 组件同时承担了计算和存储的职责，并对外提供服务，接收所有客户端的访问请求。因此，由 Broker 组件承担认证和授权的重要角色。此外，Broker 组件还负责认证和授权相关的元数据的维护和存储。

存算分离架构

在 RocketMQ 存算分离架构中，存储由 Broker 组件负责，计算由 Proxy 组件负责，所有的对外请求都是由 Proxy 对外进行服务。因此，请求的认证和授权都由 Proxy 组件承担。Broker 承担元数据存储，为 Proxy 组件提供所需的认证和授权元数据的查询和管理服务。

集群配置

认证配置

参数列表

想要在服务端开启认证功能，相关的参数和使用案例主要包含如下：

Broker 配置

authenticationEnabled = true
authenticationProvider = org.apache.rocketmq.auth.authentication.provider.DefaultAuthenticationProvider
initAuthenticationUser = {"username":"rocketmq","password":"12345678"}
innerClientAuthenticationCredentials = {"accessKey":"rocketmq","secretKey":"12345678"}
authenticationMetadataProvider = org.apache.rocketmq.auth.authentication.provider.LocalAuthenticationMetadataProvider

Proxy 配置

{
  "authenticationEnabled": true,
  "authenticationProvider": "org.apache.rocketmq.auth.authentication.provider.DefaultAuthenticationProvider",
  "authenticationMetadataProvider": "org.apache.rocketmq.proxy.auth.ProxyAuthenticationMetadataProvider",
  "innerClientAuthenticationCredentials": "{\"accessKey\":\"rocketmq\", \"secretKey\":\"12345678\"}"
}

授权配置

参数列表

想要在服务端开启授权功能，相关的参数和使用案例主要包含如下：

Broker 配置

authorizationEnabled = true
authorizationProvider = org.apache.rocketmq.auth.authorization.provider.DefaultAuthorizationProvider
authorizationMetadataProvider = org.apache.rocketmq.auth.authorization.provider.LocalAuthorizationMetadataProvider

Proxy 配置

{
  "authorizationEnabled": true,
  "authorizationProvider": "org.apache.rocketmq.auth.authorization.provider.DefaultAuthorizationProvider",
  "authorizationMetadataProvider": "org.apache.rocketmq.proxy.auth.ProxyAuthorizationMetadataProvider"
}

如何使用

命令行使用

用户管理

关于 ACL 用户的管理，相关的接口定义和使用案例如下。

接口定义

使用案例

# 创建用户
sh mqadmin createUser -n 127.0.0.1:9876 -c DefaultCluster -u rocketmq -p rocketmq
# 创建用户，指定用户类型
sh mqadmin createUser -n 127.0.0.1:9876 -c DefaultCluster -u rocketmq -p rocketmq -t Super
# 更新用户
sh mqadmin updateUser -n 127.0.0.1:9876 -c DefaultCluster -u rocketmq -p 12345678
# 删除用户
sh mqadmin deleteUser -n 127.0.0.1:9876 -c DefaultCluster -u rocketmq
# 查询用户详情
sh mqadmin getUser -n 127.0.0.1:9876 -c DefaultCluster -u rocketmq
# 查询用户列表
sh mqadmin listUser -n 127.0.0.1:9876 -c DefaultCluster
# 查询用户列表，带过滤条件
sh mqadmin listUser -n 127.0.0.1:9876 -c DefaultCluster -f mq

ACL 管理

关于 ACL 授权的管理，相关的接口定义和使用案例如下。

接口定义

使用案例

# 创建授权
sh mqadmin createAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq -r Topic:*,Group:* -a Pub,Sub -i 192.168.1.0/24 -d Allow
# 更新授权
sh mqadmin updateAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq -r Topic:*,Group:* -a Pub,Sub -i 192.168.1.0/24 -d Deny
# 删除授权
sh mqadmin deleteAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq
# 删除授权，指定资源
sh mqadmin deleteAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq -r Topic:*
# 查询授权列表
sh mqadmin listAcl -n 127.0.0.1:9876 -c DefaultCluster
# 查询授权列表，带过滤条件
sh mqadmin listAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq -r Topic:*
# 查询授权详情
sh mqadmin getAcl -n 127.0.0.1:9876 -c DefaultCluster -s User:rocketmq

客户端使用

关于 ACL 的使用，ACL 2.0 和 ACL 1.0 的使用方式一样，没有任何区别，具体参考官方案例。

消息发送

ClientServiceProvider provider = ClientServiceProvider.loadService();
StaticSessionCredentialsProvider sessionCredentialsProvider = 
  new StaticSessionCredentialsProvider(ACCESS_KEY, SECRET_KEY);
ClientConfiguration clientConfiguration = ClientConfiguration.newBuilder()
    .setEndpoints(ENDPOINTS)
    .setCredentialProvider(sessionCredentialsProvider)
    .build();
Producer producer = provider.newProducerBuilder()
    .setClientConfiguration(clientConfiguration)
    .setTopics(TOPICS)
    .build();

消息消费

ClientServiceProvider provider = ClientServiceProvider.loadService();
ClientConfiguration clientConfiguration = ClientConfiguration.newBuilder()
    .setEndpoints(ENDPOINTS)
    .setCredentialProvider(sessionCredentialsProvider)
    .build();
FilterExpression filterExpression = new FilterExpression(TAG, FilterExpressionType.TAG);
PushConsumer pushConsumer = provider.newPushConsumerBuilder()
    .setClientConfiguration(clientConfiguration)
    .setConsumerGroup(CONSUMER_GROUP)
    .setSubscriptionExpressions(Collections.singletonMap(TOPIC, filterExpression))
    .setMessageListener(messageView -> {
        return ConsumeResult.SUCCESS;
    })
    .build();

扩容与迁移

扩容

如果想要在运行过程中的集群扩容一台 Broker，就需要将所有的元数据都同步到这台新的 Broker 上，ACL 2.0 提供了相应的拷贝用户和拷贝授权的接口来支持这项操作。

接口定义

使用案例

# 拷贝用户
sh mqadmin copyUser -n 127.0.0.1:9876 -f 192.168.0.1:10911 -t 192.168.0.2:10911
# 拷贝授权
sh mqadmin copyAcl -n 127.0.0.1:9876 -f 192.168.0.1:10911 -t 192.168.0.2:10911

迁移

如果已经使用上了 ACL 1.0，想要无缝地迁移至 ACL 2.0，也提供了相应的解决方案，只需要做以下配置即可。

配置定义

在 Broker 的配置文件中开启以下配置：

migrateAuthFromV1Enabled = true

特别说明

启用以上配置后，将在 Broker 启动过程中自动触发执行。该迁移功能会把 ACL 1.0 中的用户权限信息写入 ACL 2.0 的相应存储结构中。对于在 ACL 2.0 中尚未存在的用户和权限，系统将自动添加。对于已存在的用户和权限，迁移功能不会进行覆盖，以避免重写 ACL 2.0 中已经进行的任何修改。ACL 1.0 中关于 IP 白名单，由于是用于绕过访问控制的检查，和 ACL 2.0 的行为不匹配，所以不会迁移到 ACL 2.0 中。如果已经使用相关的能力，请完成改造后再做迁移。

规划与总结

规划

关于 RocketMQ ACL 的未来规划，可能会体现在以下两个方面：

丰富的认证和授权扩展：市场上存在丰富的认证和授权解决方案，其他的存储或计算产品也都采用了各种各样的实现方式。为了紧跟行业的发展趋势，RocketMQ ACL 未来也将努力创新，以满足更为广泛和多变的客户需求。同时，也将持续深化研究和发展更加出色的认证和授权策略，以达到安全性和性能之间的理想平衡。
可视化的用户权限操作：当前，在 ACL 中进行用户和权限的配置仅能通过命令行工具，不够友好。未来我们希望能在 RocketMQ Dashboard 上提供一个清晰、易用的可视化管理界面，从而简化配置流程并降低管理的技术门槛。另一方面，现有的 Dashboard 尚未集成 ACL 访问控制体系，后续也要将它纳入进来，以实现用户在 Dashboard 上对各项资源进行操作的访问权限。

总结

RocketMQ ACL 2.0 不管是在模型设计、可扩展性方面，还是安全性和性能方面都进行了全新的升级。旨在能够为用户提供精细化的访问控制，同时，简化权限的配置流程。欢迎大家尝试体验新版本，并应用在生产环境中。非常期待大家的在社区中反馈、讨论，和参与贡献，共同推进 RocketMQ 社区的成长和技术进步。

相关链接：

[1] RocketMQ 中文学习网站

ttps://http://rocketmq-learning.com

[2] 云消息队列 RocketMQ

https://www.aliyun.com/product/rocketmq

作者：徒钟

原文链接

本文为阿里云原创内容，未经允许不得转载。

SLS 查询新范式：使用 SPL 对日志进行交互式探索

2024-05-10T17:30:05+08:00

1.引言

在构建现代数据和业务系统的过程中，可观测性已经变得至关重要，日志服务（SLS）为 Log/Trace/Metric 数据提供了大规模、低成本、高性能的一站式平台服务，并提供数据采集、加工、投递、分析、告警、可视化等功能，从而全面提升企业在研发、运维、运营和安全等各种场景的数字化能力。

1.1 日志数据天然是非结构化的

日志（Log）数据作为可观测场景中最基础的数据类型之一，其最大的特点在于，日志数据是天然是非结构化的，具体与多种因素有关：

来源多样性：日志数据种类繁多，不同来源的数据难以具有统一的 Schema
数据随机性：比如异常事件日志、用户行为日志，往往天然就是随机的，难以预测的
业务复杂度：不同的参与方对数据的理解不同，比如开发流程中打日志的一般是开发者，但分析日志的往往是运营和数据工程师，写日志过程中难以预见到后期具体的分析需求

这些因素导致很多情况下可能并不存在一个理想的数据模型可以用来预先处理好日志数据，更常见的做法往往是直接存储原始数据，这可以称为是一种 Schema-on-Read 的做法，或者是所谓的寿司原则（The Sushi Principle：Raw data is better than cooked, since you can cook it in as many different ways as you like）。而这种“杂乱无章”的原始日志数据也给分析人员增加了难度，因为往往是需要对数据模型具有一定的先验知识，才能对数据进行比较好的结构化分析。

1.2 来自 Unix 管道的启发：交互式探查

在各种日志分析系统与平台出现之前，开发运维人员最传统的日志分析方式，是直接登录到日志文件所在的机器上去 grep 日志，并配合一系列 Unix 命令对日志进行分析处理。

比如要查看访问日志中 404 的来源 host，可能就会用到这样的命令：

grep 404 access.log | tail -n 10 | awk '{print $2}' | tr a-z A-Z

这条命令中通过 3 个管道操符，将 4 个 unix 命令行工具（关键词查找、日志截断、字段提取、大小写转换）连成了一条完整的处理栈。

值得注意的是，在使用这样的命令的时候，我们往往并不是一次性就写出完整的命令，而是写完一个命令之后就按下回车，观察执行输出的结果，然后再通过管道追加下一步的处理命令，继续执行，如此一直进行下去。

这个过程中充分体现了 Unix 的设计哲学，通过管道将一个个小而美工具组合成强大的程序。同时从日志分析的角度看，我们可以获得这样的启发：

1）交互式、递进式的探查，每次在上一次的基础上叠加执行

2）探查的过程中往往不会处理全量数据，而是截取一小部分样本数据进行分析

3）探查过程中进行的各种处理操作，只影响本次查询的输出，并不改变原始数据

可以感受到，这种交互式探查的操作，对于日志数据是一种很好的探索方式，那么在 SLS 这样的云上日志平台，当面对海量的原始日志数据的时候，我们期望也能使用类似 Unix 管道这样的方式，在查询时先通过多级管道对数据一步步递进式的探查处理，帮助我们在杂乱无序的日志中挖掘出数据的规律，进而就可以更加带有目的性的去完成后续的加工清洗、消费投递、SQL 聚合分析等操作。

2.SPL-日志的统一处理语法

SPL（详见 SPL 概览[1]），即 SLS Processing Language，是 SLS 对日志查询、流式消费、数据加工、Logtail 采集、以及数据 Ingestion 等需要数据处理的场景，提供的统一的数据处理语法，这种统一性使得 SPL 可以在整个日志处理的生命周期内，实现 "Write Once，Run Anywhere" 的效果。

SPL 基本语法如下：

<data-source> | <spl-expr> ... | <spl-expr> ...

其中是数据源，对于日志查询的场景，指的就是索引查询语句。

是 SPL 指令，支持正则取值、字段分裂、字段投影、数值计算等多种操作，具体参考 SPL 指令介绍[2]。

从语法定义上可以看到，SPL 天然是支持多级管道的。对于日志查询的场景来说，在索引查询语句之后，可以根据需要通过管道符不断追加 SPL 指令，每一步都可以点击查询查看当前的处理结果，从而获得类似 Unix 管道处理的体验。并且相比于 Unix 指令，SPL 具备更丰富的算子和函数，可以对日志进行更为灵活的调试分析和探索分析。

3.使用 SPL 查询日志

在日志查询场景中，SPL 是工作在扫描模式下的，可以直接针对非结构化的原始数据进行处理，不受是否创建索引以及索引类型的限制。扫描的时候按照实际扫描的数据量计费，详见扫描查询概述[3]。

3.1 统一的查询交互

扫描查询和索引查询虽然背后是不同的工作原理，但是在对用户的界面（控制台查询、GetLogs API）上，都是完全统一的交互。

在查询日志的时候，当输入索引查询语句的时候，就是通过索引查询。

再继续输入管道符和 SPL 指令，就会直接自动按照扫描模式对索引过滤的结果进行处理（无须再通过一个“扫描模式”的按钮来额外指定），并且会提示当前处于 SPL 输入模式。

3.2 更友好的语法提示

此外，在控制台查询的时候，会自动识别当前所处的语法模式，并对 SPL 相关指令和函数进行智能提示。

随着输入，下拉框自动提示相应的语法关键词、函数。

如果你一时忘记了某个语法怎么写，不用离开当前界面再去查找文档。直接移动光标放在某个关键词上，就会弹出详细的帮助信息。

3.3 筛选字段获得更精简的视图

在打日志的时候，为了将来潜在的分析需求，我们一般会尽量多打一些相关信息到日志里，因此往往会发现最终单条日志中会存在比较多的字段。

这种情况下，在 SLS 控制台查询的时候，一条日志占据的空间太多，即使将顶部的柱状图和侧边的快速分析栏都折叠起来，在日志原文区域也只能同时看到一两条日志，要不断地滚动鼠标翻页才能看其他日志，使用起来较为不便。

然而实际上我们在查询日志的时候，往往是带着某个目的去检索，这个时候一般是只关心其中的部分字段。这时就可以使用 SPL 中的 project 指令，只保留自己关心的字段（或者使用 project-away 指令，移除不需要看到的字段。这样不仅可以移除干扰，将注意力集中在当前要关注的字段上，而且由于字段精简了，也可以同时预览到更多条的日志。）

3.4 实时计算出新的字段

前面提到过，由于写入日志的时候无法完全预见分析的需求，因此分析日志的时候，常常会需要对已有字段加工提取出新的字段，这可以通过 SPL 的 Extend 指令实现。

使用 Extend 指令，可以调用丰富的函数（这些大部分是和 SQL 语法通用的）进行标量处理。

Status:200 | extend urlParam=split_part(Uri, '/', 3)

同时也可以根据多个字段计算出新的字段，比如计算两个数字字段的差值。（注意字段默认是被视为 varchar，进行数字类型计算的时候要先通过 cast 转换类型）

Status:200 | extend timeRange = cast(BeginTime as bigint) - cast(EndTime as bigint

3.5 灵活的进行多维度过滤

索引查询只能根据进行关键词、多个关键词组成的短语、关键词末尾模糊等搜索方式，在扫描模式下，可以通过 where 质量可以按照各种条件过滤，这个是当前扫描查询已经具备的能力，在升级到 SPL 之后，where 可以放在任意一级管道，对计算出的新字段进行过滤，从而具备更灵活更强大的过滤能力。

比如，根据 BeginTime 和 EndTime 计算出 TimeRange 之后，可以再对这个计算后的值进行判断过滤。

Status:200 
| where UserAgent like '%Chrome%'
| extend timeRange = cast(BeginTime as bigint) - cast(EndTime as bigint)
| where timeRange > 86400

我们的日志中有的时候会存在某个字段本身是 json、csv 这种半结构化数据的情况，我们可以使用 extend 指令去提取其中某个子字段，但是如果要分析的子字段比较多，就会需要写大量的 json_extract_scalar 或者 regexp_extract 这样的字段提取函数，较为不便。

SPL 提供了 parse-json、parse-csv 这样的指令，可以将 json、csv 类型的字段，直接完全展开出为独立的字段，之后就可以直接对这些字段进行操作。省去了书写字段提取函数的开销，在交互式查询场景中这种写法是更为便捷的。

3.7 所思即所见的沉浸式探索体验

让我们再通过一张动图来感受下，在探索日志的过程中，通过管道随着 SPL 指令的不断输入，对数据进行抽丝剥茧的逐级处理，每一步都可以将脑海中思考的处理步骤，物化在查询结果页面视图上，所思即所见，所见即所得，在一步步的交互式探索中，最终提取出我们需要分析的结构化信息。

4. 总结

由于数据来源的多样性和分析需求的不确定性，日志数据往往是直接以非结构化的原始数据存储，这为查询分析带来了一定挑战。

SLS 推出日志统一处理语言 SPL，在日志查询场景下，可以通过多级管道对数据进行交互式、递进式的探索，从而更便捷的发现数据特征，并更好的进行后续的结构化分析和加工消费等处理流程。目前查询支持 SPL 的功能已经在各个地域上线，欢迎大家使用。如果有任何问题和需求，可以通过工单和支持群反馈给我们。SLS 将持续不断努力，打造一个更易用、更稳定、更强大的可观测分析平台。

相关链接：

[1] SPL 概览

[2] SPL 指令介绍

[3] 扫描查询概述

参考链接：

[1] The Sushi Principle

[2] Unix Commands, Pipes, and Processes

[3] SPL 概述

[4] 扫描查询概述

[5] SLS 架构升级-更低成本、更高性能、更稳定和易用

作者：无哲

原文链接

本文为阿里云原创内容，未经允许不得转载。

得物 ZooKeeper SLA 也可以 99.99%

2024-05-09T15:42:53+08:00

1.背景

ZooKeeper（ZK）是一个诞生于 2007 年的分布式应用程序协调服务。尽管出于一些特殊的历史原因，许多业务场景仍然不得不依赖它。比如，Kafka、任务调度等。特别是在 Flink 混合部署 ETCD 解耦时，业务方曾要求绝对的稳定性，并强烈建议不要使用自建的 ZooKeeper。出于对稳定性的考量，采用了阿里的 MSE-ZK。自从 2022 年 9 月份开始使用至今，得物技术团队没有遇到任何稳定性问题，SLA 的可靠性确实达到了 99.99%。

在 2023 年，部分业务使用了自建的 ZooKeeper（ZK）集群，然后使用过程中 ZK 出现了几次波动，随后得物 SRE 开始接管部分自建集群，并进行了几轮稳定性加固的尝试。接管过程中得物发现 ZooKeeper 在运行一段时间后，内存占用率会不断增加，容易导致内存耗尽（OOM）的问题。得物技术团队对这一现象非常好奇，因此也参与了解决这个问题的探索过程。

2.探索分析

2.1 确定方向

在排查问题时，非常幸运地发现了一个测试环境的故障现场，该集群中的两个节点恰好处于 OOM 的边缘状态。

有了故障现场，那么一般情况下距离成功终点只剩下 50%。内存偏高，按以往的经验来看，要么是非堆，要么是堆内有问题。从火焰图和 jstat 都能证实：是堆内的问题。

如图所示：说明 JVM 堆内存在某种资源占用了大量的内存，并且 FGC 都无法释放。

2.2 内存分析

为了探究 JVM 堆中内存占用分布，得物技术团队立即做了一个 JVM 堆 Dump。分析发现 JVM 内存被 childWatches 和 dataWatches 大量占用。

dataWatches：跟踪 znode 节点数据的变化。
childWatches：跟踪 znode 节点结构 (tree) 的变化。

childWatches 和 dataWatches 同源于 WatcherManager。

经过资料排查，发现 WatcherManager 主要负责管理 Watcher。ZooKeeper（ZK）客户端首先将 Watcher 注册到 ZooKeeper 服务器上，然后由 ZooKeeper 服务器使用 WatcherManager 来管理所有的 Watcher。当某个 Znode 的数据发生变更时，WatchManager 将触发相应的 Watcher，并通过与订阅该 Znode 的 ZooKeeper 客户端的 socket 进行通信。随后，客户端的 Watch 管理器将触发相关的 Watcher 回调，以执行相应的处理逻辑，从而完成整个数据发布/订阅流程。

进一步分析 WatchManager，成员变量 Watch2Path、WatchTables 内存占比高达 (18.88+9.47)/31.82 = 90%。

而 WatchTables、Watch2Path 存储的是 ZNode 与 Watcher 正反映射关系，存储结构图所示：

WatchTables【正向查询表】HashMap>
场景：某个 ZNode 发生变化，订阅该 ZNode 的 Watcher 会收到通知。
逻辑：用该 ZNode，通过 WatchTables 找到对应的所有 Watcher 列表，然后逐个发通知。
Watch2Paths【逆向查询表】
HashMap
场景：统计某个 Watcher 到底订阅了哪些 ZNode。
逻辑：用该Watcher，通过 Watch2Paths 找到对应的所有 ZNode 列表。
Watcher 本质是 NIOServerCnxn，可以理解成一个连接会话。

如果 ZNode、和 Watcher 的数量都比较多，并且客户端订阅 ZNode 也比较多，甚至全量订阅。这两张 Hash 表记录的关系就会呈指数增长，最终会是一个天量！

当全订阅时，如图演示：

当 ZNode数量：3，Watcher 数量：2 WatchTables 和 Watch2Paths 会各有 6 条关系。

当 ZNode数量：4，Watcher 数量：3 WatchTables 和 Watch2Paths 会各有 12 条关系。

通过监控发现，异常的 ZK-Node。ZNode 数量大概有 20W，Watcher 数量是5000。而 Watcher 与 ZNode 的关系条数达到了 1 亿。

如果存储每条关系的需要 1 个 HashMap&Node(32Byte)，由于是两个关系表，double 一下。那么其它都不要计算，光是这个“壳”，就需要 210000^232/1024^3 = 5.9GB 的无效内存开销。

2.3 意外发现

通过上面的分析可以得知，需要避免客户端出现对所有 ZNode 进行全面订阅的情况。然而，实际情况是，许多业务代码确实存在这样的逻辑，从 ZTree 的根节点开始遍历所有 ZNode，并对它们进行全面订阅。

或许能够说服一部分业务方进行改进，但无法强制约束所有业务方的使用方式。因此，解决这个问题的思路在于监控和预防。然而，遗憾的是，ZK 本身并不支持这样的功能，这就需要对 ZK 源码进行修改。

通过对源码的跟踪和分析，发现问题的根源又指向了 WatchManager，并且仔细研究了这个类的逻辑细节。经过深入理解后，发现这段代码的质量似乎像是由应届毕业生编写的，存在大量线程和锁的不恰当使用问题。通过查看 Git 记录，发现这个问题可以追溯到 2007 年。然而，令人振奋的是，在这一段时间内，出现了 WatchManagerOptimized（2018），通过搜索 ZK 社区的资料，发现了 [ZOOKEEPER-1177]，即在 2011 年，ZK 社区就已经意识到了大量 Watch 导致的内存占用问题，并最终在 2018 年提供了解决方案。正是这个WatchManagerOptimized 的功劳，看来 ZK 社区早就进行了优化。

有趣的是，ZK 默认情况下并未启用这个类，即使在最新的 3.9.X 版本中，默认仍然使用 WatchManager。也许是因为 ZK 年代久远，渐渐地人们对其关注度降低了。通过询问阿里的同事，确认了 MSE-ZK 也启用了 WatchManagerOptimized，这进一步证实了得物技术团队关注的方向是正确的。

2.4 优化探索

锁的优化

在默认版本中，使用的 HashSet 是线程不安全的。在这个版本中，相关操作方法如 addWatch、removeWatcher 和 triggerWatch 都是通过在方法上添加了 synchronized 重型锁来实现的。而在优化版中，采用了 ConcurrentHashMap 和 ReadWriteLock 的组合，以更精细化地使用锁机制。这样一来，在添加 Watch 和触发 Watch 的过程中能够实现更高效的操作。

存储优化

这是关注的重点。从 WatchManager 的分析可以看出，使用 WatchTables 和 Watch2Paths 存储效率并不高。如果 ZNode 的订阅关系较多，将会额外消耗大量无效的内存。

感到惊喜的是，WatchManagerOptimized 在这里使用了“黑科技” -> 位图。

利用位图将关系存储进行了大量的压缩，实现了降维优化。

Java BitSet 主要特点：

空间高效：BitSet 使用位数组存储数据，比标准的布尔数组需要更少的空间。
处理快速：进行位操作（如 AND、OR、XOR、翻转）通常比相应的布尔逻辑操作更快。
动态扩展：BitSet 的大小可以根据需要动态增长，以容纳更多的位。

BitSet 使用一个 long[] words 来存储数据，long 类型占 8 字节，64 位。数组中每个元素可以存储 64 个数据，数组中数据的存储顺序从左到右，从低位到高位。比如下图中的 BitSet 的 words 容量为 4，words[0] 从低位到高位分别表示数据 0~63 是否存在，words[1] 的低位到高位分别表示数据 64~127 是否存在，以此类推。其中 words[1] = 8，对应的二进制第 8 位为 1，说明此时 BitSet 中存储了一个数据 {67}。

WatchManagerOptimized 使用 BitMap 来存储所有的 Watcher。这样即便是存在1W的 Watcher。位图的内存消耗也只有8Byte1W/64/1024=1.2KB。如果换成 HashSet ，则至少需要 32Byte10000/1024=305KB，存储效率相差近 300 倍。

WatchManager.java:
private final Map<String, Set<Watcher>> watchTable = new HashMap<>();
private final Map<Watcher, Set<String>> watch2Paths = new HashMap<>();

WatchManagerOptimized.java:
private final ConcurrentHashMap<String, BitHashSet> pathWatches = new ConcurrentHashMap<String, BitHashSet>();
private final BitMap<Watcher> watcherBitIdMap = new BitMap<Watcher>();

ZNode到 Watcher 的映射存储，由 Map 换成了 ConcurrentHashMapBitHashSet>。也就是说不再存储 Set，而是用位图来存储位图索引值。

用 1W 的 ZNode，1W 的 Watcher，极端点走全订阅（所有的 Watcher 订阅所有的 ZNode），做存储效率 PK：

可以看到 11.7MB PK 5.9GB，内存的存储效率相差：516 倍。

逻辑优化

添加监视器：两个版本都能够在常数时间内完成操作，但是优化版通过使用 ConcurrentHashMap 提供了更好的并发性能。

删除监视器：默认版可能需要遍历整个监视器集合来找到并删除监视器，导致时间复杂度为 O(n)。而优化版利用 BitSet 和 ConcurrentHashMap，在大多数情况下能够快速定位和删除监视器，O(1)。

触发监视器：默认版的复杂度较高，因为它需要对每个路径上的每个监视器进行操作。优化版通过更高效的数据结构和减少锁的使用范围，优化了触发监视器的性能。

3.性能压测

3.1 JMH 微基准测试

ZooKeeper 3.6.4 源码编译， JMH micor 压测 WatchBench。

pathCount：表示测试中使用的 ZNode 路径数目。watchManagerClass：表示测试中使用的 WatchManager 实现类。
watcherCount：表示测试中使用的观察者（Watcher）数目。
Mode：表示测试的模式，这里是 avgt，表示平均运行时间。
Cnt：表示测试运行的次数。
Score：表示测试的得分，即平均运行时间。
Error：表示得分的误差范围。
Units：表示得分的单位，这里是毫秒/操作（ms/op）。

ZNode 与 Watcher 100 万条订阅关系，默认版本使用 50MB，优化版只需要 0.2MB，而且不会线性增加。
添加 Watch，优化版（0.406 ms/op）比默认版（2.669 ms/op）提升 6.5 倍。
大量触发Watch ，优化版（17.833 ms/op）比默认版（84.455 ms/op）提升 5 倍。

3.2 性能压测

接下来在一台机器 (32C 60G) 搭建一套 3 节点 ZooKeeper 3.6.4 使用优化版与默认版进行容量压测对比。

场景一：20W znode 短路径

Znode 短路径: /demo/znode1

场景二：20W znode 长路径

Znode 长路径: /sentinel-cluster/dev/xx-admin-interfaces/lock/_c_bb0832d5-67a5-48ab-8fe0-040b9ddea-lock/12

Watch 内存占用跟 ZNode 的 Path 长度有关。
Watch 的数量在默认版是线性上涨，在优化版中表现非常好，这对内存占用优化来说改善非常明显。

3.3 灰度测试

基于前面的基准测试和容量测试，优化版在大量 Watch 场景内存优化明显，接下来开始对测试环境的 ZK 集群进行灰度升级测试观察。

第一套 ZooKeeper 集群 & 收益

默认版

优化版

效果收益：

election_time (选举耗时)：降低 60%
fsync_time (事务同步耗时)：降低 75%
内存占用：降低 91%

第二套 ZooKeeper 集群 & 收益

效果收益：

内存：变更前 JVM Attach 响应无法响应，采集数据失败。
election_time（选举耗时）：降低 64%。
max_latency（读延迟）：降低 53%。
proposal_latency（选举处理提案延迟）：1400000 ms --> 43 ms。
propagation_latency（数据的传播延迟）：1400000 ms --> 43 ms。

第三套 ZooKeeper 集群 & 收益

默认版

优化版

效果收益：

内存：节省 89%
election_time（选举耗时）：降低 42%
max_latency（读延迟）：降低 95%
proposal_latency（选举处理提案延迟）：679999 ms --> 0.3 ms
propagation_latency（数据的传播延迟）：928000 ms--> 5 ms

4.总结

通过之前的基准测试、性能压测以及灰度测试，发现了 ZooKeeper 的 WatchManagerOptimized。这项优化不仅节省了内存，还通过锁的优化显著提高了节点之间的选举和数据同步等指标，从而增强了 ZooKeeper 的一致性。还与阿里 MSE 的同学进行了深度交流，各自在极端场景模拟压测，并达成了一致的看法：WatchManagerOptimized 对 ZooKeeper 的稳定性提升显著。总体而言，这项优化使得 ZooKeeper 的 SLA 提升了一个数量级。

ZooKeeper 有许多配置选项，但大部分情况下不需要调整。为提升系统稳定性，建议进行以下配置优化：

将 dataDir（数据目录）和 dataLogDir（事务日志目录）分别挂载到不同的磁盘上，并使用高性能的块存储。
对于 ZooKeeper 3.8 版本，建议使用 JDK 17 并启用 ZGC 垃圾回收器；而对于 3.5 和 3.6 版本，可使用 JDK 8 并启用 G1 垃圾回收器。针对这些版本，只需要简单配置 -Xms 和 -Xmx 即可。
将 SnapshotCount 参数默认值 100,000 调整为 500,000，这样可以在高频率 ZNode 变动时显著降低磁盘压力。
使用优化版的 Watch 管理器 WatchManagerOptimized。

原文链接

本文为阿里云原创内容，未经允许不得转载。

RocketMQ 事件驱动：云时代的事件驱动有啥不同？

2024-05-09T10:31:18+08:00

前言：

从初代开源消息队列崛起，到 PC 互联网、移动互联网爆发式发展，再到如今 IoT、云计算、云原生引领了新的技术趋势，消息中间件的发展已经走过了 30 多个年头。

目前，消息中间件在国内许多行业的关键应用中扮演着至关重要的角色。随着数字化转型的深入，客户在使用消息技术的过程中往往同时涉及交叉场景，比如同时进行物联网消息、微服务消息的处理，同时进行应用集成、数据集成、实时分析等，企业需要为此维护多套消息系统，付出更多的资源成本和学习成本。

在这样的背景下，2022 年，RocketMQ 5.0 正式发布，相对于 RocketMQ 4.0，架构走向云原生化，并且覆盖了更多的业务场景。

1.背景

事件驱动是一个经典的概念，这篇文章主要探讨云时代的事件驱动和传统的事件驱动相比有哪些不同？第一部分从技术理念的层面了解一下事件驱动的概念，第二部分会介绍 RocketMQ 5.0 面向云时代的事件驱动架构推出的子产品 EventBridge，最后再结合几个具体的案例帮助大家了解云时代的事件驱动的常见场景和最佳实践。

2.事件驱动架构

2.1 事件驱动架构定义

先从事件驱动的定义来看，事件驱动本质上是一种软件设计模式，它能够最大化降低不同模块以及不同系统之间的耦合度。

这里有一个典型的事件驱动架构图，首先是事件生产者发送事件到 EventBroker，然后 EventBroker 会把事件路由到对应的消费者进行事件处理。事件处理能够灵活扩展，随时增减事件消费者，事件生产者对此透明。

为什么说事件驱动是个很经典的设计模式呢？因为早在几十年前，就出现过多种事件驱动的技术，比如桌面客户端编程框架，点击按钮就可以触发 onclick 事件，开发者编写业务逻辑响应事件。在编程语言上，也经常会采用事件驱动的代码模式，比如 callback、handler 这类的函数。进入分布式系统的时代，系统之间的通信协同也会采用事件驱动的方式。

阅读过《RocketMQ 5.0 架构解析：如何基于云原生架构支撑多元化场景》一文的读者可能会发现，这里的图和之前 RocketMQ 的消息应用解耦图很像。没错，无论是消息的发布订阅，还是事件的生产消费，都是为了进行代码解耦、系统解耦。消息队列更偏技术实现，大部分的 EventBroker 都是基于消息队列实现的，而事件驱动则更偏向于架构理念。

2.2 事件的特征

从技术角度来看，消息队列是和 RPC 对应的，一个是同步通信，一个是异步通信。消息队列并不会规定消息的内容，只负责传输二进制内容。如果从技术实现来看，的确，EDA 需要的核心技术就是消息队列的技术。事件驱动跟消息驱动最大的区别就是：事件是一种特殊的消息，只有消息满足了某些特征，才能把它叫做事件。

打个比方，看左边这个图。消息就像是一个抽象类，有多种子类，最主要的就是 Command 和 Event 两种。以信号灯为例，向信号灯发送打开的消息，这就是一种 Command，信号灯接受这个 Command 并开灯。开灯后，信号灯对外发出信号灯变成绿色的消息，这个就是一种 Event。

对于事件（Event）来说，有四个主要的特征：

不可变的，事件就是表示已经发生了的事情，已经成为事实。
有时间概念，并且对同一个实体来说事件的发送是有序的。如信号灯按顺序发送了绿、黄、红等事件。
无预期的，这个就是 EDA 架构之所以能够实现最大化解耦的特点，事件的产生者对于谁是事件消费者、怎么消费这个事件是不关心的。
彻底解耦的，并且对于下游怎么去消费事件没有预期，所以事件是具象化的，应该包括尽可能详尽的信息，让下游消费者各取所需。比如交通信号灯事件，包含多个字段：它的来源是谁？它的类型是什么？它的主题是什么？是具体哪一个信号灯？它还会包含唯一的 ID 便于跟踪，以及事件发生时间、事件内容。

2.3 云时代的事件驱动

在全行业数字化转型的时代，事件驱动架构应用范围扩大，成为 Gartner 年度十大技术趋势。在新型的数字化商业解决方案里，会有 60% 采纳 EDA 架构。

事件驱动作为一个经典的架构模式，为什么会在云时代再度成为焦点呢？主要有几个原因：

因为云原生技术的快速发展和广泛应用，其中之一是微服务。微服务是云原生应用架构的核心，引入微服务架构，数字化企业能够按照小型化的业务单元和团队划分，以“高内聚、低耦合”的方式高效协作。但是微服务架构也会带来新的问题，比如大量同步微服务会面临延迟增大、可用性降低等风险，采用事件驱动的微服务体系，可提高微服务的韧性，降低延迟，实现更彻底的解耦。
云原生代表技术 Serverless 架构范式本身也是事件驱动的。现在主要的 Serverless 产品形态，无论是阿里云函数计算 FC、还是 AWS Lambda，它们的主要触发源都是各种形态的事件，比如云产品事件，OSS 文件上传，触发用户基于函数进行文件加工处理计算；用户业务事件，EventBroker 触发函数运行消费逻辑；云产品运维事件，用户通过响应事件，在云平台的基础上扩展自己的自动化运维体系。事件驱动架构的大规模使用，能够帮助数字化企业释放云计算 Serverless 的技术红利。
IoT 也是事件驱动架构的重要推动力，有大量的 IoT 应用构建都是基于事件驱动的，比如传感器上报设备事件，温度变化事件、地址位置变化事件等等，云端应用订阅这些事件触发对应的业务流程。
数字经济时代，在全行业大规模数字化转型后，跨组织业务逐步从线下搬到线上，数字化商业生态规模会持续扩大，跨组织业务协同更需要彻底解耦。而 EDA 天然具备的异步、解耦的特性，就可以解决这一系列的问题。比如阿里聚石塔业务就是事件驱动的模式，聚石塔实时发布交易事件，合作伙伴包括 ISV、软件服务商、品牌商家订阅消费交易事件，建设个性化的 CRM、商家运营、后台管理系统等等，形成一个庞大的电子商务数字化生态。

3.EventBridge

3.1 云时代的事件驱动能力抽象

接下来进入第二部分，RocketMQ 5.0 的 EventBridge。在系统了解技术实现之前，我们先来了解一下 EventBridge 对事件驱动的通用能力抽象，也可以了解到 EventBridge 的领域模型。

我们从左往右看这张图。

最左边是事件源，因为这个事件是希望被跨平台消费的，所以我们希望采用业界标准的事件格式。同时，事件是有可能被跨组织消费的，所以我们需要一个统一的事件中心，让这些不同的事件源都注册到这个事件中心。对消费者来说，就好比是一个事件商店，能够选择自己感兴趣的事件订阅。

在事件消费者开始编写消费逻辑的时候，还需要对这个事件的格式有更清楚的了解，需要知道这个事件有哪些内容，有哪些字段，分别是什么含义，才能编写正确的消费业务逻辑。所以，EventBridge 还提供了 schema 中心，消费者对于事件格式也就一目了然，不用跟事件源的发起者进行沟通了，整个效率也得到了大幅度的提升。

再往右看，就到了事件消费的环节，因为事件的消费者种类很多，不同消费者关注不同的事件类型，EventBridge 需要提供丰富的过滤规则。即便多个消费者对同一个事件感兴趣，但可能只需要事件的部分内容，EventBridge 还提供了事件转换的能力。

这就是 RocketMQ 5.0 对事件驱动的能力抽象。

3.2 统一事件标准

在云计算以及大规模数字化转型的时代，我们强调事件驱动架构往往跨越了不同的组织，不同的平台。所以事件驱动架构需要一个统一的事件标准。在 EventBridge 产品中，我们采用了 CNCF 基金会的 CloudEvents 标准，这是业界事件的事实标准，为了简化事件声明，提升事件在跨服务、跨平台的互操作性。

CloudEvents 带来了很多价值：

提供了一种规范，使得跨组织、跨平台的事件集成，有了共同语言，加速更多的事件集成。
随着 Serverless 的普及，各大云厂商都提供函数计算的服务，有了 CloudEvents 规范，用户在函数计算的使用上就可以实现无厂商绑定。
webhook 是一种通用的集成模式，有了 CloudEvents 规范作为统一格式，不同系统的 webhook 能实现更好的互操作性。
基于这样统一的规范，更有利于沉淀事件驱动的基础软件设施，比如跨服务的事件 Tracing 链路追踪。

3.3 RocketMQ - EventBridge

下图是 RocketMQ 面向 EDA 场景全新推出的产品形态 EventBridge。它的核心技术都是基于 RocketMQ，但是在产品界面上面向事件驱动的业务进行一层抽象，核心领域对象从消息变成 CloudEvents。基于统一事件标准来构建事件驱动的数字生态。

它的事件源是多样化的，可以是云产品事件，可以是 SaaS 平台事件，应用自定义事件、通用的 WebHook。当然，它的事件目标更是多样化的，通过事件规则引擎把事件路由到不同的消费者，典型的消费者比如函数计算，存储系统，消息通知（如钉钉、短信），还有通用的 webhook。通过事件驱动这种彻底解耦的架构，更适合建设混合云、多云的数字化系统。

事件 Schema

为了提升事件驱动的研发效率，EventBridge 也支持 Schema 的特性，支持事件信息的解释、预览，甚至还可以自动化的生成代码，让开发者以低代码、0 代码的方式完成事件集成。

事件规则引擎

EventBridge 的另一个比较重要的特性是事件规则引擎。因为不同的事件消费者，对于事件的兴趣是不一样的。所以我们提供了七种事件过滤模式，包括前缀匹配、后缀匹配、除外匹配、数值匹配等等，可以进行各种复杂的组合逻辑过滤，只推送消费者感兴趣的事件。

当然，就算都关心同一个事件，不同消费者对事件内部的信息关注点也会有所不同。为了提升事件消费效率，我们也提供了四种事件转化器，可以只推送给消费者它关心的事件字段。还可以对事件进行自定义的模板转化，满足更灵活的业务诉求。

事件可观测

作为 RocketMQ 的子项目，在 EventBridge 里也同样提供了完整的可观测能力。能够根据事件的时间、类型查询事件列表。每个事件都会生成唯一 ID。用户可以根据唯一 ID 去精确的定位事件的内容、发生时间、对应的事件规则，下游的消费状况，精准排查问题。

4.典型案例

接下来结合几个典型案例来看 EventBridge 的使用场景。

4.1 案例一：多种云产品事件处理场景

C 客户是一家以智能消费终端为核心的科技公司，希望收集账号里全部的云上事件，方便后续做分析或故障处理。公共云的 EventBridge 汇聚了所有的云产品事件，通过 EventBridge，客户能收集全量的事件并对其进行自定义的业务处理。还能够配置事件规则，过滤异常事件推送给监控系统或者钉钉，及时关注处理。

4.2 案例二：SaaS 事件集成场景

现在随着整个云计算生态的繁荣，有不少企业不仅使用了公共云的 IaaS、PaaS 产品，也会同时使用三方的 SaaS 产品，比如各种 ERP、CRM 等系统。基于 EventBridge 标准的 HTTP、webhook 的集成能力，能够无缝连接三方 SaaS 系统作为事件源，企业能够收集到他所关心的所有 SaaS 事件，方便后续管理，比如申请单、入职单、报销单、订单等等这些场景。

4.3 案例三：SaaS 平台集成场景

以钉钉为例，钉钉是典型的 SaaS 平台，有繁荣的生态，拥有 4000+ 家的生态伙伴，包括 ISV 生态伙伴、硬件生态伙伴、服务商、咨询生态和交付生态伙伴等等。通过 EventBridge 把公共云的 Paas 层生态和钉钉的 SaaS 层生态连接起来，而且依赖 EventBridge 完成整体事件生命周期的管理，以 WebHook 的形式推送给下游 ISV 接收端。比如钉钉的官方事件源，包括视频会议、日程、通讯录、审批流、钉盘、宜搭等，企业和 SaaS 厂商可以充分利用这些官方应用的事件构建企业级的应用系统，也可以把钉钉的官方数据流和其他系统做深度集成。

5.总结

通过这篇文章，我们深入探讨了云时代 EDA 的新内涵，它在云时代再次流行的主要驱动力，包括技术驱动力，（如物联网技术、云原生技术）和商业驱动力（伴随着数字化商业生态的繁荣被更多的采纳）。

之后，我们重点介绍了，面向云时代的事件驱动场景，RocketMQ 5.0 推出的子产品 EventBridge，它的特点就是拥抱行业标准，使其具备跨平台、跨组织的事件链接能力。它提供了强大的规则引擎，可以灵活连接事件上下游。同时，它还提供了 Schema 能力，使得整个事件驱动的用户体验和研发生产力有进一步的提升。

最后，我们通过几个云时代事件驱动的典型案例，帮助大家进一步了解云时代事件驱动的常见场景和最佳实践。比如，在用户全面上云之后，怎么统一管理云产品事件；怎么利用多个 SaaS 平台的事件建设自己的业务系统；作为 SaaS 平台本身，又要如何基于 EventBridge 对外开放标准事件，构建平台生态。

作者：林清山（隆基）

原文链接

本文为阿里云原创内容，未经允许不得转载。

Higress 全新 Wasm 运行时，性能大幅提升

2024-05-08T15:32:10+08:00

本文介绍 Higress 将 Wasm 插件的运行时从 V8 切换到 WebAssembly Micro Runtime (WAMR) 的最新进展。通过切换到 WAMR 并开启 AOT 模式大幅提升了 Wasm 插件性能，从我们的测试中大部分插件平均有 50% 左右的性能提升，一些逻辑复杂的插件性能直接翻倍。

Higress Wasm 插件

Higress 作为首个推出 Wasm 扩展能力的云产品网关，从 2022 年就上线了 Wasm 插件市场，我们使用 Wasm 技术作为主要的网关扩展手段，是因为它能为用户带来的独特价值：

工程可靠性：相比 Lua 等动态类型+解释执行语言，Wasm 可基于多种静态类型语言编译，可以做编译期检查，避免运行时出错把生产环境变成代码捉虫现场。
沙箱安全性：Wasm 插件运行在严格的虚拟机沙箱环境内，有自己的独立内存空间，不能直接访问外部内存，可以避免插件代码 bug 导致遭到缓冲区溢出、远程代码执行等攻击。
热更新：Higress 基于 Envoy 的 xDS 机制，插件二进制和配置都可以独立热更新，不会引起连接断开，对 WebSocket/gRPC 等业务场景更友好。

Higress 站在 Istio/Envoy 的肩膀上，为 Wasm 插件机制增加了三个核心能力：

域名/路由级生效：Istio/Envoy 自带的全局生效方式难以满足大部分场景需求，而基于 Higress Wasm sdk 开发的插件可以做到这点，同时编译出的插件也跟 Istio/Envoy 生态兼容（仅全局生效）。
Redis 访问能力：提供了访问 Redis 的 Host Function，插件代码可以基于 Redis 实现多种能力，例如全局限流，Session 状态管理等。
虚拟机自愈机制：开发的插件逻辑中若出现了空指针访问、数组越界、内存泄漏等问题，将被运行时系统捕获，不会导致网关崩溃；Higress 支持 Wasm 模块异常后自动重启，并能在快速止血的同时，通过告警通知用户出现问题的代码堆栈。

从 Higress 的企业用户看 Wasm 插件技术的采用周期，已经跨域过鸿沟，步入早期采用大众阶段，核心的驱动力是性能红利带来的成本下降。用户使用 Wasm 插件来开发满足自己特定业务需求的能力，对于鉴权、加解密、会话管理等逻辑在网关完成计算资源的卸载，无需后端服务处理，从而全局降低计算成本。

性能数据上，之前发表的这篇文档《通过Higress Wasm插件3倍性能实现Spring Cloud Gateway功能》反馈了过去的性能成果。

在 Higress 将 Wasm 运行时从 V8 替换为 WAMR 后，Wasm 插件的性能对比之前又有了大幅提升。

Wasm 运行时升级：从 V8 到 WAMR

V8 存在的问题

Wasm 技术诞生于浏览器场景，作为 Chromium 的 JS 引擎，V8 是最早支持 Wasm 的运行时之一，V8 引擎基于 JIT 模式运行 Wasm 模块，有着很好的性能。但也存在以下问题：

V8 项目复杂度很高：Wasm 相关实现跟 JS 处理逻辑有较多耦合，比如早期的 Envoy Wasm 插件的一个 bug 就是 V8 为优化 JS 执行内存引入指针压缩导致。

bug：https://bugs.chromium.org/p/v8/issues/detail?id=12592

V8 社区和 Envoy 社区之间缺少协作：Envoy 目前对于 V8 的版本依赖还停留在 2022 年的提交，无法支持 Wasm GC 等新特性，因为项目复杂度高，升级 V8 依赖的风险也很高。
客户端偏好：V8 的用户和开发者大多来自客户端，考虑设备兼容性，更重视 JIT 模式的优化，AOT 模式下性能提升不大，无法完全发挥 Wasm 性能优势。

WAMR 的优势

WAMR 是最早由 Intel 团队开发，在字节码联盟（Bytecode Alliance，面向 Wasm 软件生态的非盈利组织）下的一个广受欢迎的 WebAssembly 运行时开源项目。目前社区活跃的贡献者包含来自 Intel、小米、亚马逊、索尼、Midokura、西门子、蚂蚁等公司的工程师。WAMR 使用 C 语言开发，具有良好的平台适应性。支持解释模式、即时编译及预编译等模式运行 Wasm 模块，有着优良的性能，在多个公开性能测评报告中均表现优异，同时又极低的资源开销，可以在 100KB 内存中运行单个 Wasm 实例。

性能对比

压测工具：k6
服务器 CPU 型号：Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz
压测方式：Higress 启动 2 个 worker 线程，压测期间固定 k6 的压力，跑满两个线程

选取了部分 Higress 插件进行性能测试，情况如下：

注：表格中的数据为单请求平均附加延时

整体来看，Wasm 指令越复杂的插件，WAMR 的提升越明显。上述所有插件除 jwt-logout 是企业版插件未开源以外，其余插件均可以在 Higress 开源仓库目录下查看对应源码实现：https://github.com/alibaba/higress/tree/main/plugins/wasm-cpp/extensions

编译生成 AOT 文件，可以使用 wamrc 这个 WAMR 提供的官方编译工具：wamrc --invoke-c-api-import -o plugin.aot plugin.wasm。

为了生成的 wasm 文件可以兼容 JIT 模式，使用 WAMR 仓库下的脚本生成合并文件：python3 wasm-micro-runtime/test-tools/append-aot-to-wasm/append_aot_to_wasm.py --aot plugin.aot --wasm plugin.wasm -o plugin.aot.wasm

以提升最大的 oauth 插件为例，可以使用下述配置进行复现：

k6 压测命令：k6 run --vus 300 ./script.js --duration 60s

k6 压测脚本：

import http from 'k6/http';
import { check } from 'k6';

export default function () {
    const res = http.get('http://11.164.3.16:10000/',{headers: {'Authorization':'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6ImFwcGxpY2F0aW9uL2F0K2p3dCJ9.eyJhdWQiOiJ0ZXN0MiIsImNsaWVudF9pZCI6Ijk1MTViNTY0LTBiMWQtMTFlZS05YzRjLTAwMTYzZTEyNTBiNSIsImV4cCI6MTY2NTY3MzgyOSwiaWF0IjoxNjY1NjczODE5LCJpc3MiOiJIaWdyZXNzLUdhdGV3YXkiLCJqdGkiOiIxMDk1OWQxYi04ZDYxLTRkZWMtYmVhNy05NDgxMDM3NWI2M2MiLCJzY29wZSI6InRlc3QiLCJzdWIiOiJjb25zdW1lcjEifQ.LsZ6mlRxlaqWa0IAZgmGVuDgypRbctkTcOyoCxqLrHY'}});
    check(res, { 'status was 200': (r) => r.status == 200 });
}

envoy 配置片段：

                  - name: envoy.filters.http.wasm
                    typed_config:
                      "@type": type.googleapis.com/envoy.extensions.filters.http.wasm.v3.Wasm
                      config:
                        name: "my_plugin"
                        configuration:
                          "@type": "type.googleapis.com/google.protobuf.StringValue"
                          value: |
                            {
                                "consumers": [
                                    {
                                        "name": "consumer1",
                                        "client_id": "9515b564-0b1d-11ee-9c4c-00163e1250b5",
                                        "client_secret": "9e55de56-0b1d-11ee-b8ec-00163e1250b5"
                                    }
                                ],
                                "clock_skew_seconds": 3153600000
                            }
                        vm_config:
                          runtime: envoy.wasm.runtime.wamr
                          #runtime: envoy.wasm.runtime.v8
                          code:
                            local:
                             filename: "oauth.aot.wasm"
                          allow_precompiled: true

性能提升原因

主要的原因包含：

WAMR 提供了深度优化的预编译的能力。在部署前，WAMR 将 Wasm opcodes 翻译为 IR，经过定制的优化流水线，生成指定平台的机器码。在运行时，执行预编译后的 Wasm 可以获得媲美 native binary 的性能。
WAMR 采用了高度优化的 FFI。有效降低在 host(c/c++) 和 guest(wasm) 两个世界间“穿梭”时需要的类型转换和内存拷贝的次数，减少不必要的损耗。
WAMR 可以智能感知平台的硬件加速能力并予以充分利用。比如当运行在 X86 平台时，WAMR 实现了学术界最新提出的 "segue" 算法，利用 GS 寄存器作为寻址方法，提升了访问 Wasm 线性空间的效率。

未来展望

在 Higress 团队和 WAMR 团队之间的紧密协作下，除了在网关场景提升 Wasm 插件性能，还带来了很多实用的新特性即将发布，敬请期待：

支持生成 CPU 火焰图，例如下面是 Wasm 插件中执行 fibonacci 递归看到的 CPU 火焰图：

支持 Wasm 插件中逻辑问题导致 Crash 后，插件日志中打印完整的函数堆栈，并可以通过 WAMR 提供的 addr2line 工具定位到源代码中的具体行号。
支持观测每个 Wasm 插件模块的 CPU 和内存占用情况。
支持使用 TypeScript 编写 Wasm 插件，完整语法支持。

欢迎更多开发者一起参与 Higress 和 WAMR 开源社区，GitHub 项目地址：

Higress：https://github.com/alibaba/higress

WAMR：https://github.com/bytecodealliance/wasm-micro-runtime

本文作者：

澄潭，阿里云 API 网关软件工程师，Higress 开源项目主要贡献者

何良，Intel Web Platform Engineering 软件工程师，WAMR 开源项目主要贡献者

原文链接

本文为阿里云原创内容，未经允许不得转载。

更优性能与性价比，从自建 ELK 迁移到 SLS 开始

2024-05-06T17:41:22+08:00

背景

ELK (Elasticsearch、Logstash、Kibana) 是当下开源领域主流的日志解决方案，在可观测场景下有比较广泛的应用。

随着数字化进程加速，机器数据日志增加，自建 ELK 在面临大规模数据、查询性能等方面有较多问题和挑战。如何解决可观测数据的低成本、高可用是一个新的话题。

SLS 是由阿里云推出的云上可观测 Serverless 产品，在功能层面对标 ELK，并且提供了高可用、高性能、低成本的方案。现在 SLS 推出了开源兼容（Elasticsearch、Kafka 等）能力，可帮助自建 ELK 场景平滑切换到 SLS 上来，在保留开源使用习惯的同时，享受到云上日志的便捷和低成本。

SLS 与 Elasticsearch 的前世今生

Elasticsearch 是从 2010 年开始写下第一行代码，整体使用 Java 语言，在 2012 年开始正式成立公司运作。它的底层是 Lucene 全文索引引擎，早期 ES 的主要场景是做企业搜索（比如文档搜素、商品搜索等）。近几年可观测场景数据日益增加，Elasticsearch 正式进入可观测领域。

SLS 自 2012 年开始就面向可观测场景，从阿里云内部开始孵化，依托于阿里云飞天的底座构建，使用的是 C++ 语言，以其高性能、高可靠等特性赢得了大量内部客户认可。于 2017 年开始在阿里云上正式对外提供服务。

可以看到，Elasticsearch 和 SLS 的产品历程都超过 10 年。其中，SLS 一直在可观测领域深耕，通过底层优化持续在可观测领域提供高质量服务。

阿里云 SLS 核心功能架构

SLS 底层使用阿里云飞天盘古分布文件系统存储，支持各类可观测数据（Log/Metric/Trace）的存储格式，默认使用多副本备份确保高可用，同时也支持多种存储规格（热存、冷存、归档）。在存储层之上提供各类查询和计算的能力，包括：

SQL 分析标准 SQL92 支持
索引查询和 SPL，索引查询提供和 Lucene 类似的查询能力
数据加工方便对上报后的日志进行二次加工
数据管道提供类似 Kafka 的消费、写入能力

在基础的存储、计算能力之前也提供了各类语言 SDK，方便业务集成。同时 SLS 也提供了垂直场景开箱即用的功能，包括 AIOps（异常检测、根因分析）、Copilot（支持用自然语言的方式查询数据）、告警、移动端监控、Flink、Spark 的消费 lib 等。另外，SLS 提供开源兼容的能力，可以很方便地和现有的开源生态进行集成，包括 Elasticsearch、Kafka 等，通过使用 SLS 兼容能力，可以很方便地将自建系统迁移到 SLS 上来。

SLS 与 Elasticsearch 功能对比

SLS 原生提供了丰富的功能，基于 Serverless 的特性，这些在云上可以做到一键启用。

SLS 与 Elasticsearch 的可运维性对比

由于 SLS 是云上 Serverless 服务，无需购买实例即可使用，免除了运维层面的烦恼。而自建 ELK 需要关注诸多运维层面的问题。对于使用量较大的场景，比如数据量到 10TB 以上，往往需要专业的人来做 Elasticsearch 的维护和调优。

SLS 与 Elasticsearch 的性能对比

这里在实验室环境中做了一下简单的查询分析能力的测试。在 10 亿级别的数据量中做查询和分析，SLS 响应时间在秒级，而 Elasticsearch 随着并发增大，响应时间有明显上升，并且在整体延时上比 SLS 高。这里还需要提到 Elasticsearch 的写入性能问题，测下来单核能力在 2MB/s 左右，而 SLS 单 Shard 写入能可以支持到 10MB/s ，通过扩大 Logstore 的 Shard 数可以轻松地提升写入性能。

SLS 与 Elasticsearch 的成本对比

上面是一张成本对比图，Elasticsearch 的机器数基本上是由峰值的写入量决定的。对于 Elasticsearch 而言，写入是最大的瓶颈；Elasticsearch 存储空间需要考虑索引膨胀率和一定的空间预留。不然可能因为磁盘满导致服务不可用。

对于 SLS 而言，作为 Serverless 服务，它提供按写入量计费的方式，按照目前 0.4 元/GB 的写入费用估算，在 10TB 每天的场景下，30、90、180 天下的成本相对 Elasticsearch 有明显优势。其中，SLS 费用预估时按照下面的方式测算：

SLS 按流量计费 0.4 元/GB（送 30 天存储）
90 天存储按照 30 天热 + 60 天低频
180 天存储按照 30 天热 + 60 天低频 + 90 天归档

那么是不是只有数据量大的情况下 SLS 才换算呢？答案是否定的，考虑一个场景，如果每天数据量是 10GB，需要保留 30 天，那么每天的费用是 4 元，即每个月 120 元。需要一台 ECS 至少 2core 4g 磁盘空间 400GB（300/0.75 空间预留），每月持有费用是大于 200 的。

SLS 开源兼容能力

SLS 的 Elasticsearch 兼容、Kafka 兼容能力是基于 SLS 底层存储计算能力构建的。本质上是将 Elasticsearch、Kafka 的请求转换为 SLS 的协议进行请求，因此一份数据不管用什么方式写入 SLS，都可以用 Elasticsearch 兼容的方式来查询，也可以用 Kafka 兼容的方式来消费。

以前，对于 Kafka+ELK 的架构，往往需要较多机器做数据同步（LogStash、HangOut 等）；现在使用一个 SLS 完全不需要数据同步，就可以用不同的协议来访问。简单来说就是一份数据提供了多种协议方式。通过 Kafka 协议写入的数据可以用 ES 协议来立马查询；同样通过 Elasticsearch 协议写入的数据，可以用 Kafka 立马消费。使用 SLS 的开源兼容能力，相当于同时拥有一个 Serverless 的 Kafka 和 Elasticsearch，并且是按量付费，无需购买实例。

使用 Kibana 访问 SLS

用 Kibana 访问 SLS 需要 3 个组件：

Kibana
Proxy 用于区分 Kibana 的元数据请求和日志数据请求
Elasticsearch 只用于存 Kibana 的 meta 数据，资源占用比较小，用一台小规格 ECS 即可满足

Kibana 将元数据存在 Elasticsearch 中，会有 meta 更新的操作。当前 SLS 提供的是不可修改的存储，因此 meta 类的数据还需要一个小的 Elasticsearch 来承载。这个 Elasticsearch 只处理 meta 请求，因此负载和数据存储量非常低，用小规格 ECS 可以满足。

使用 Kibana 访问 SLS 具体可以参考对接 Kibana[1]。

使用 Grafana Elasticsearch 插件访问 SLS

除了 Kibana 的方式来做日志可视化，也可以用 Grafana 的 Elasticsearch 插件来访问 SLS。使用 Grafana Elasticsearch 插件访问 SLS Elasticsearch 兼容接口，有2个好处：

不需要写 SQL 语句，通过界面操作即可完成图表可视化
不需要在 Grafana 额外安装插件

用 Grafana 自带的 Elasticsearch 插件访问 SLS 具体可以参考使用 Grafana ES 插件访问 SLS[2]。

使用 Kafka SDK 写入/消费 SLS

使用 Kafka 官方的 SDK 可以对接 SLS 的 Kafka 兼容接口。支持 Kafka 写入和消费两种能力。

推荐使用 Kafka 官方 SDK 消费，具体可以参考 Kafka SDK 消费 SLS[3]、各类 Agent 写 SLS Kafka 兼容接口[4]。

开源 ELK 的平滑迁移方案

使用双采方案进行迁移

在原先的机器上部署 SLS 的 iLogtail 采集 Agent，将业务日志使用 iLogtail 采集到 SLS 上（一份日志可以被多个 Agent 采集，不会冲突），然后使用 Elasticsearch 兼容、Kafka 兼容的能力对接原有的使用程序。通过这个方案可以很方便地做性能、数据完整性验证。在充分验证后，移除掉机器上 filebeat 的 Agent，即可完成链路切换。

使用开源 Agent 直写迁移

如果是新的业务或者 APP 想要尝试 SLS，没有历史包袱。但是又不想在机器上安装 iLogtail。那么可以复用原来的采集 Agent，将采集 Agent 的日志以 Kafka 协议的方式写入到 SLS。参考使用 Kafka 协议上传日志[5]。在日志写入 SLS 后，想保留开源使用习惯，可以使用 SLS 兼容接口对接 Kibana、Grafana 等可视化工具。

使用 Kafka 导入迁移

如果我们不希望动原来的采集链路，同时又要保留原 Kafka（通常是依赖 Kafka 的历史遗留程序较多，不好动），那么可以使用这个方案。使用 SLS 的 Kafka 导入功能，无需部署实例，在页面上配置即可完成 Kafka 数据导入到 SLS （支持持续导入），参考 SLS Kafka 导入[6]。将 Kafka 数据导入到 SLS 后，可以使用 SLS 开源兼容的能力保留开源使用的习惯。

使用 Elasticsearch 导入功能迁移存量数据

对于 Elasticsearch 中历史数据希望可以导入到 SLS 中做保留的场景，可以使用 SLS 的 Elasticsearch 导入功能，功能参考 ES 导入[7]。

总结

本文介绍了 SLS 基本能力，并和开源自建 ELK 做了对比，可以看到 SLS 相比开源 ELK 有较大优势。借助 SLS Serverless 服务能力帮助运维团队有效降低日志系统的运维压力与成本，提升日志使用的体验。现在 SLS 提供了丰富的开源兼容能力，在体验 SLS 诸多 Feature 同时，又可以保留开源使用习惯；在 ELK 日志系统切换方便又可以做到平滑迁移。综上，欢迎大家使用 SLS ，有任何问题可以通过客户群、工单来联系我们。

参考链接：

[1] 对接 Kibana

https://help.aliyun.com/zh/sls/developer-reference/connect-lo...

[2] 使用 Grafana ES 插件访问 SLS

https://help.aliyun.com/zh/sls/user-guide/use-grafana-to-acce...

[3] Kafka SDK 消费 SLS

https://help.aliyun.com/zh/sls/user-guide/overview-of-kafka-c...

[4] 各类 Agent 写 SLS Kafka 兼容接口

https://help.aliyun.com/zh/sls/user-guide/use-the-kafka-proto...

[5] 使用 Kafka 协议上传日志

https://help.aliyun.com/zh/sls/user-guide/use-the-kafka-proto...

[6] SLS Kafka 导入

https://help.aliyun.com/zh/sls/user-guide/import-data-from-ka...

[7] ES 导入

https://help.aliyun.com/zh/sls/user-guide/import-data-from-el...

作者：荆磊

原文链接

本文为阿里云原创内容，未经允许不得转载。

All in One：Prometheus 多实例数据统一管理最佳实践

2024-05-06T16:14:54+08:00

01 引言

Prometheus 作为目前最主流的可观测开源项目之一，已经成为云原生监控的事实标准，被众多企业广泛应用。在使用 Prometheus 的时候，我们经常会遇到全局视图的需求，但是数据确分散在不同的 Prometheus 实例中，遇到这种情况该怎么解决呢？本文列举了社区一般解决方案，同时给出了阿里云的全局视图解决方案，最后给出了某客户基于阿里云 Prometheus 的实践案例，希望能给您带来启发与帮助。

02 背景

在使用阿里云 Promtheus 时，由于地域的限制、业务原因或者其他原因，经常会遇到 Prometheus 多实例的场景。如下图所示，某用户在杭州区域有多个 Prometheus “通用”实例。在多实例的背景下，我们经常会遇到一些问题。

2.1. 问题 1-单一 Grafana 大盘数据源

我们知道 Grafana 大盘是观测 Prometheus 数据最常规、最普遍的方式。通常情况下，每观测一个 Prometheus 集群就需要创建一个数据源，假设我有 100 个 Prometheus 集群，就需要创建 100 个数据源。听着是个很麻烦的事情，如果你还能接受，那么继续往下看。

在编辑 Grafana panel 并填写 PromQL 时我们可以选择数据源，但是为了保证数据查询和展示的一致性与简洁性，Grafana 仅允许一个 panel 使用一个数据源。

如果我们需要在一个大盘内同时绘制多个数据源的 panel，那么使用以上 100 个数据源时就会产生 100 个 panel，并且需要编辑 100 次 panel 并编写 100 次 PromQL，非常不利于运维。理想状态下应该是合并为一个 panel，并且每个数据源一个时间线，不仅方便指标监控，更是大大减少大盘的维护动作。

2.2. 问题 2-实例间数据计算与查询

当不同的业务使用了不同的 Prometheus 实例，但这些实例都有在上报着相同的指标，我们希望将这些数据做聚合（sum）、增长率（rate）等运算，由于存在着实例间的存储隔离，这样的操作是不允许的。同时我们并不希望把这些数据都上报到同一个实例中，因为根据业务场景，可能这些数据来自不同的 ACK 集群、ECS、Flink 实例等，甚至数据来源不是同一个地区，因此保持实例级别的隔离是有必要的。

03 社区解决方案

所以，针对多 Prometheus 实例存在的上述问题，社区是如何解决的呢？

3.1. Federation 方案

Prometheus Federation 机制是 Promehteus 本身提供的一种集群化的扩展能力,但是也可以用于解决数据的中心化查询问题。当我们要监控的服务很多的时候，我们会部署很多的 Prometheus 节点分别 Pull 这些服务暴露的 Metrics，Federation 机制可以将这些分别部署的 Prometheus 节点所获得的指标聚合起来，存放在一个中心点的 Prometheus。如下图所示为常见的 Federation 架构：

边缘节点每一个 Prometheus 实例都会包含一个/federate 的接口，用于获取一组指定的时间序列的监控数据，Global 节点只需要配置一个采集任务，用于从边缘节点获取监控数据即可。为了更好的理解 Federation 机制，下面给出了 Global Prometheus 的配置文件的配置。

scrape_configs:
  - job_name: 'federate'
    scrape_interval: 10s

    honor_labels: true
    metrics_path: '/federate'

    # 根据实际业务情况进行Pull metrics，通过match参数，配置要拉取的Metrics
    params:
      'match[]':
        - '{job="Prometheus"}'
        - '{job="node"}'

    static_configs:
      # 其他 Prometheus 节点
      - targets:
        - 'Prometheus-follower-1:9090'
        - 'Prometheus-follower-2:9090'

3.2. Thanos 方案

对于开源的 Prometheus 版本，我们可以使用 Thanos 实现聚合查询，如下为 Thanos 的 Sidecar 部署模式：

这张图中包含了 Thanos 的几个核心组件（但并不包括所有组件）：

Thanos Sidecar：连接 Prometheus，将其数据提供给 Thanos Query 查询，并且将其上传到对象存储以供长期存储。
Thanos Query：实现了 Prometheus API，提供全局查询视图将来 StoreAPI 提供的数据进行聚合最终返回给查询数据的 client（如 Grafana）。
Thanos Store Gateway：将对象存储的数据暴露给 Thanos Query 去查询。
Thanos Compact：将对象存储中的数据进行压缩和降低采样率，加速大时间区间监控数据查询的速度。
Thanos Ruler：对监控数据进行评估和告警，还可以计算出新的监控数据，将这些新数据提供给 Thanos Query 查询并且/或者上传到对象存储，以供长期存储。
Thanos Receiver：从 Prometheus 的远程写入 WAL 接收数据，将其公开和/或上传到云存储。

那 Thanos 如何实现 global 查询的呢？

Thanos Query 实现了 Prometheus 的 HTTP API，这样查询 Prometheus 监控数据的 client 就不直接查询 Prometheus 本身了，而是去查询 Thanos Query，Thanos Query 再去下游多个存储了数据的地方查数据，最后将这些数据聚合去重后返回给 client，从而实现了 global 查询。而为了实现 Thanos Query 去查下游分散的数据，Thanos 为此抽象了 Store API 的内部 gRPC 接口，其它一些组件通过这个接口来暴露数据给 Thanos Query。

在上述的架构中单个的 Prometheus 会将采集的数据存到本机磁盘上，每个 Prometheus 附带部署一个 Sidecar，这个 Sidecar 实现 Thanos Store API，由于 Prometheus 本地磁盘有限，所以对于长时间周期的存在通过 Sidecar 的 Thanos Store API 会将数据存储在对象存储；无论对于单个 Prometheus 上的数据查询还是对象存储的查询都是基于“Store API”，如下对查询进行进一步的抽象。

3.3. Prometheus Remote Write 方案

Remote Write 也是解决 Prometheus 多实例全局查询的有效解决方案，其基本思想与 Prometheus Federation 机制非常类似，将分别部署的 Prometheus 节点所获得的指标利用 Remote Write 机制存放在一个中心点的 Prometheus 或者第三方存储中。

用户在 Prometheus 配置文件中指定 Remote Write 的 URL 地址，一旦设置了该配置项，Prometheus 将采集到的样本数据通过 HTTP 的形式发送给适配器 (Adaptor)，而用户则可以在适配器中对接外部任意的服务。外部服务可以是开源 Prometheus，也可以是真正的存储系统，也可以是公有云的存储服务。

如下为样例，修改 Prometheus.yml 添加 Remote Storage 相关的配置内容。

remote_write:
  - url: "http://*****:9090/api/v1/write"

04 阿里云解决方案

4.1. 阿里云 Prometheus 全局聚合实例解决方案

4.1.1. 阿里云 Prometheus 全局聚合实例方案介绍

阿里云推出了“Prometheus 全局聚合实例”，其目标是实现跨多个阿里云 Prometheus 实例的数据聚合，在查询数据时同时从多个实例中读取数据，其原理为“查询时指标聚合”。

使用阿里云全局聚合实例（以下简称 Gloabal View）可以保证单个阿里云 Prometheus 实例间的数据隔离，即每个 Prometheus 实例后端拥有独立的存储，不是通过合并数据到一个中央存储，而是在查询时动态地从各个实例的存储中检索需要的数据。这样，当用户或者前端应用程序发起查询请求时，Global View 会并行地对所有相关 Prometheus 实例进行查询，并将结果汇总，提供一个统一的视图。

4.1.2. 对比分析

下面针对开源 Prometheus Federation 以及 Thanos 方案以及阿里云全局聚合实例方案进行简单的汇总说明。

1）Prometheus Federation

虽然 Prometheus Federation 能解决全局聚合查询，但是还存在一些问题。

边缘节点和 Global 节点依然是单点，需要自行决定是否每一层都要使用双节点重复采集进行保活，也就是仍然会有单机瓶颈。
对历史数据的存储问题仍旧未得到解决，必须依赖第三方存储，切缺少对历史数据的降准采样能力。
整体运维成本比较高。
可扩展性较差，添加或移除 Prometheus 实例需要修改配置文件。

2）Thanos Federation

架构比较复杂，运维成本较高。
仍存在 Prometheus 副本的单点问题。
时间线发散的情况下，支持的上限不够，不提供维度发散场景优化。
不支持降采样，长周期查询性能不高。
不支持算子下推，大数据量的请求性能有限，并且处理开销大。

3）阿里云全局聚合实例

Prometheus 实例托管、免运维。
支持图形化界面进行多实例的管理，灵活性强、可扩展性高。这种模式允许系统轻松地添加或移除阿里云 Prometheus 实例，而不需要重新配置整个存储系统。
不占用额外的存储空间。由于没有将数据复制到集中的存储中，这种方法可以节约存储空间，每个 Prometheus 实例只需要维护自己的数据集。在不额外配置存储的情况下，查询到的数据仅是临时用于展示，真正的数据持久化仍然归于被聚合的实例。
隔离性：每个实例的自治性能够提高系统的容错性，因为单个实例的问题不会直接影响到其他实例。
支持跨 region 实例以及跨账号实例聚合，满足企业个性化的需求。

但是需要注意的是 Thanos Federation 与阿里云全局聚合实例都是非合并数据的方式实现全局查询。由于需要在查询时从多个数据源检索数据，这可能会导致查询性能下降，特别是当查询涉及大量不需要的数据时，需要等待多个数据源筛选出需要的数据，等待这些数据处理的过程可能导致查询超时或长时间等待。

4.1.3. 阿里云 Prometheus 全局聚合实例实践

阿里云 Prometheus 极大简化了用户的操作，无需手动部署 Prometheus 扩展组件，用户通过控制台操作便可实现全局视图的功能。在创建 Prometheus 实例时选择“全局聚合实例”，勾选需要聚合的实例，并选择查询前端所在的地区（影响查询域名的生成），点击“保存”后即可。

进入创建好的全局聚合实例，点击任意大盘，可以看到该实例已经能查询到刚刚聚合的其他实例数据。实现了我们在 Grafana 一个数据源查询多个实例数据的需求。

4.2. 阿里云 Prometheus Remote Write 解决方案

4.2.1. 阿里云 Prometheus Remote Write 解决方案

阿里云 Prometheus remote write 的能力是阿里云 Prometheus 数据投递的原子能力。Prometheus 数据投递的原理为“存储时的指标聚合”，其目标是将跨多个 Prometheus 实例的数据通过 ETL 服务提取出来，再写入某个聚合实例的存储中。

通过这种方式，相同的 Prometheus 数据可以同时存储在不同的实例中：

在被聚合的 Prometheus 实例中，存储着该实例所有的原始数据，包括期望被聚合查询的实例以及其他数据。用于原业务场景中单实例的查询。
在中央/聚合 Prometheus 中，存储着其他“被聚合实例”的“期望被聚合的数据”，在统一管理的场景下，可以通过该实例获取全局视图的查询，执行跨实例数据的搜索。

4.2.2. 阿里云 Prometheus Remote Write VS 社区 Prometheus Remote Write

1）Prometheus Remote Write

开源 Remote Write 的形式最大的弊端在于对 Prometheus Agent 的影响，在 Agent 设置 Remote Write 会增加 Agent 的资源消耗，影响数据采集的性能，而这一点往往是致命的。

2）阿里云 Prometheus Remote Write

阿里云 Prometheus Remote Write 的优势还是非常明显的。

查询性能高：因为只存储了必要的聚合数据，聚合 Prometheus 实例的查询响应时间更短，极大地提升了用户体验。此外，在查询时本质上只是对一个 Prometheus 实例进行操作，而非多个实例，读写的性能、计算的性能更高。
数据质量高：经过筛选后的数据更加干净，没有不必要的 "脏数据"，这有助于进行更加精准和有效的数据分析。
提供丰富的 ETL 能力: 在写入聚合实例之前提供丰富的处理能力，如过滤筛选、指标富化等。
图形化配置，操作简单便捷。

同时当然也有一些劣势，大家需要综合权衡取舍。

费用问题：由于需要额外的 Prometheus 实例来作为聚合和全局查询的存储点，这意味着需要额外的 TSDB 后端存储需要被聚合的数据，这些独立的存储空间是需要计费的。
网络消耗：在数据投递过程中，跨网络的数据传输会增加带宽占用，特别是在跨数据中心或宽带有限的环境中，所以需要进行合理的评估。

4.2.3. 阿里云 Prometheus Remote Write 使用

在左侧导航栏，选择 Prometheus 监控 > 数据投递（beta），进入可观测监控 Prometheus 版的数据投递页面。

在数据投递页面的顶部菜单栏，选择地域，然后单击新建任务。
在对话框中输入任务名称和任务描述后，单击确定。
在任务编辑页面，配置数据源和投递目标。

配置 Prometheus Remote Write 地址以及认证方式。

配置网络。

4.3. 阿里云解决方案总结与选择

阿里云提供了全局聚合实例以及数据投递-Remote Write解决方案各有优劣。

Prometheus 全局聚合实例的设计理念是在保持 Prometheus 实例的存储独立性的同时，提供一个统一的接口对多个实例进行查询来实现全局视图。该方案的核心理念为“查询时指标聚合”，也就是说数据原封不动地存储在多个实例中，当统一查询时才将多个实例的数据获取并聚合。这种方法有其明显的优点，如节省存储空间，但也存在一些挑战，对于实例数量较多、数据量大的场景查询性能会受较大影响。

Prometheus 数据投递-Remote Write 的设计理念是将查询的流量转化为数据写入的流量，它消耗了额外的存储空间提供多实例聚合数据的方案，它通过在写入之前筛选数据，使得中心实例精简地存储着聚合数据。该方案的核心理念为“存储时指标聚合”，此时多个实例的数据副本将存储在统一中心化实例中，对多个实例的查询将转化为单实例查询，大大提升了查询速率与数据质量。

05 案例分析

5.1. 某客户运维平台可观测现状

5.1.1. 介绍

下图所示为某客户的内部运维平台，这里暂且称为“A 运维平台”，客户公司利用 A 运维平台进行公司内部 K8s 集群的生命周期管理。在 A 运维平台中，只能针对单个集群进行相关监控数据的查看，当有多个集群有问题需要排查时，只能一个一个处理。

同样的，在使用 Grafana 时，当前大盘只能查看某个集群的具体数据，无法对多个集群同时监控。

此时 SRE 团队无法对所有集群状态有全局的视角，难以准确获取该产品的健康状态。在平时的运维工作中，大多依赖告警提示某个集群处于非健康状态。目前 A 运维平台托管了上百个集群，全部依赖告警会有消息过多的风险，导致等级较高的故障无法快速定位。

5.1.2. 诉求

当前在“A 运维平台”的运维管理面临一个挑战：缺少对所有地区集群状态的一目了然的全局视图。“A 运维平台”的目标是配置单一的 Grafana 大盘，通过引入单一的数据源，实现对个产品线整所有租户集群运行状况的实时监控这应。包括关键指标的可视化，例如集群的整体状态（包括集群的数量、各节点和 Pod 的数量、全网集群的 CPU 使用情况等），以及\APIServer 的 SLO（服务水平目标）状态（诸如全网非 500 响应的动词比例、50X 错误的详细信息、请求成功率等）。

通过这个精心设计的大盘，运维团队可以迅速锁定任何处于非健康状态的集群，快速概览业务量，并对潜在问题进行快速调查，大幅提升运维效率和响应速度。这样的集成不仅优化了监控流程，也为运维团队提供了一个强大的工具，以确保系统的稳定性和服务的连续性。

5.1.3. 难点

跨大洲数据传输：“A 运维平台”的场景涉及到全球所有区域，SRE 团队在运维时希望能在杭州区域的大盘查看全球所有区域的实例数据，这就涉及到了跨大洲的数据传输。当在 Grafana 进行跨大洲的实例查询时，因为网络传输的延迟存在，经常性地出现查询超时的问题。

请注意：当您使用 Promethues 配置数据跨境时。您同意并确认，您完全拥有该份业务数据的所有处置权限，对数据传输的行为全权负责。您应确保您的数据传输符合所有适用法律，包括提供充分的数据安全保护技术和策略，履行获得个人充分明示同意、完成数据出境安全评估和申报等法定义务，且你承诺您的业务数据不含任何所适用法律限制、禁止传输或披露的内容。如您未遵守前述声明与保证，您将承担对应的法律后果，导致阿里云和或其他关联公司遭受任何损失的，您应承担赔偿责任。

单实例数据量过大：并非所有的数据都需要全区域全实例聚合查询，全球视角的运维一般只关心某几个表示集群状态的指标；或是针对某些指标，只关心几个特定的 label（namespace）。随着被“A 运维平台”托管的集群增加、租户增加，上报指标的 label 越来越多样化，可能涉及到指标纬度发散的问题。目前针对指标纬度发散的问题业界仍没有统一的解决方案，此时查询会大量消耗 TSDB 的内存。在单 Prometheus 实例的场景下对这类发散指标查询时就已经给 TSDB 实例很大的压力，当一次性获取“A 运维平台”所有 Prometheus 实例数据时给服务器的压力过大。

超大空间跨度的查询：需要对某几个指标，把当前区域/全球的所有实例数据求和等计算。在问题 2 单实例数据量的基础上，推广至“A 运维平台” 上百个 Prometheus 实例，此时所有实例涉及到的数据量更加庞大。当 TSDB 进行查询、筛选、计算操作时，会占用大量的内存，一般的计算资源配额无法满足。

5.2. 通过数据投递实现中心化数据查询

5.2.1. 方案选型

是选择全局聚合实例还是数据投递？在“A 运维平台”的场景下，针对以上讨论的需求以及难点，选择数据投递是更好的方案。有如下原因：

1）传输延迟容忍度

当使用数据投递时，链路能承受更大的网络延迟。

1.当使用全局聚合实例查询时：

每次请求都会产生多个跨大洲的网络延迟。在测试过程中，跨大洲网络传输延迟在 500ms～700ms 间，在特殊时段、网络波动等情况下延迟甚至能达到 1min+，极易造成查询超时。
“A 运维平台”实例部署在全球各个地区，当其中 99% 的数据都成功查询，某个地区由于网络波动导致查询超时，那么其他 99% 成功查询到的数据也就不可用了，对数据齐全度要求很高。
在查询时客户的 PromQL、时间跨度是不固定的，导致查询的数据量是任意的。当查询数据量过大，数据可能会分到多个 HTTP 包传输（受限于网络提供商），此时网络延迟很大。

2.当使用数据投递时：

数据投递的数据网络传输不会随着用户查询量改变，而是将各 Prometheus 实例采集到的数据实时的投递至中心化 Prometheus 实例中，此时数据包不超过 1MB 大小，网络延迟维持在固定的范围。
聚合数据都保存在中心化 Prometheus 实例中，因此只需保证对该实例的查询不出错即可，无需考虑查询齐全度的问题。
即使经过了超大的跨大洲网络传输，我们仍然能通过攒批、重试等方式保证数据成功写入了中心 Prometheus 实例。尽管中心实例中的最新数据与当前时间有分钟级的延迟，查询成功率有了保证。

2）节省计算资源

执行 PromQL 查询时，指标的时间线数量决定了查询所需的 CPU、内存资源。也就是说指标的 label 越多样，所消耗的资源就越多。

1.当使用全局聚合实例查询时：

被聚合的实例存储着所有的原始数据，查询的资源消耗较大。由于 TSDB 的特性，即使进行了 label 的筛选，仍有可能将该时间段的全量数据加载到内存中。在“A 运维平台”的场景中，由于每次查询都涉及到海量数据，因此对内存的消耗是非常大的，往往会触发查询限流。
在测试的过程中，查询时间跨度为 1 小时，需要等待 30 秒后才能返回结果。

2.当使用数据投递时：

被查询的实例仅有一个，并且该实例存储的数据经过前置筛选，是我们所关心的需要聚合的相关数据。假设我们要在杭州地区查询全球上百个实例的数据，此时底层相当于只查询当前杭州地区的某个实例，效率很高。
在测试的过程中，查询时间跨度为 1 小时，只需等待 1 秒就能返回结果。

总的来说，当我们选择多实例数据统一管理的方案时，除了考虑是否需要额外的存储空间，针对业务场景来说查询成功率是更重要的参考指标。

在“A 运维平台”的场景下，因为涉及到了跨大洲、海量实例、海量数据，因此查询时再进行指标聚合容易产生网络请求超时、数据库查询限流、数据库内存消耗过大等问题，使得查询成功率降低。

而使用存储时指标聚合的数据投递方案，将数据提前存储至中心化实例，把查询的网络传输转化为写数据的网络传输，把全球多实例的查询请求转换为当前地区实例的查询，查询成功率高并且满足业务场景。

5.2.2. 方案架构

如图为 Prometheus 数据投递-Remote Write 的产品形态。数据投递服务由两个组件组成，一是 Prometheus 投递组件，该组件负责从源头 Prometheus 实例获取数据，经过指标过滤、格式化后发送给公网转发服务组件。公网转发服务组件负责将数据路由，通过公网的方式把数据发送至杭州的中心化实例。

在未来的计划中，我们将使用事件总线 EventBridge 替换现有公网转发服务组件，以支持更多的投递目标生态。

5.3. 效果

通过 Prometheus 数据投递-Remote Write 功能，将“A 运维平台”全球多个区域的上百个实例的数据投递至杭州的一个中心化实例中，配置了 Grafana 的单一数据源，配置大盘后即可对“A 运维平台”管理的所有集群进行可视化监控。杜绝了之前的每个集群一个数据源的配置方式，大大方便了运维的操作。

相关链接：

[1] Remote Write 和 Remote Read 地址使用说明

https://help.aliyun.com/zh/prometheus/user-guide/use-remote-r...

[2] 查看 RAM 用户的 AccessKey 信息

https://help.aliyun.com/zh/ram/user-guide/view-the-accesskey-...

[3] 官方文档

https://prometheus.io/docs/concepts/remote_write_spec/

[4] promlabs

https://promlabs.com/blog/2022/10/05/whats-new-in-prometheus-...

参考文档：

[1] https://thanos.io/

[2] https://yunlzheng.gitbook.io/Prometheus-book/part-ii-Promethe...

[3] https://www.squadcast.com/blog/how-to-implement-global-view-a...

[4] https://help.aliyun.com/zh/arms/Prometheus-monitoring/posting...

[5] https://help.aliyun.com/zh/arms/Prometheus-monitoring/create-...

作者：淡唯（啃唯）、阳其凯（逸陵）

原文链接

本文为阿里云原创内容，未经允许不得转载。

云原生最佳实践系列 6：MSE 云原生网关使用 JWT 进行认证鉴权

2024-04-29T15:39:22+08:00

01 方案概述

MSE 网关可以为后端服务提供转发路由能力，在此基础上，一些敏感的后端服务需要特定认证授权的用户才能够访问。MSE 云原生网关致力于提供给云上用户体系化的安全解决方案，其中 JWT 认证能力是在 Json Web Token 这种结构化令牌的基础上实现了一套基于用户体系对用户的 API（服务）进行授权访问的机制，满足用户个性化安全设置的需求。本最佳实践方案就是介绍如何在 MSE 网关中集成 JWT 进行全局认证鉴权的配置。

方案示意图如下所示：

02 应用场景

借助 CADT 迅速的搭建 MSE 网关以及 SAE 实例，并部署测试应用（jwt-demo），在MSE 网关上配置对应的测试路由（/login、/biz），并配置 JWT 的全局认证鉴权功能，通过 postman 进行模拟测试。

主要步骤：

通过 CADT 快速完成环境部署
通过工具栏生成 JWT 所需的公钥、私钥
SAE 上部署测试应用 jwt-demo
MSE 上配置后端服务及路由，并配置 JWT 的全局认证鉴权
通过 postman 工具发起模拟测试请求，验证功能是否符合预期
测试结束释放环境

03 部署架构

架构说明：

本方案涉及的云产品包括一个 MSE 实例（前面挂公网 NLB）、一个私网 CLB、一个部署在 SAE 中的测试应用。

04 产品介绍

专有网络 VPC（Virtual Private Cloud）：是用户基于阿里云创建的自定义私有网络, 不同的专有网络之间二层逻辑隔离，用户可以在自己创建的专有网络内创建和管理云产品实例，比如 ECS、负载均衡、RDS 等。

传统型负载均衡 CLB（Classic Load Balancer）：支持 TCP、UDP、HTTP 和 HTTPS 协议，具备良好的四层处理能力，以及基础的七层处理能力。

云原生网关 MSE（Microservices Engine）：MSE 云原生网关是兼容 K8s Ingress标准的下一代网关产品，将传统的流量网关和微服务网关功能合并，降低 50%资源开销，支持 ACK 容器服务和 Nacos 等多种服务发现方式，支持多种认证登录方式快速构建安全防线。

Serverless 应用引擎 SAE（Serverless App Engine）：是一款零代码改造、极简易用、自适应弹性的应用全托管平台。SAE 能够让您免运维 IaaS 和 K8s，秒级完成从源代码、代码包、Docker 镜像部署任意语言的在线应用（例如 Web、微服务、Job 任务）到 SAE，并自动伸缩实例按使用量计费，开箱即用日志、监控、负载均衡等配套能力。

云速搭 CADT（Cloud Architect Design Tools）：是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构；支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

05 前置条件

在进行本文操作之前，您需要完成以下准备工作：

1）注册阿里云账号，并完成实名认证。您可以登录阿里云控制台，并前往实名认证页面（https://account.console.aliyun.com/v2/#/authc/home）查看是否完成实名认证。

2）购买按量付费资源，阿里云账户余额需要大于 100 元。考虑到部署后每小时会产生费用，建议账号内余额或者代金券金额大于 200 元。您可以登录阿里云控制台，前往账户总览页面（https://usercenter2.aliyun.com/home）查看账户余额。

06 操作步骤

本实践可通过 CADT 官方模板快速拉起演示环境。

1.CADT 基础环境搭建

2.工具生成公钥、私钥、JWKS

2.1. 生成公私钥

2.2. 生成 JWKS

3.SAE 部署应用

3.1. SAE 中通过应用环境变量设置公钥、私钥

3.2. SAE 中添加私网 CLB

4.MSE 网关配置及测试验证

4.1. 配置 jwt-demo 后端服务

4.2. 配置路由并测试验证

4.3. 配置全局认证鉴权并测试验证

5.其他说明

一键释放资源

原文链接

本文为阿里云原创内容，未经允许不得转载。

Higress 基于自定义插件访问 Redis

2024-04-28T16:37:23+08:00

简介

基于 wasm 机制，Higress 提供了优秀的可扩展性，用户可以基于 Go/C++/Rust 编写 wasm 插件，自定义请求处理逻辑，满足用户的个性化需求，目前插件已经支持 redis 调用，使得用户能够编写有状态的插件，进一步提高了 Higress 的扩展能力。

文档在插件中调用 Redis[1]中提供了完整的网关通过插件调用 Redis 的例子，包括阿里云 Redis 实例创建与配置、插件代码编写、插件上传与配置、测试样例等流程。接下来本文重点介绍几个基于 Redis 的插件。

多网关全局限流

网关已经提供了 sentinal 限流[2]，能够有效保护后端业务应用。通过 redis 插件限流，用户可以实现多网关的全局限额管理。

以下为插件代码示例，在请求头阶段检查当前时间内请求次数，如果超出配额，则直接返回 429 响应。

func onHttpRequestHeaders(ctx wrapper.HttpContext, config RedisCallConfig, log wrapper.Log) types.Action {
    now := time.Now()
    minuteAligned := now.Truncate(time.Minute)
    timeStamp := strconv.FormatInt(minuteAligned.Unix(), 10)
    // 如果 redis api 返回的 err != nil，一般是由于网关找不到 redis 后端服务，请检查是否误删除了 redis 后端服务
    err := config.client.Incr(timeStamp, func(response resp.Value) {
        if response.Error() != nil {
            log.Errorf("call redis error: %v", response.Error())
            proxywasm.ResumeHttpRequest()
        } else {
            ctx.SetContext("timeStamp", timeStamp)
            ctx.SetContext("callTimeLeft", strconv.Itoa(config.qpm-response.Integer()))
            if response.Integer() == 1 {
                err := config.client.Expire(timeStamp, 60, func(response resp.Value) {
                    if response.Error() != nil {
                        log.Errorf("call redis error: %v", response.Error())
                    }
                    proxywasm.ResumeHttpRequest()
                })
                if err != nil {
                    log.Errorf("Error occured while calling redis, it seems cannot find the redis cluster.")
                    proxywasm.ResumeHttpRequest()
                }
            } else {
                if response.Integer() > config.qpm {
                    proxywasm.SendHttpResponse(429, [][2]string{{"timeStamp", timeStamp}, {"callTimeLeft", "0"}}, []byte("Too many requests\n"), -1)
                } else {
                    proxywasm.ResumeHttpRequest()
                }
            }
        }
    })
    if err != nil {
        // 由于调用redis失败，放行请求，记录日志
        log.Errorf("Error occured while calling redis, it seems cannot find the redis cluster.")
        return types.ActionContinue
    } else {
        // 请求hold住，等待redis调用完成
        return types.ActionPause
    }
}

插件配置如下：

测试结果如下：

结合通义千问实现 token 限流

对于提供 AI 应用服务的开发者来说，用户的 token 配额管理是一个非常关键的功能，以下例子展示了如何通过网关插件实现对通义千问后端服务的 token 限流功能。

首先需要申请通义千问的 API 访问，可参考此链接[3]。之后在 MSE 网关配置相应服务以及路由，如下所示：

编写插件代码，插件中，在响应 body 阶段去写入该请求使用的 token 额度，在处理请求头阶段去读 redis 检查当前剩余 token 额度，如果已经没有 token 额度，则直接返回响应，中止请求。

func onHttpRequestBody(ctx wrapper.HttpContext, config TokenLimiterConfig, body []byte, log wrapper.Log) types.Action {
  now := time.Now()
  minuteAligned := now.Truncate(time.Minute)
  timeStamp := strconv.FormatInt(minuteAligned.Unix(), 10)
  config.client.Get(timeStamp, func(response resp.Value) {
    if response.Error() != nil {
      defer proxywasm.ResumeHttpRequest()
      log.Errorf("Error occured while calling redis")
    } else {
      tokenUsed := response.Integer()
      if config.tpm < tokenUsed {
        proxywasm.SendHttpResponse(429, [][2]string{{"timeStamp", timeStamp}, {"TokenLeft", fmt.Sprint(config.tpm - tokenUsed)}}, []byte("No token left\n"), -1)
      } else {
        proxywasm.ResumeHttpRequest()
      }
    }
  })

  return types.ActionPause
}

func onHttpResponseBody(ctx wrapper.HttpContext, config TokenLimiterConfig, body []byte, log wrapper.Log) types.Action {
  now := time.Now()
  minuteAligned := now.Truncate(time.Minute)
  timeStamp := strconv.FormatInt(minuteAligned.Unix(), 10)
  tokens := int(gjson.ParseBytes(body).Get("usage").Get("total_tokens").Int())
  config.client.IncrBy(timeStamp, tokens, func(response resp.Value) {
    if response.Error() != nil {
      defer proxywasm.ResumeHttpResponse()
      log.Errorf("Error occured while calling redis")
    } else {
      if response.Integer() == tokens {
        config.client.Expire(timeStamp, 60, func(response resp.Value) {
          defer proxywasm.ResumeHttpResponse()
          if response.Error() != nil {
            log.Errorf("Error occured while calling redis")
          }
        })
      }
    }
  })
  return types.ActionPause
}

测试结果如下：

基于 cookie 的缓存、容灾以及会话管理

除了以上两个限流的例子，基于 Redis 可以实现更多的插件对网关进行扩展。例如基于 cookie 来做缓存、容灾以及会话管理等功能。

缓存&容灾：基于用户 cookie 信息缓存请求应答，一方面能够减轻后端服务压力，另一方面，当后端服务不可用时，能够实现容灾效果。
会话管理：使用 Redis 存储用户的认证鉴权信息，当请求到来时，先访问 redis 查看当前用户是否被授权访问，如果未被授权再去访问认证鉴权服务，可以减轻认证鉴权服务的压力。

func onHttpRequestHeaders(ctx wrapper.HttpContext, config HelloWorldConfig, log wrapper.Log) types.Action {
  cookieHeader, err := proxywasm.GetHttpRequestHeader("cookie")
  if err != nil {
    proxywasm.LogErrorf("error getting cookie header: %v", err)
    // 实现自己的业务逻辑
  }
    // 根据自己需要对cookie进行处理
  cookie := CookieHandler(cookieHeader)
  config.client.Get(cookie, func(response resp.Value) {
    if response.Error() != nil {
      log.Errorf("Error occured while calling redis")
      proxywasm.ResumeHttpRequest()
    } else {
      // 实现自己的业务逻辑
      proxywasm.ResumeHttpRequest()
    }
  })
  return types.ActionPause
}

总结

Higress 通过支持 redis 调用，大大增强了插件的能力，使插件功能具有更广阔的想象空间，更加能够适应开发者多样的个性化需求，如果大家有更多关于 Higress 的想法与建议，欢迎与我们联系！

相关链接：

[1] 在插件中调用 Redis

https://help.aliyun.com/zh/mse/user-guide/develop-gateway-plu...

[2] sentinal 限流

https://help.aliyun.com/zh/mse/user-guide/configure-a-throttl...

[3] 链接

https://help.aliyun.com/zh/dashscope/developer-reference/api-...

作者：钰诚

原文链接

本文为阿里云原创内容，未经允许不得转载。

让你的文档从静态展示到一键部署可操作验证

2024-04-26T15:48:06+08:00

用户在根据文档进行操作时，会出现根据文档内容搭建环境困难、代码调试失败、功能无法使用的情况，主要是由于文档中有年久失修、没人维护、无法跑通的代码，给用户快速上手带来很多的挑战。为了解决文档中的这些用户体验问题，通过函数计算的能力让阿里云的文档从静态展示升级为动态可操作验证，用户在文档中单击一键部署可快速完成代码的部署及测试。这一改变已在函数计算的活动沙龙中得到用户的认可，你也快来体验一下吧~~

用户问题及痛点

阿里云的产品作为技术驱动型解决方案，用户对文档中提供的代码示例有较高的依赖。通过分析，发现用户在使用文档时有以下问题。

文档中提供的代码错误，用户无法直接使用

使用如下的代码示例，在测试时一直报错，导致用户无法直接使用。文档中的代码示例由于长时间未更新和缺乏维护，已经变得过时，这直接影响用户使用文档时的体验。

文档中只提供代码片段，用户调试门槛高

文档中只提供代码片段，缺乏完整的项目结构和环境配置指南，用户需要自己搭建项目和设置运行环境，才能使用文档中介绍的功能，这无疑增加了用户实际操作的难度，甚至会吓退很多新手用户。

文档中没有提供代码，用户无法参考文档使用该功能

例如：函数计算的配置 OSS 文件系统文档中，只提供给用户如何配置 OSS 挂载，却没有提供如何访问 OSS 挂载文件相应的代码示例，这直接导致用户想使用该功能时参考该文档无法获取想要的信息。

解决方案：提供动态可操作验证的文档

函数计算是一种 Serverless 架构模式，专注于事件驱动的函数编程，提供端到端的解决方案。用户使用函数计算，不需要采购与管理服务器等基础设施，只需编写并上传代码或镜像。同时函数计算支持多种编程语言，函数创建完成后可以快速调试验证。

如果文档中的代码能够部署在函数计算平台，那么用户可以在文档中直接操作验证代码提供的功能，会直接提升用户使用文档代码的体验。

实现方案

整个解决方案的流程示意图如下所示。

通过 Serverless Devs 工具开发并发布完整代码对应的应用模板
在文档中配置一键部署，将代码片段与应用模板关联，并发布文档。
用户在文档中单击一键部署后，根据应用名称在函数计算部署应用，并可以直接测试代码功能。

文档效果

以使用函数计算部署通义千问大模型实现 AI 对话文档为例，介绍文档动态可操作的效果。

用户可以在文档中使用一键部署的入口

1）文档最上方

2）支持一键部署的代码片段前面，重点提醒用户可点击。支持一键部署的代码 codeblock 右上角

单击一键部署后

单击一键部署后，会根据配置的应用模板将代码需要开通的服务、角色、配置的参数在面板中呈现，用户需开通及配置。

部署并查看应用

应用部署成功后，可以查看应用的基本情况。
单击操作列的测试，即可进入函数计算提供的测试页面。
在测试页面，已默认将测试参数填入，单击测试函数，即可根据参数进行函数调用。
最终会返回函数调用返回结果。

用户反馈

在 2023 年 12 月的函数计算活动沙龙中，有 70 多名用户体验了该文档的一键部署能力。在 2024 年 1 月的活动沙龙中，有 2000 多名用户参与任务的体验，其中有 500 用户完成。用户反馈从文档直接部署降低了体验该功能的门槛。

总结

文档中增加一键部署后有以下优势：

1）用户文档使用体验提升

2）快速验证代码的正确性

3）快速获取完整代码

最后

好的文档应当超越文字的界限，成为知识传递和技能培养的桥梁。阿里云函数计算让我们朝着这一目标迈出了重要一步。我们将文档从传统的静态页面升级为一个动态的、互动性强的工具，用户可以通过一键部署直接在函数计算平台验证文档内容。这种转变较大地提升了文档的可操作性和实际应用价值，让用户不只是阅读和理解概念，还能通过实际操作使用该能力。

我们诚邀所有用户来体验函数计算文档从静态到动态的转变，希望通过你们的参与和反馈，不断优化文档，助力每位用户在学习和使用文档的过程中实现最大化的收益。

如果您希望体验文档的一键部署能力，可以访问下面文档链接。

使用函数计算部署通义千问大模型实现 AI 对话：https://help.aliyun.com/document_detail/2623419.html
使用函数计算实现自动解压上传到 OSS 的 ZIP 文件：https://help.aliyun.com/document_detail/2624066.html
请求处理程序（Handler）：https://help.aliyun.com/document_detail/2512964.html
日志：https://help.aliyun.com/document_detail/2512968.html
错误处理：https://help.aliyun.com/document_detail/2512969.html
快速创建函数：https://help.aliyun.com/document_detail/2509023.html

作者：慕扉

原文链接

本文为阿里云原创内容，未经允许不得转载。

日志服务 HarmonyOS NEXT 日志采集最佳实践

2024-04-25T17:34:23+08:00

背景信息

随着数字化新时代的全面展开以及 5G 与物联网（IoT）技术的迅速普及，操作系统正面临前所未有的变革需求。在这个背景下，华为公司自主研发的鸿蒙操作系统（HarmonyOS）应运而生，旨在满足万物互联时代的多元化设备接入、高效协同和安全可靠运行的需求。

HarmonyOS 不仅着眼于智能手机市场，更是全球首个面向全场景智能生态的操作系统，支持从手机、平板电脑到智能家居、穿戴设备乃至工业控制等多种终端形态。2024 年 1 月 18 日正式推出 HarmonyOS NEXT 鸿蒙星河开发者预览，深圳市于 2024 年 3 月 3 日也发布了支持开源鸿蒙原生应用发展的 2024 年行动计划。

日志服务（SLS）介绍

日志服务（SLS，后文简称 SLS）是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务。SLS 一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能，全面提升您在研发、运维、运营、安全等场景的数字化能力。

在构建复杂而庞大的应用和智能生态系统过程中，SLS 作为开发调试、性能优化、运维监控和故障排查的重要基础设施。为确保各类应用程序能够在鸿蒙操作系统上实现无缝对接并高效利用 SLS，对 SLS SDK 进行 HarmonyOS 原生适配成为必然之举。

此举不仅可以提升鸿蒙生态下应用的稳定性和可靠性，也有助于开发者更好地遵循统一的标准和最佳实践，进一步促进鸿蒙操作系统生态的繁荣与发展。在这种情况下，基于 SLS 的移动应用日志管理和分析将成为不可或缺的工具，基于对 SLS+ 移动应用日志可以帮助开发人员快速定位和解决问题，优化应用性能。

SDK 特性介绍

HarmonyOS 下的 SLS SDK 基于共同的基座 C Core SDK 适配，底层适配鸿蒙NDK。C Core 部分使用纯 C 语言编写，对性能进行了极端优化（包括缓存管理、文件管理、PB 序列化等），能够适用于 IoT、移动端、服务端等各种场景。SDK 提供 ArkTS 语言原生调用 API。SDK 具备以下特性：

异步

1.客户端线程写入无阻塞
2.日志队列异步发送

聚合&压缩上传

1.日志聚合发送（支持按超时时间、日志数、日志大小聚合）
2.支持 lz4、zstd 压缩

多实例

1.支持创建多个实例分别发送到不同的目标
2.可以实例配置独立，互不影响

缓存

1.支持设置可允许占用的缓存内存上限
2.超过内存缓存上限时，日志写入会失败

自定义标识

1.支持设置自定义 Tag 和 Topic

断点续传

1.支持日志缓存到本地文件，只有发送成功才会删除，确保日志上传 At Least Once

日志上下文

1.支持查看某条日志的上下文，可以更好的定位问题

HarmonyOS SDK 通过 OpenHarmony 三方库中心托管发布，当前支持 HarmonyOS NEXT API 9.0 及以上，仅支持 stage 模式。

SDK 使用最佳实践

准备工作

在使用 HarmonyOS SDK 进行日志采集之前，您需要做一些准备工作。

已开通日志服务（SLS），请参见开通日志服务[1]。
已创建好对应的 Project 和 Logstore，请参见管理 Project[2]和管理 Logstore[3]。
已创建并获取 AccessKey，请参见访问密钥[4]。阿里云账号 AccessKey 拥有所有 API 的访问权限，风险很高。强烈建议您创建并使用 RAM 用户进行 API 访问或日常运维。RAM 用户需具备操作日志服务（SLS）资源的权限。具体操作，请参见为 RAM 用户授权[5]。
[可选]搭建 HarmonyOS 开发环境。开发鸿蒙应用需要使用 HarmonyOS 的 IDE 进行开发，具体内容请参考 HarmonyOS 官网开发文档[6]。

日志采集

安装 SDK

在项目的 entry 或 library 目录下执行如下命令。

ohpm install @aliyunsls/producer --registry=https://ohpm.openharmony.cn/ohpm

以上命令执行完成后，在 entry 或 library 目录下的 oh-package.json5 文件中会自动增加以下信息。

"dependencies": {
 "@aliyunsls/producer": "^0.1.0"
}

你可以通过以上信息来确定 SDK 是否安装成功。

集成 SDK

SDK 安装成功后，您可以按照实际业务需要，在指定的 ets 文件中导入 SLS 模块。

import { AliyunLog } from "@aliyunsls/producer"

您还需要完成 SDK 的初始化工作。

let aliyunLog: AliyunLog = new AliyunLog(
  "https://cn-qingdao.log.aliyuncs.com", // 需要根据实际业务需要，替换为您Project所在Region
  "test-project-yuanbo", // 需要根据实际业务需要，替换为您的Project
  "applog", // 需要根据实际业务需要，替换为您的Logstore
  "<accesskey id>",
  "<accesskey secret>",
  "<accesskey token>" // 仅当AccessKey是通过STS方式获取时才需要
)

参数说明：

日志采集

完成 SDK 的初始化之后，可以通过以下方式完成日志的采集。

aliyunLog.addLog(new Map(
[

// 根据实际业务需要，调整您需要上报的业务字段
["from", "Home"],
["page", "HomePage"],

]
));

更多 SDK 使用相关的信息，建议您参考 SLS 官网文档 HarmonyOS SDK[11]。

日志使用

场景一：查询和可视化分析

数据通过 SDK 采集上来之后，我们可以通过 SLS 控制台进行日志的查询和分析。

首先在 SLS 控制台 Project 列表中找到您的 Project，并进入到 Project 页面。如下：

接着，在左侧日志库菜单中找到您的 Logstore。如下：

如果 Logstore 没有开启索引，在您打开 Logstore 页面之后，会收到一个“未开启日志库索引”的提示框。您可以通过 Logstore 页面右上角的开启索引按钮来配置相关字段的索引。配置索引的具体方式可以参考创建索引[12]这篇文档。本文示例的 Logstore 已经对以下字段进行了索引配置：

索引开启后，即可在 Logstore 页面看到我们上报的日志信息，如下：

注意：如果您的日志是在开启索引之前写入的，您需要重建索引后才能看到历史写入的数据。如何重建索引？您可以参考文档重建索引[13]。

可视化分析示例一：分析 CartPage 的访问趋势

基于示例数据，我们可以通过 SQL 查询出 page 字段的访问趋势，如下：

* and page: CartPage | select date_trunc('minute', __time__)  as minute, count(*) as cnt group by minute order by minute asc

以上查询分析语句的含义是：

“|”之前的部分，是通过查询语句 page: CartPage 过滤出 page 为 CartPage 的页面数据。请参考更多关于查询语法[14]的信息。
“|”之后的部分，是通过 SQL 语句对过滤出来的数据进行分析，即：通过 date_trunc 语句把时间对齐到分钟级别，然后使用 count(*) 计算出每分钟页面的访问次数。请参考更多关于分析语法[15]的信息。

通过 SLS 可视化能力，可以对查询分析的结果使用丰富的图表展示，如下图是通过“线图 Pro”类型的图表，按照时间升序展示每分钟的页面访问次数。

可视化分析示例二：分析 CartPage 页面的访问来源

基于示例数据，可以使用如下查询分析语句查询 Cart 页面的来源分布：

* and page: CartPage | select "from"  as "from", count(*) as cnt group by "from"

备注：因为 from 是 SQL 的保留字段，因此示例中使用了双引号""对 from 进行包装。

下图是通过饼图 Pro 类型的图表，绘制的来源页面分布。

SLS 拥有非常强大的可视化分析能力，以上仅是非常简单的示例。实际使用中，可能会涉及到多种指标的同比/环比，漏斗转化实时分析等等。SLS 对此提供了非常灵活和丰富的能力进行支持。更多信息可以参考查询与分析[16]以及可视化[17]。

场景二：日志加工处理

如果从鸿蒙设备上采集到的原始数据格式没有事先约定好，或者数据格式较为复杂，或者需要对个别字段做富化/脱敏等，您可以使用 SLS 数据加工能力对原始数据做富化和清洗。您可以参考以下步骤。

[可选]新增一个 Logstore 用于存储加工处理后的数据，如下：

可根据实际业务的需要，提前对该 Logstore 进行索引等配置。

进入到数据加工配置页面

您可以通过 Logstore 名称右侧的“数据加工”超链接进入到数据加工配置页面。

配置数据加工任务

如上图，您可以参考以下步骤配置数据加工任务。

a. 把目标数据加入到测试数据，用于验证数据加工脚本是否符合预期。

b. 在脚本编辑区域，根据实际业务需要输入数据加工脚本规则，示例如下：

# 富化__tag__:__client_ip__字段，提取出省、市、经纬度等信息
e_set("x", geo_parse(v("__tag__:__client_ip__")))
e_json("x", prefix="geo_") # 平铺x节点，并增加geo_前缀

e_drop_fields("x")

# 平铺content节点
e_json("content")
e_drop_fields("content")

关于数据加工脚本支持的语法，您可以参考数据加工语法[18]。

c. 脚本编写完成后，您可以通过右上角“预览数据”按钮验证数据加工的结果。

如下图，是以上数据加工脚本的预览结果：

数据加工预览结果符合预期后，您就可以保存当前数据加工任务了，后续的具体操作请参考创建数据加工任务[19]。

其他场景

除了上文中提到的查询与可视化分析、日志加工处理之外，SLS 还支持基于业务日志创建自定义告警监控业务，通过流处理、批处理（定时SQL）功能对数据进一步加工、聚合处理，通过消费与投递功能投递业务数据到 OSS、MaxCompute 等。您可以通过访问日志服务（SLS）[20]官网文档等方式进一步了解 SLS 各种功能，助力您的业务发展。

总结

SLS SDK 通过适配 HarmonyOS NDK，并提供原生 ArkTS 语言原生 API 的方式，使开发者能够确保应用程序在 HarmonyOS 操作系统上实现无缝对接和高效利用 SLS 功能，可以有效提升应用的稳定性和性能。SDK 提供的异步日志写入、日志聚合压缩上传、缓存控制、自定义标识、断点续传、日志上下文查看等丰富特性，可以简化日志管理流程，提升故障排查、性能优化、资源利用监控、安全防范等方面的能力。

此外，借助 SLS 的强大平台功能，如实时查询、可视化分析、数据加工处理等等能力，不仅能够快速定位问题，优化应用性能，还能够在满足数据合规性要求的同时，基于业务日志构建全面的运维监控体系，为数字化运营决策提供有效支持。

除了以上能力外，SLS 还提供基于 OTel（OpenTelemetry）协议的多平台数据采集插件，您可以借助这些插件实现端到端的 Trace 数据采集和分析能力。

通过 OpenTelemetry 接入 Android Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-trace-data-f...
通过 OpenTelemetry 接入 iOS Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-trace-data-f...
通过 OpenTelemetry 接入 Flutter/Dart Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-trace-data-f...
通过 OpenTelemetry 接入 C++ Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-trace-data-f...
接入 Web Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-data-from-we...
接入小程序 Trace 数据：https://help.aliyun.com/zh/sls/user-guide/import-data-from-mi...

更多关于 Trace 数据采集和使用相关的内容，你可以参考 SLS Trace[21]服务。欢迎您试用！

相关链接：

[1] 开通日志服务

https://www.aliyun.com/product/sls

[2] 管理 Project

https://help.aliyun.com/zh/sls/user-guide/manage-a-project

[3] 管理 Logstore

https://help.aliyun.com/zh/sls/user-guide/manage-a-logstore

[4] 访问密钥

https://help.aliyun.com/zh/sls/developer-reference/accesskey-...

[5] 为 RAM 用户授权

https://help.aliyun.com/zh/sls/create-a-ram-user-and-authoriz...

[6] HarmonyOS 官网开发文档

https://developer.huawei.com/consumer/cn/doc/

[7] 服务入口

https://help.aliyun.com/zh/sls/user-guide/manage-a-project#se...

[8] 项目（Project）

https://help.aliyun.com/zh/sls/product-overview/project

[9] 日志库（Logstore）

https://help.aliyun.com/zh/sls/product-overview/logstore

[10] 访问密钥

https://help.aliyun.com/zh/sls/developer-reference/accesskey-...

[11] HarmonyOS SDK

https://help.aliyun.com/zh/sls/developer-reference/harmonyos-...

[12] 创建索引

https://help.aliyun.com/zh/sls/user-guide/create-indexes

[13] 重建索引

https://help.aliyun.com/zh/sls/user-guide/reindex-logs-for-a-...

[14] 查询语法

https://help.aliyun.com/zh/sls/user-guide/search-syntax

[15] 分析语法

https://help.aliyun.com/zh/sls/user-guide/sql-syntax-and-func...

[16] 查询与分析

https://help.aliyun.com/zh/sls/user-guide/index-and-query/

[17] 可视化

https://help.aliyun.com/zh/sls/user-guide/visualization-2/

[18] 数据加工语法

https://help.aliyun.com/zh/sls/user-guide/data-processing-syn...

[19] 创建数据加工任务

https://help.aliyun.com/zh/sls/user-guide/create-a-data-trans...

[20] 日志服务（SLS）

https://help.aliyun.com/zh/sls/product-overview/

[21] SLS Trace

https://help.aliyun.com/zh/sls/user-guide/usage-notes-39

作者：高玉龙（元泊）

原文链接

本文为阿里云原创内容，未经允许不得转载。

提升团队工程交付能力，从“看见”工程活动和研发模式开始

2024-04-24T16:44:13+08:00

理想中的研发团队应当具有以下特征：

总是工作在最高优先级的事项上

理想的研发团队能够识别并始终集中精力在当前最紧迫和最有价值的任务上。这需要团队具备出色的项目管理能力和决策能力，以便能够正确评估优先级，做出合理的工作分配，并快速适应项目需求的变化。

各个角色既能专注于自身的专业工作，又能彼此高效协同

每个团队成员都应当是各自领域的专家，并且全身心投入到他们擅长和负责的工作当中。然而，这并不意味着他们仅限于个体工作。一个理想的研发团队鼓励跨学科合作，通过敏捷的沟通机制和共享的工具，确保信息能够顺畅地在团队成员之间流通。团队中的设计师、工程师、产品经理和其他角色之间应当存在协同工作的文化，这样的多元化合作能够促进创新思维，并最终导致更高质量的产品开发。

团队和个体的技术和工程能力能持续改进

理想研发团队不仅在现有技术上精通，而且持续追求技术和专业技能的提升。这意味着个人和团队都应该鼓励创新和实验，并且能做到快速试错、快速反馈。同时，团队应该有制度鼓励个人在工作中尝试新方法和技术，这种文化不仅有助于团队的长期成长，也有助于吸引和保留那些富有好奇心和热情于学习新事物的人才。

一个拥有如上特质的研发团队更有可能成功地完成复杂的项目，创造创新的产品，并在竞争激烈的市场环境中获得成功。

01 团队工程交付的常见问题

要成为上面所述的优秀研发团队确实需要付出巨大的努力和持续的改进。在追求理想状态的过程中，以下三个问题经常成为阻碍团队达到理想特质的障碍：

1）信息传递失真：团队内部成员来自不同的专业背景，使用的术语和概念也各不相同。例如，开发说发布一个应用，运维说对一个服务做变更，但他俩说的其实是同一件事情。在日常协作中，需要将这些信息从一个领域转换到另一个领域，并确保信息不丢失、不扭曲。如果处理不当，就会导致团队成员对项目的理解出现偏差，从而影响决策和执行。为了解决这个问题，可以通过建立统一的概念模型、使用共享的术语库、提供跨部门交流培训和使用相同的工具平台等方式来减少信息传递过程中的失真。

2）流程没有连接：尽管每个研发阶段内部可能已经实现了自动化和高效的运作，但是当一个项目或需求从一个阶段转移到另一个阶段时，往往缺乏流畅的衔接。举个例子，有的企业开发人员和测试人员属于不同的职能团队，开发人员提交代码后，自动会触发代码的构建、静态检查、单元测试等环节，但到了功能测试阶段，开发人员需要手动填写提测单，在提测单里写上代码版本、单测结果、静态检查结果、部署方式等，由测试人员线下确认后，再流转到功能测试阶段。这种阶段间的断层通常需要依赖于团队成员之间的线下沟通和非正式协议，这容易造成流程上的混乱和效率低下。要打破这些障碍，团队可以尝试引入端到端的研发管理工具和流程，确保流程的透明化和自动化，从而形成一个无缝连接的、整体的研发流程。

3）无法识别重点：当团队同时处理多个项目和需求时，工程活动可能会分散在不同的工具和平台上。这种分散导致团队成员很难追踪整体的进展，也难以判断哪些任务是当前的重点。信息的碎片化使得团队难以集中注意力在最紧迫的需求上。解决这个问题的关键在于建立统一的研发管理系统，按研发任务聚合工程活动，实时展示各个任务的状态和优先级。此外，定期的回顾会议和优先事项的重新评估也是确保团队能够集中精力在最有价值的工作上的重要做法。

总结来说，成为一个优秀的研发团队不仅需要专业技能的不断提升，而且还需要针对信息流通、流程衔接和重点识别等方面的问题进行系统的解决方案设计和实施。通过持续的努力，优秀的团队可以逐步克服这些拦路虎，走向成熟和效能的最高标准。

因此，改进的第一步是要能看见工程活动和研发模式，进而识别其中存在的问题。

02 统一工程交付的概念模型

为了有效解决信息传递失真、流程不连贯等问题，确保信息的流畅传递和流程的无缝连接是至关重要的。这就要求从根本上统一工程交付的概念模型，使所有参与者——无论是开发人员、测试人员、产品经理还是任何其他相关方——都拥有共同的理解框架。

在解决这些问题的过程中，云效联合产学研各界于 2022 年发布了 BizDevOps白皮书，该白皮书提出了 BizDevOps 完整的概念模型，通过该模型，可以更清晰地界定和管理研发生命周期中的各个环节。

具体到模型本身，它将业务需求、产品需求、变更请求定义为时标对象，这些时标对象在时间轴上代表了需求的生成和变更的发生。每一个变更请求都与特定的应用相关联，而应用就是变更请求所属的空间或上下文。这样，工程交付的核心概念就被简化为两个主要元素：应用和变更请求。此外，还包括了应用的一些重要附属属性，例如变更内容、环境、部署编排和研发变更流程等。这些属性共同描述了从需求提出到最终部署的完整过程。

通过应用这个核心概念，工程侧能够高效地聚合研发资产和研发流程，形成一个集中的管理点。这有助于优化资源分配，提高研发效率，同时也有助于跟踪和度量研发过程中的关键指标。

另一方面，变更请求作为时标对象，承担了连接不同研发活动和项目协作的关键角色。通过对变更请求的跟踪和管理，团队可以确保所有的活动都围绕着实现具体的业务目标进行，同时使得整个工程交付过程更加透明和可控。

综上所述，这个模型不仅为团队成员之间的沟通提供了共同的语言，还为整个研发周期的管理提供了一套清晰的指南，从而使得各个环节能够紧密协作，确保研发活动能够高效、有序地进行。

03 定义应用交付的模式

拥有了统一的概念模型后，我们得以实现对研发资产和流程的系统化规范和高效管理。具体来看：

1）基于应用将研发资产和研发流程有效地规范和管理起来：我们为此构建了一套标准化模板，旨在帮助团队对应用的研发资产和流程进行全面梳理。这个模板涵盖的内容包括但不限于：

a. 应用相关角色及其权限：定义每个涉及应用开发的角色（如开发人员、测试工程师、产品经理等）以及它们相对于应用的权限，确保权限的分配既满足安全要求又促进工作效率。

b. 应用的代码和制品：明确代码库管理和制品库的使用，以及不同角色在代码提交、审核、制品生成和存储过程中的职责和权限。

c. 应用的分支模式：规定了源代码管理中各种分支的使用场景和规范，以及不同分支对应角色的职责，确保代码的版本管理既清晰又高效。

d. 应用端到端的研发流程：详细描述了从开发任务的启动到产品的最终上线，涉及的所有阶段和流水线，包括每个阶段的具体任务、责任分配、准入和准出标准，以及阶段间的衔接方法。

e. 应用的环境及其与角色的对应关系：梳理各种环境（如开发环境、测试环境、生产环境）的配置和用途，以及各个环境中不同角色的责任和权限。

2）基于变更请求将产品需求和开发任务端到端地连接起来：与上面的静态资产和流程管理相比较，这里更侧重于需求到上线这一动态的研发流程。

a. 创建变更请求：这一流程的第一步通常是将产品需求转化为技术任务，即变更请求，这些变更请求直接属于相应的应用。

b. 指定变更范围：变更请求的创建过程中，会指定其变更范围，通常指定为某个代码库的特性分支。开发人员在此分支上进行代码提交，触发应用的研发流程。

c. 执行研发流程：随着研发流程的展开，变更请求会逐渐通过各个阶段，特性分支也可能会被合并到集成分支或发布分支。每个阶段的执行频率可能不同，一般情况下，越接近流程的末端，执行的次数就越少。

d. 完成变更：当变更请求成功通过最后一个阶段，它就被视为完成。同理，一个产品需求所对应的所有变更请求一旦全部完成，那么这个产品需求也就可以宣布完成或者发布上线。

04 基于云效平台的落地方法

我们强烈建议在落地工程交付实践之前，先把需求协作实践梳理清楚，关于这一块内容，推荐参考：如何制定科学有效的需求流程规范。

接下来，我们会借助云效平台，按照前面章节的示例，定义应用的交付模式，并按照该交付模式完成一个产品需求交付的完整流程。

4.1 通过应用模板定义应用交付模式

我们通过应用模板来承载团队的工程交付模式，这里我们以前面提到过的基于 feature 的持续交付模式为例。

该交付模式的特点是开发、测试均基于特性分支，集成发布均基于主干分支，属于快速开始，快速集成，快速交付，推崇单个特性的独立开发、独立测试、独立集成于独立交付。首先，在云效 appstack 上创建一个名为“特性驱动的持续交付模板”的应用模板。

在该模板上开启“变更 + 研发流程”服务。

按照 feature/master 两阶段的研发流程，为这两个阶段分别定义变量组，在变量组中使用不同的 k8s namespace，以及指定不同的副本数。

接下来通过模板来规范应用的部署方式，云效推崇多套环境一套编排模板的实践，差异性的部分通过变量组来定义。

然后，我们规定每个应用都有两套环境，分别为用于 feature 开发验证的“特性验证环境”，和用于集成发布的“生产部署环境”。这两套环境与对应的变量组、部署编排和集群资源（可选）关联。

我们已经确定了应用的环境和部署策略，接下来我们规范应用的研发交付流程。

我们要求应用从开始开发到完成交付，需要经过特性验证和生产部署两个阶段的验证，且只有经过特性验证阶段的 feature，才能进行生产部署。为了做到这一点，我们创建了一个两阶段的研发流程，分别为特性验证阶段和生产部署阶段。

在特性验证阶段，我们定义了一条包含 4 个步骤的流水线，分别为代码检视、构建、部署和测试，且规定分支为自由选择方式（可在流水线配置名称前缀为 feature- 的分支有新的代码提交自动触发）。

在生产部署阶段，我们配置了一条有 5 个步骤的流水线，分别为代码检视、构建、审核、部署和完成变更。同时限制流水线运行分支为 master，且执行时相关 feature 在特性验证阶段的执行结果为成功（云效会自动计算流水线执行时所涉及到的 feature 分支，并判断其前序阶段的执行成功与否）。

至此，我们完成了应用模板的定义，现在，让我们基于该模板来创建一个应用，并完成一个特性的交付。

通过应用模板创建好应用后，还需要设置好应用所关联的代码仓库和相关成员。

4.2 分析产品需求，拆解变更请求

假设我们接到一个产品需求，需要将查询服务接入风控，避免爬虫攻击。为此，我们为 risk-control-srv 拆解了一个变更请求，并关联到该产品需求上。

4.3 在变更分支上提交代码，进行持续验证

由于设置了代码提交至 feature 分支自动触发特性验证阶段的执行，每次在 feature 上 push 代码后，都会自动进行验证并给出反馈。

4.4 通过代码评审合并变更分支，进入生产部署

当代码评审通过并合并入 master 分支后，会自动触发生产部署阶段的执行。

4.5 完成变更，进而完成产品需求

生产部署阶段执行完成后，变更请求会变为已完成状态，同时其对应的产品需求也会自动进入已完成状态。

05 后记

本文从统一工程交付的概念模型开始，介绍了如何将应用交付的模式显式地定义出来，并通过工具平台落地。但需注意，团队的工程交付实践往往不存在标准解，我们都是在寻求当前场景下的最优解。在具体的场景下，团队的工程交付受到协作机制和技术水平的双重制约，因此需要我们把视角从工程交付本身跳出来，结合协作、技术一起来看，并持续优化和改进，才能找到适合我们自身团队的最佳实践模式。

作者：张裕、雅纯

原文链接

本文为阿里云原创内容，未经允许不得转载。

RocketMQ 之 IoT 消息解析：物联网需要什么样的消息技术?

2024-04-24T14:06:14+08:00

前言：

在这样的背景下，2022 年，RocketMQ 5.0 正式发布，相对于 RocketMQ 4.0，架构走向云原生化，并且覆盖了更多的业务场景。

物联网消息场景

我们先来了解一下物联网的场景是什么？消息在物联网里面有什么作用？

物联网肯定是最近几年最火的技术趋势之一，有大量的研究机构、行业报告都提出了物联网快速发展的态势：

首先，物联网设备规模爆发式增长，预测会在 2025 年达到 200 多亿台。

其次，物联网的数据规模快速增长，来自物联网的数据增速接近 28%，并且未来有 90% 以上的实时数据来自物联网场景。这也就意味着未来的实时流数据处理的数据类型会有大量物联网数据。

最后，边缘计算是一个重要的趋势，未来会有 75% 的数据在传统数据中心或者云环境之外来处理，这里的边缘指的是商店、工厂、火车等等这些离数据源更近的地方。由于物联网产生的数据规模很大，如果全部数据传输到云端处理，会面临难以承受的成本，应该充分利用边缘资源直接计算，再把高价值的计算结果传输云端；另一方面，在离用户近的地方计算直接响应，可以降低延迟，提升用户体验。

物联网的发展速度这么快，数据规模那么大，跟消息有什么关系呢？

我们通过这个图来看一下消息在物联网场景发挥的作用：

第一个作用是连接，承担通信的职责，支持设备和设备的通信，设备和云端应用的通信，比如传感器数据上报、云端指令下发等场景，作为支撑 IoT 的应用架构，连接云边端。

第二个作用是数据处理，物联网设备源源不断的产生数据流，有大量需要实时流处理的场景，比如设备维护，高温预警等等。基于 MQ 的事件流存储和流计算能力，可以构建物联网场景的数据架构。

物联网消息技术

下面我们来看看在物联网场景里，对消息技术有什么诉求？

我们先从这个表格来对比，物联网消息技术跟之前讲过的经典消息技术的区别。

经典的消息主要是为服务端系统提供发布订阅的能力，而物联网的消息技术是为物联网设备之间、设备和服务端之间提供发布订阅的能力。

我们来分别看一下各自场景的特点：

经典消息场景：消息 Broker、消息客户端都作为服务端系统的一部分，通常部署在 IDC 或者公共云环境中配置性能较高的服务器上，包括容器、虚拟机、物理机等形式。消息客户端和服务端通常部署在同一个机房，内网环境具有高带宽和稳定的网络质量。客户端数量通常与应用服务器数量相对应，规模较小，一般是数百到数千台服务器，只有超大型互联网公司才会达到百万级。从消息生产的角度来看，每个客户端的消息生产发送量一般对应到其业务的 TPS，能达到数百数千 TPS。在消息消费方面，通常采用集群消费，一个应用集群共享一个消费者 ID，共同分担该消费组的消息。每条消息的订阅比通常也不高，正常情况下不会超过 10 个。
IoT 消息场景：很多条件都与经典消息场景不一样，甚至截然相反。IoT 的消息客户端通常是微型设备，其计算和存储资源都非常有限。消息服务端可能要部署在边缘环境中，使用的服务器配置也会比较低。另一方面，物联网设备通常通过公网连接，网络环境特别复杂，并且由于设备经常移动，有时会面临断网或处于弱网环境，网络质量差且不稳定。物联网场景中，消息客户端实例数对应到物联网设备数，可能达到亿级别，远远超过大型互联网公司的服务器数量。尽管每个设备的消息 TPS 不高，但是一条消息有可能同时被百万个设备接收，订阅比特别高。

RocketMQ - MQTT

由此可以看出，物联网需要的消息技术和经典的消息技术很不一样。接下来我们再来看，为了应对物联网的消息场景，RocketMQ 5.0 做了哪些事情？

RocketMQ 5.0 我们发布了一个子产品，叫做 RocketMQ - MQTT。

它有三个技术特点：

第一，它采用标准的物联网协议 MQTT，该协议面向物联网弱网环境、低算力的特点设计，协议十分精简。它还提供丰富的特性，支持多种订阅模式，多种消息 QoS，比如“最多一次”、“最少一次”和“当且仅当一次”。其领域模型设计也是基于“消息、主题、发布订阅”等概念，与 RocketMQ 高度兼容，为构建一个云端一体化的 RocketMQ 产品形态奠定了坚实的基础。

第二，它采用存算分离的架构。RocketMQ Broker 作为存储层，MQTT 相关的领域逻辑都在 MQTT Proxy 层实现，并面向海量连接、订阅关系、实时推送进行深度优化，Proxy 层可以根据物联网业务负载提供独立的弹性扩展，例如增加连接数只需新增 Proxy 节点。

第三，它采用端云一体化的架构。因为领域模型接近，并且以 RocketMQ 作为存储层，每条消息只需存储一份，这份消息既能被物联网设备消费，也能被云端应用消费。另外，RocketMQ 本身是天然的流存储，流计算引擎可以无缝对 IoT 数据进行实时分析。

接下来我们再从几个关键的技术点，来深入了解 RocketMQ 的物联网技术实现。

（一）IoT 消息存储模型

1.读放大为主，写放大为辅

首先要解决的是物联网消息的存储模型，在发布订阅的业务模型里，一般会采用两种存储模型，一种是读放大，每条消息只写到一个公共队列，所有消费者读取这个共享队列，维护自己的消费位点；另外一种是写放大，每个消费者有自己的队列，每条消息都分发到目标消费者的队列中，消费者只读自己的队列。

因为在物联网场景里，一条消息可能会有百万级的设备消费，所以，很显然，选择读放大的模型能显著降低存储成本、提高性能。

但是，只选择读放大的模式没法完全满足要求，MQTT 协议有其特殊性，它的 Topic 是多级 Topic，且订阅方式既有精准订阅，也有通配符匹配订阅。比如家居场景，我们定义一个多级主题，如“家/浴室/温度”，有直接订阅完整多级主题的“家/浴室/温度”，也有采用通配符订阅只关注“温度”的，还有只关注一级主题为“家”的所有消息。

对于直接订阅完整的多级主题消费者可以采用读放大的方式直接读取对应多级主题的公共队列；而采用通配符订阅的消费者无法反推消息的 Topic，所以需要在消息存储时根据通配符的订阅关系多写一个通配符队列，这样消费者就可以根据其订阅的通配符队列读取消息。这就是 RocketMQ 采用的读放大为主，写放大为辅的存储模型。

2.端云一体化存储

基于前文的分析，我们设计了 RocketMQ 端云一体化的存储模型，见下图。

消息可以来自各个接入场景（如服务端的 RMQ/AMQP，设备端的 MQTT），但只会写一份存到 Commitlog 里面，然后分发出多个需求场景的队列索引，比如服务端场景（MQ/AMQP）可以按照一级 Topic 队列进行传统的服务端消费，设备端场景可以按照 MQTT 多级 Topic 以及通配符订阅进行消费消息。这样我们就可以基于同一套存储引擎，同时支持服务端应用集成和 IoT 场景的消息收发，达到端云一体化。

（二）队列规模问题

我们都知道像 Kafka 这样的消息队列每个 Topic 是独立文件，但是随着 Topic 增多，消息文件数量也增多，顺序写就退化成了随机写，性能明显下降。RocketMQ 在 Kafka 的基础上进行了改进，使用了一个 Commitlog 文件来保存所有的消息内容，再使用 CQ 索引文件来表示每个 Topic 里面的消息队列，因为 CQ 索引数据比较小，文件增多对 IO 影响要小很多，所以在队列数量上可以达到十万级。但是，这个终端设备队列的场景下，十万级的队列数量还是太小了，我们希望进一步提升一个数量级，达到百万级队列数量，所以，我们引入了 Rocksdb 引擎来进行 CQ 索引分发。

面向 IoT 的百万级队列设计

Rocksdb 是一个广泛使用的单机 KV 存储引擎，有高性能的顺序写能力。因为我们有了 Commitlog 已具备了消息顺序流存储，所以可以去掉 Rocksdb 引擎里面的 WAL，基于 Rocksdb 来保存 CQ 索引。在分发的时候，我们使用了 Rocksdb 的 WriteBatch 原子特性，分发时把当前的 MaxPhyOffset 注入进去，因为 Rocksdb 能够保证原子存储，后续可以根据这个 MaxPhyOffset 来做 Recover 的 checkpoint。最后，我们也提供了一个 Compaction 的自定义实现，来进行 PhyOffset 的确认，以清理已删除的脏数据。

（三）IoT 消息推送模型

介绍了底层的队列存储模型后，我们再详细描述一下上层的消息实时推送（匹配查找和可靠触达）是怎么做的？

在 RocketMQ 的经典消费模式里，消费者是直接采用长轮询的方式，从客户端直接发起请求，精确读取对应的 Topic 队列。而在 MQTT 场景里，因为客户端数量、订阅关系数量规模巨大，无法采用原来的长轮询模式，消费链路的实现更加复杂，所以，这里采用的是推拉结合的模型。

下图展示的是一个推拉模型，物联网终端设备通过 MQTT 协议连到 Proxy 节点。消息从服务端（MQ/AMQP/MQTT）发送过来，存到 Topic 队列后，会有一个 notify 逻辑模块来实时感知这个新消息到达，然后会生成消息事件（就是消息的 Topic 名称），把这个事件推送至 Proxy 节点，Proxy 节点根据它连上的终端设备订阅情况进行内部匹配，找到哪些终端设备能匹配上，然后会触发 pull 请求去存储层读取消息，再推送到终端设备。

一个重要问题，就是订阅关系的匹配查找。一般有两种方式：第一种，简单的广播事件；第二种，集中存储在线订阅关系（比如图里的 lookup 模块），然后进行匹配查找，再精准推送。

事件广播机制看起来有扩展性问题，但是其实性能并不差，因为我们推送的数据很小，就是 Topic 名称，而且相同 Topic 的消息事件可以攒批推送，RocketMQ 5.0 就是默认采用的这个方式。集中存储在线订阅关系，这个也是常见的一种做法，如保存到 RDS、Redis 等等，但要保证数据的实时一致性也是有难度的，而且要进行匹配查找对整个消息的实时链路 RT 开销也会有一定的影响。下图模型中可以看到，在 Proxy 节点还会引入一个 Cache 模块，用来做消息队列 Cache，避免在广播场景下每个终端设备都向存储层发起读数据的情况。

总结

本文分三个部分深入探讨了 RocketMQ 5.0 关于物联网消息技术的应用与优化，第一部分概述一个典型的物联网技术架构，并重点阐述消息队列在此架构中的关键作用。第二部分，探讨了物联网场景对消息技术的特殊要求，并分析这些要求与服务端应用中的消息技术之间的差异。第三部分，深入介绍了 RocketMQ 5.0 的 MQTT 子产品，阐释其如何有效应对物联网领域的技术挑战。旨在为大家提供一个全面的视角，理解消息队列在物联网中的重要性及其解决方案。

作者：林清山（隆基）

原文链接

本文为阿里云原创内容，未经允许不得转载。

云原生最佳实践系列 5：基于函数计算 FC 实现阿里云 Kafka 消息内容控制 MongoDB DML 操作

2024-04-23T15:44:16+08:00

01 方案概述

在大数据 ETL 场景，将 Kafka 中的消息流转到其他下游服务是很常见的场景，除了常规的消息流转外，很多场景还需要基于消息体内容做判断，然后决定下游服务做何种操作。

该方案实现了通过 Kafka 中消息 Key 的内容来判断应该对 MongoDB 做增、删、改的哪种 DML 操作。当 Kafka 收到消息后，会自动触发函数计算中的函数，接收到消息，对消息内容做判断，然后再操作 MongoDB。用户可以对提供的默认函数代码做修改，来满足更复杂的逻辑。整体方案通过 CADT 可以一键拉起依赖的产品，并完成了大多数的配置，用户只需要到函数计算和 MongoDB 控制台做少量配置即可。

02 方案优势

可以实现根据 Kafka 消息的具体内容判断，该对 MongoDB 做哪种 DML 操作，灵活性和可扩展性极高。
函数计算具有完善的日志系统、容错机制。可以清晰的看到对每条消息的处理日志，如果逻辑执行失败，也有重试机制和函数失败补偿机制，保证业务数据的完整性和一致性。

详情可参见文档：

https://help.aliyun.com/zh/fc/user-guide/retry-policy

https://help.aliyun.com/zh/fc/result-callback

方案限制：目前源 Kafka 只支持阿里云 Kafka。

03 部署架构

04 架构说明

该架构图直观的表现出了该方案中使用到的网络（VPC，交换机，安全组）、Kafka、函数计算 FC、MongoDB 之间的关系。

网络架构：

整个方案会在某个 Region 下，该示例使用的是北京 Region
在 Region 下会创建一个 VPC
在该 VPC 下会创建一个某可用区的交换机，该示例使用的是 G 可用区
在该 VPC 下会创建一个安全组
Kafka，FC，MongoDB 都在该 VPC 的 G 可用区的交换机下
FC 在与 VPC 其他资源互通时会使用到 VPC 下的安全组

05 产品介绍

函数计算 FC（Function Compute）：函数计算是事件驱动的全托管计算服务。使用函数计算，您无需采购与管理服务器等基础设施，只需编写并上传代码或镜像。函数计算为您准备好计算资源，弹性地、可靠地运行任务，并提供日志查询、性能监控和报警等功能。

云消息队列 Kafka 版：云消息队列 Kafka 版是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。云消息队列 Kafka 版广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，已成为大数据生态中不可或缺的部分。

云数据库 MongoDB 版（ApsaraDB for MongoDB）：完全兼容 MongoDB 协议，基于飞天分布式系统和高可靠存储引擎，提供多节点高可用架构、弹性扩容、容灾、备份恢复、性能优化等功能。

06 前置条件

在进行本文操作之前，您需要完成以下准备工作：

2）购买按量付费资源，阿里云账户余额需要大于 100 元。考虑到部署后每小时会产生费用，建议账号内余额或者代金卷金额大于 200 元。您可以登录阿里云控制台，前往账户总览页面（https://usercenter2.aliyun.com/home）查看账户余额。

07 操作步骤

本实践可通过 CADT 官方模板快速拉起演示环境。

1.基础环境搭建

2.配置 MongoDB

2.1. 设置白名单

2.2. 记录 MongoDB 连接地址

2.3. 创建 MongoDB 库和集合

2.4. 查询 MongoDB 中的数据

3.配置函数计算 FC

3.1. 登录函数计算 FC 控制台

3.2. 配置函数环境变量

3.3. 配置函数实例生命周期回调

3.4. 配置函数的层

3.5. 配置函数代码

4.场景验证

4.1. 阿里云 Kafka 模拟发送消息

4.2. 查询 MongoDB 数据

4.3. 验证更多场景

5.一键释放资源

原文链接

本文为阿里云原创内容，未经允许不得转载。

云原生最佳实践系列 4：基于 MSE 和 SAE 的微服务部署与压测

2024-04-22T16:08:27+08:00

01 方案概述

云原生应用平台为基于 Spring Cloud / Dubbo 开发的微服务应用提供了完善的能力支撑，例如服务注册发现、Serverless 无服务部署、实例弹性伸缩、微服务链路跟踪、全链路压力测试等，应用能够方便快捷的部署在阿里云上。

阿里云原生产品完全兼容 Spring Cloud 框架的主流版本，监控能力通过探针方式采集运行时数据，对业务代码无侵入。

02 应用场景

借助云原生产品 MSE、SAE、ARMS、PTS，提供一个经典微服务场景上云的步骤，体现云原生相关产品在微服务应用上云过程中，解决无服务化部署、微服务注册、微服务监控、微服务测试的能力。本实践中使用的 Spring Cloud 微服务 A、B、C，之间的调用关系为 A 调用 B，B 调用 C。此调用关系在 2.8 章节、4.2 章节可以查看。

主要步骤：

CADT 一键完成微服务应用环境创建
配置使用独立 MSE 注册配置中心
SAE 无服务化部署
展示 ARMS 基础监控能力
通过 PTS 压测，展示 SAE 弹性能力

03 部署架构

04 架构说明

1 个 MSE 注册配置中心
3 个 SAE 应用
1 个 EIP
1 个 SLB
ARMS 资源开通
PTS 基础资源包

05 产品介绍

弹性公网 IP：弹性公网 IP 是独立的公网 IP 资源，可与阿里云专有网络 VPC 类型的云服务器 ECS、NAT 网关、ENI 网卡、私网负载均衡 SLB 绑定，并可以动态解绑满足灵活管理的要求。弹性公网 IP 可为您在云上部署的网站提供 Internet 访问服务。

微服务引擎 MSE：微服务引擎 MSE 面向业界主流开源微服务项目，提供注册配置中心和分布式协调（原生支持 Nacos/ZooKeeper/Eureka）、云原生网关（原生支持 Higress/Nginx/Envoy，遵循 Ingress 标准）、微服务治理和分布式任务调度能力（兼容开源 XXL-JOB/ElasticJob/K8s Job/Spring Schedule）。

Serverless 应用引擎 SAE（Serverless App Engine）：零代码改造、极简易用、自适应弹性的应用全托管平台。SAE 让您免运维 IaaS 和 K8s，秒级完成从源代码/代码包/ Docker 镜像部署任何语言的在线应用（如 Web/微服务/Job 任务）到 SAE，并自动伸缩实例按使用量计费，开箱即用日志、监控、负载均衡等配套能力。

ARMS 应用监控：是一款应用性能管理（Application Performance Management，简称 APM）产品。您无需修改代码，只需为应用安装一个探针，ARMS 就能够对应用进行全方位监控，帮助您全面掌控应用运行状态，快速定位出错接口和慢接口，洞察性能瓶颈，重现调用参数，从而大幅提升线上问题诊断的效率。

性能测试服务 PTS：作为性能测试工具，性能测试 PTS 支持按需发起压测任务，可提供百万并发、千万 TPS 流量发起能力，100% 兼容 JMeter。提供的场景编排、API 调试、流量定制、流量录制等功能，可快速创建业务压测脚本，精准模拟不同量级用户访问业务系统，帮助业务快速提升系统性能和稳定性。

06 前置条件

在进行本文操作之前，您需要完成以下准备工作：

07 操作步骤

本实践可通过 CADT 官方模板快速拉起演示环境。

1. 基础环境搭建

2. 微服务注册到 MSE

2.1. 获取 mse 实例地址

2.2. 修改 A 应用注册

2.3. 修改 B 应用注册

2.4. 修改 C 应用注册

2.5. 开启应用监控

2.6. 挂载 CLB

2.7. 查看 eip 地址

2.8. 访问应用

3. 通过压测展示 SAE 弹性

3.1. 创建 A 应用弹性规则

3.2. 创建 PTS 压测场景

3.3. 执行压测

3.4. 查看 A 应用扩容状态

3.5. 查看 A 应用缩容状态

3.6. 查看 A 应用指标

4. 应用监控验证

4.1. 查看 A 应用监控大盘

4.2. 查看应用调用链5. 一键释放资源

原文链接

本文为阿里云原创内容，未经允许不得转载。

RocketMQ 流数据库解析：如何实现一体化流处理?

2024-04-19T16:28:31+08:00

前言：

在这样的背景下，2022 年，RocketMQ 5.0 正式发布，相对于 RocketMQ 4.0，架构走向云原生化，并且覆盖了更多的业务场景。

背景

在《RocketMQ 流存储解析：面向流场景的关键特性与典型案例》一文中我们介绍了 RocketMQ 面向数据集成提供的流存储的能力，基于流存储和业界主流的分布式流计算引擎结合，比如 Flink、Spark，能为用户提供完整的流处理能力。然而，在某些场景下，我们有机会为用户提供更简化的流处理方案，不需要维护多套分布式系统，通过 RocketMQ 5.0，就能提供一体化的流处理。

本文第一部分，我们将从概念和宏观角度理解什么是流处理；第二部分，我们再回到 RocketMQ 5.0，介绍 RocketMQ 提供的轻量流处理引擎 RStreams，了解其特性和原理；第三部分，我们将介绍 RocketMQ 的流数据库 RSQLDB，如何通过流存储和流计算的深度结合，进一步降低流处理使用门槛。

流处理场景

让我们先来了解一下什么是流处理？流处理过程包括流数据摄入、流数据存储和流计算。

第一个概念是流数据，它是与批量数据、离线数据相对的。其特点在于数据源源不断的产生，并且有一定的顺序，从而形成一个无边界数据流，类似于现实世界中的河流。比如信用卡交易、股票交易、IoT 设备传感数据，都可以认为是流数据。

第二个概念是流存储，在《RocketMQ 流存储解析：面向流场景的关键特性与典型案例》一文中重点介绍过，这里简要回顾一下。流存储就是面向流式数据进行深度优化的存储系统，类似于日志（Log），提供按照分区、位点进行读写操作的能力，数据是持续追加且不可变的。典型的流存储有 RocketMQ、KAFKA、AWS 的 Kinesis Data Streams。

第三个概念是流计算，面向流式数据的计算引擎，它主要的特征是实时计算、低延迟，能够实现有状态计算，比较典型的流计算引擎有 Flink、Spark Streaming、Kafka 的 KStreams 等等。

那么，通常什么时候会用到流处理场景呢？相对于批处理——通常是天级别的计算延迟，流处理更侧重于需要实时响应的场景，比如信用卡欺诈检测、股票实时投资、工厂设备维护，还有舆情实时监控等等。

流计算技术分析

流处理过程主要包括流数据的摄入、存储以及流式计算三个环节。虽然摄入和存储也是重要环节，但本文将聚焦于流计算所需的技术能力。

流计算的数据流可以概括为三个步骤：数据输入，数据转换，数据输出。我们通过一个简单的案例 WordCount 来解释流计算的技术要点。看右边这个图，数据输入是实时产生的语句流，我们希望能够按照时间窗口统计每个单词出现的次数，按时间输出统计结果。我们基于流计算引擎，只需要写少量的代码，比如左下角的图，即可完成任务。

从这个案例，我们可以总结出流计算引擎需要具备的关键能力：

首先，需要支持丰富的可重用算子，采用函数式编程的方式，提升流计算的开发效率。

其次，需要具备容错能力，在计算过程中节点宕机时，能够通过重启或者其他计算节点接管恢复计算。

再来，流数据往往是大规模的，比如 IoT 设备产生的大规模传感数据，往往超出单机的计算能力。流计算引擎要具备大规模并行计算能力。

最后，流计算的结果往往用于关键业务决策，流计算引擎要能做到在大规模并行、容错切换、资源调度等场景下，保障计算结果的正确性。

RStreams

1.RStreams 的特点

面向流处理场景，RocketMQ 5.0 提供了原生的轻量流计算引擎 RStreams，它有三个特点：

首先，只依赖 RocketMQ 的原生技术栈，基于 RocketMQ 的不同类型 Topic 实现数据流处理，适合轻量输出、边缘计算场景。

其次，它的用法也很轻量，不用搭建流计算平台，用户没有额外的运维负担，直接使用 RStreams 的 SDK 编写流计算逻辑，并内嵌到业务应用（或者微服务中）即可。

最后，它覆盖了主流场景的所有算子，具备完整的流计算能力。包括无状态算子，比如过滤、map 等等，以及有状态算子，如聚合计算、窗口计算等等。

2.RStreams - 数据流

对于一个流计算引擎来说，最关键的是要了解整个数据流的情况。虽然从使用角度看，流计算是一次输入、转换和一次输出，而实际的实现过程中，流计算是由多个更加原子的算子多次输入、计算、输出组合在一起，涉及复杂的数据流图。

RStreams 完全是基于 RocketMQ 的流存储能力来实现数据流，面向用户的输入、输出分别对应 Source Topic 和 Sink Topic，而中间件的计算过程要基于 State Topic（即 CompactTopic）来维护流计算的中间状态，在计算过程可能还需要进行数据交换，比如按照单词统计词频中会用到 KeyBy 算子，RStreams 是基于 Shuffle topic 来实现的。

数据交换 - Shuffle Topic

关于 Shuffle Topic，我们再简单看一下。还是以 WordCount 为例，我们希望每个句子切割成单词后，要按照单词统计频率，这就需要把同一个单词的数据放到同一个计算实例上计数。RStreams 的实现就是把单词作为 Key hash 到同一个队列，基于 RocketMQ 的消费负载算法就可以保障同一个单词都在一个计算实例上统计。这就是 RStreams 的数据交换机制。

3.RStreams - 状态管理

我们再来看 RStreams 的另一个关键技术点——状态管理。

状态管理有两种场景，一种是容错场景，这里只需要依赖 RocketMQ 队列位点重放能力实现 checkpoint 机制就可以恢复计算状态。

另一种场景是有状态计算的中间计算结果维护，RStreams 通过 RocksDB 作为本地状态管理器，提供高性能、低延迟的状态读写，同时也基于 RocketMQ 的 CompactTopic 维护远程状态，定期和本地状态同步。这样一来，当本地节点磁盘损坏或者计算节点重新调度后，还可以从一个统一的数据存储中心恢复状态，提高状态数据的可靠性。

有状态算子 - Windows 举例

我们以 WordCout 案例中的窗口计算为例，来了解 RStreams 的有状态算子状态维护。

这个案例里，首先通过 Shuffle Topic 完成单词的分组统计，单词词频统计是按照时间窗口刷新，所以这里状态维护用的 Key 是 Topic + Q + 窗口时间 + 单词，Value 是统计数量，定时刷新到 RStreams 的状态存储中。当出现宕机，进行容错恢复后，窗口中的数据不用从头重新计算，保障流计算的实时性。

4.RStreams - 大规模计算

RStreams 的大规模并行计算，直接复用 RocketMQ 的无限扩展能力和负载均衡机制。比如基于 RocketMQ 的数据分片，流存储可以实现无限扩展；基于 RocketMQ 的分片负载消费模式，流计算节点也可以实现无限扩展。

5.RStreams - 弹性伸缩

下面我们再详细了解一下 RStreams 弹性伸缩的过程。在《RocketMQ 流存储解析：面向流场景的关键特性与典型案例》一文中提到，对于 RStreams 计算调度主要依赖 RocketMQ 的消费者队列负载均衡机制，数据源的每个数据分片只会被一个 RStreams 的实例读取计算。发生扩缩容的时候，会按照负载均衡算法重新分配计算节点。

除此之外，涉及有状态计算的时候，RStreams 还需要依赖 Compact Topic 维护状态，Compact Topic 的队列分布需要和 SourceTopic 保持一致，这样一来，数据源和对应的状态存储就都会被同一个 RStreams 计算节点重新加载。比如下面这张图，在发生缩容的时候，SourceTopic 队列 2 的数据和状态都调度到 RStreams 实例 2，从 checkpoint 加载数据恢复计算。

RSQLDB

下面我们进入第三部分，RocketMQ 的流数据库形态 RSQLDB。先来了解一下什么是流数据库，流数据库是在流处理技术逐渐走向成熟、普惠过程中发展出来的。在流处理的初级阶段，流存储、流计算是分离的，使用方式主要通过 SDK API 编程来实现。现在到了流处理的普及阶段，流处理的门槛进一步降低，流表一体化理论也走向成熟，用户可以基于传统数据库的概念、声明式的 SQL 语句来完成业务的流处理，技术学习门槛降低，效率进一步提升。

那流数据库和传统数据库有什么区别呢？我们来看下面的表格。首先，传统数据库的操作对象是表格，是由外部动作发起的面向静态数据的一次性查询，在这个过程中数据是静态的；而流数据库是相反的，是源源不断的流数据触发持续查询，数据是动态的、主动的，查询是被动的。

下图就是一个典型的流数据库的使用方式，通过一条 SQL 就可以完成流的过滤、窗口计算、聚合计算等能力。

1.RSQLDB 概览

面向流处理发展趋势，RocketMQ 5.0 推出了 RSQLDB，这是一款基于标准 SQL 来进行持续查询动态表的流数据库，支持了大量传统数据库的使用模式，包括 DDL、DML、查询和各种函数。下图是 RSQLDB 的架构图，它也是基于 RocketMQ 的一体化技术，底层是 RocketMQ 的流存储 + RStreams 的流计算原子能力，在这些能力之上提供了 SQL 解析器，把用户 SQL 转化为物理的流处理过程，最上层提供了多种形态的客户端，包括 SDK、控制台和命令行工具。

2.RSQLDB 示例

最后我们来看一个 RSQLDB 的典型示例，这个案例想要把电影票购买信息流和购买人信息流合并，最后输出购买人信息 + 电影票信息的完整输出流。

首先，我们用 RSQLDB 创建两张表，把 topic 数据流转化为表的抽象。然后，创建一个视图，这个视图是来自购买人信息和电影票购买信息流的双流合并后的视图，基于购买人 ID 进行 Join。最后，我们再创建一个结果表，把这个双流 Join 的视图写入到这个输出到结果表里。

这样我们就通过一些简单的声明式的 SQL 语句来完成的一个双流 Join 的流处理过程。

总结

这篇文章，我们系统的介绍了流处理的场景，从数据的摄入、存储到计算，它的优势是提升数字化业务实时响应的能力。RocketMQ 原生的轻量流计算框架，是基于 RocketMQ 的整流存储，本文也带大家了解了实现一个完整的一体化处理的能力。最后，我们对于 RocketMQ 的流处理，做了进一步的升华，就是把 RocketMQ 的流存储跟流计算融为一体，提供流数据库的使用形态，降低流处理的使用门槛。

作者：林清山

原文链接

本文为阿里云原创内容，未经允许不得转载。

云原生最佳实践系列 3：基于 SpringCloud 应用玩转 MSE

2024-04-19T15:52:58+08:00

概述

随着业务不断创新，大型的单个应用和服务会被拆分为数个甚至数十个微服务，微服务架构已经被广泛应用。微服务的好处在于快速迭代，迭代过程保障线上流量不受损。依赖开源产品缺少专业运维工具，常常需要投入较大的运维人力和成本。

本实践基于云原生应用产品提供微服务注册配置中心、微服务治理和云原生网关等一系列高性能和高可用的企业级云服务能力。

场景描述

针对已经启用微服务架构或者准备改造为微服务架构的用户，通过实践熟悉云上基于云原生产品的微服务架构实践，熟悉服务注册和网关路由配置、全链路灰度发布、无损上下线、限流降级能力验证等。

方案架构

方案优势

本实践通过云速搭 CADT，一键完成基础环境的搭建和部署，提供可视化部署方案和 step by step 实操指导：

高可靠：支持多可用区容灾，具备完善的流量防护、健康检测、自动恢复等能力，优化大量可用性痛点，保证引擎持久稳定运行。
低成本：节省用户自建网关、注册配置中心、微服务治理体系的人力成本，高性能及高集成度可进一步降低资源成本。
易用性：100% 兼容开源社区产品 Nacos、ZooKeeper 和 Eureka；应用代码、配置、镜像无须修改即可接入微服务治理，体验 MSE 服务治理能力。
高度集成：与阿里云产品体系无缝对接。例如容器服务、日志服务、应用监控、Web 应用防火墙等，为您提供一站式的微服务解决方案。

产品介绍

专有网络（Virtual Private Cloud，简称 VPC）帮助您基于阿里云构建一个逻辑隔离的云上数据中心。专有网络由逻辑网络设备（如虚拟路由器，虚拟交换机）组成，可以通过专线/VPN 等连接方式与传统数据中心组成一个按需定制的网络环境，实现应用的平滑迁移上云。

微服务引擎 MSE（Microservice Engine）是面向业界主流开源微服务项目，提供注册配置中心和分布式协调（原生支持 Nacos/ZooKeeper/Eureka）、云原生网关（原生支持 Higress/Nginx/Envoy，遵循 Ingress 标准）、微服务治理和分布式任务调度能力（兼容开源 XXL-JOB/ElasticJob/K8sJob/Spring Schedule）。

容器服务 Kubernetes 版（简称 ACK）提供高性能且可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。在 2021 年，ACK 成为国内唯一连续三年入选 Gartner 公共云容器报告的产品，同时在 2022 年成为国内唯一进入 Forrester 领导者象限的产品。ACK 整合了阿里云的虚拟化、存储、网络和安全能力，助力企业高效运行云端 Kubernetes 容器化应用。

云消息队列 MQ（RocketMQ）是构建分布式互联网应用的基础设施，通过 MQ 实现的松耦合架构设计可以提高系统可用性以及可扩展性，是适用于现代应用的优秀设计方案。MQ 产品生态丰富，多个子产品线联合打造金融级高可用消息服务以及对物联网的原生支持，覆盖金融保险、（新）零售、物联网、移动互联网、教育、物流、能源、交通等行业。

弹性公网 IP 是独立的公网 IP 资源，可与阿里云专有网络 VPC 类型的云服务器 ECS、NAT 网关、ENI 网卡、私网负载均衡 SLB 绑定，并可以动态解绑满足灵活管理的要求。弹性公网 IP 可为您在云上部署的网站提供 Internet 访问服务。

NAT 网关（NAT Gateway）提供公网 NAT 和私网 NAT 两种功能。公网 NAT 网关通过自定义 SNAT、DNAT 规则可为云上服务器提供对外公网服务、及主动访问公网能力；私网 NAT 网关(也即 VPC NAT 网关)可使 VPC 内的 ECS 实例通过私网地址转换服务，实现 VPC 与 VPC 之间、及 VPC 与线下 IDC 互访能力。

云速搭 CADT （ Cloud Architect Design Tools）是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构，用户可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

前置条件

在进行本文操作之前，您需要完成以下准备工作：

操作步骤

关键技术

1.1. 治理趋势
1.2. 网关选型

实践架构设计

2.1. 架构图

2.2. 核心模块

2.3. 基础资源环境规划

基础环境搭建

3.1. 基于模版新建环境

云产品访问验证

4.1. 确认资源运行情况

4.2. 基础环境访问验证

验证服务注册与网关路由

5.1. ACK 集群部署应用

5.2. 查看服务注册情况

5.3. mseprovider 验证

5.4. 验证网关流量转发

5.4.1. 创建服务

5.4.2. 创建路由

5.4.3. 验证路由效果

全链路灰度能力验证

6.1. ACK 应用接入 MSE 治理中心

6.2. ACK 中应用添加灰度标

6.3. 实现同步调用全链路灰度

6.3.1. 设置服务版本

6.3.2. 核对基线版本路由

6.3.3. 创建全链路灰度泳道组

6.3.4. 创建分流泳道

6.3.5. 效果演示

6.4. 实现异步消息全链路灰度

6.4.1. 开启异步消息全链路灰度

6.4.2. 核对 MQ 的过滤条件

无损上下线验证

7.1. 无损下线能力验证

7.1.1. 手动关闭无损下线

7.1.2. 通过脚本发起请求

7.1.3. 流量损失对比验证

7.2. 无损上线能力验证

7.2.1. 配置定时伸缩

7.2.2. 配置无损上线

7.2.3. 通过脚本发起请求

7.2.4. 观察预热曲线

限流降级验证

8.1. 升级到企业版

8.2. 设置流控规则

8.3. 脚本请求和降级效果

8.4. 新增熔断规则和接口

8.5. 调整慢调用生效

8.6. 熔断效果展示

一键释放云资源

原文链接

本文为阿里云原创内容，未经允许不得转载。

适应多样化需求：WASM 插件在全链路灰度发布中的应用

2024-04-17T16:31:42+08:00

据调研数据显示，约 70% 的生产故障是由变更引起的。为了消除变更过程存在的风险，在发布过程中，我们总是希望能够用小部分特定流量来验证下新发布应用是否正常。即使新版本有问题，也能及时发现，控制影响面，保障了整体的稳定性，这就是微服务架构下的全链路灰度的能力。

MSE 在微服务全链路灰度场景下提供了一套成熟完善且开箱即用的能力。

随着企业微服务化改造的深入，对微服务治理的场景与应用也有了更多的诉求，全链路灰度就是如此。MSE 默认支持按照内容规则与百分比规则的灰度路由策略，其中按照内容灰度支持 header、params 等参数件支持精确/前缀/正则等多种匹配策略，满足常见全链路灰度场景的诉求。

如果我们遇到较为复杂的场景，发现 MSE 提供的策略无法满足我们诉求时，应该怎么解决？

接下来，我们来一起讨论几个合理且较为复杂的灰度需求。

很多复杂且合理的灰度诉求

其实关于全链路灰度有其他很多合理的诉求，比如：

我们希望随机百分比可以根据参数特征来调整，这样对于每个用户来说，是否被灰度是固定的，多次调用体验一致。
我们来自于手机客户端的流量带有 version 特征、来自网页流量又是带有 tag 的特征，我们期望两者满足任一条件的流量去往灰度环境即流量条件匹配为“或”的模式；
来自我们生产流量确实比较大，我们期望第一批灰度的流量可以控制到整体 1‰ 流量的灰度诉求；
我们期望可以基于流量 Body 参数解析的灰度诉求。

面对一系列复杂并带有定制需求的合理诉求，产品层面很难做到完全支持。这些诉求在企业客户的生产实际中非常常见，而当前的 MSE 控制台配置方案似乎并不能完美应对这些多样化的实际场景。毕竟，当我们将目光转向不同企业客户的生产实践时，会发现复杂场景的变化和多样性只会更加显著。那么，我们如何能够有效地满足复杂环境下全链路灰度发布的诉求呢？

云原生网关 WASM 插件

什么是 WASM？WASM（WebAssembly）是一种可移植、高性能的二进制指令集，用于在 Web 浏览器中运行代码。Envoy 使用 WASM 作为插件扩展机制，允许开发人员编写自定义的功能扩展，以满足特定的需求。

云原生网关 WASM 插件扩展机制的工作原理如下：

MSE 云原生网关提供了插件市场，供我们编写自定义的 WASM 插件来满足各种扩展的诉求，如请求/响应转换、过滤器、身份验证等。同时编写 WASM 插件支持(Go、Rust、类 JS、lua 等)。
我们只需要将编译好的 WASM 文件通过自定义插件的方式上传到插件市场，MSE 云原生网关会将其加载到 Envoy 中。
当云原生网关处理网络流量时，它会根据配置将流量传递给适当的 WASM 插件进行处理，即上图的 Custom Filters。WASM 插件可以读取和修改请求/响应数据，执行自定义逻辑，并将流量传递给下一个插件或最终目标。

MSE 插件市场还提供了一些默认认证鉴权、流量管控、安全防护等平台官方插件，可以帮助我们提升网关的安全与稳定性，并且支持多语言自定义扩展，满足网关上自定义流量治理需求。

MSE WASM 插件扩展机制的优点包括：

借助 WASM 特性支持多语言扩展，提供了灵活性和可扩展性，可以通过 WASM 插件编写开发，满足特定的业务需求。
网关 Wasm 插件与开源 Envoy100% 兼容，不存在锁定。
提供插件市场，网关的二次扩展功能均通过插件提供给用户按需使用。
插件采用热更新机制，在沙盒中执行，对网关自身稳定性无影响。

WASM 插件以其独特的轻量级和高效性能特点，为云原生网关带来了创新的扩展能力，而这一切不会带来明显的性能开销。WASM 插件运行在沙箱环境中，提供了一种安全可控的方式来部署自定义逻辑，这样不仅保障了网关的灵活性和可扩展性，也确保了对整体性能的最小影响。

看起来 MSE 云原生网关的 WASM 插件确实是一种优雅且便捷的方式，能够满足各种全链路灰度的需求。接下来，我将通过编写 WASM 插件来实现在复杂条件下的全链路灰度。

通过 WASM 插件实现参数比例

上文提到，WASM 插件可以支持多语言扩展，我们可以选择我们擅长的语言进行开发，本文以 Go 语言为例。

云原生网关提供了 wrapper 包以及相关的 API 供我们快速编写 WASM 插件。

云原生网关配置基于 x-mse-tag 的灰度路由，详见基于 MSE 云原生网关实现全链路灰度[1]。

服务治理泳道配置如下：

云原生网关路由配置如下：

我们创建灰度泳道，只要 header 中存在 x-mse-tag=gray 的请求都会被认为是灰度流量，且在后续链路中都会优先去往灰度环境。因此在 WASM 插件中，我们可以对流量进行任意自定义的计算和匹配。只要符合我们的灰度条件，我们就可以在请求头中添加一个名为 "x-mse-tag" 值为 "gray" 的标识。这样，我们就可以对灰度流量进行标记和识别。

定义插件扩展配置。

type ParamsRandomConfig struct {
    # 参数比例功能开关
    paramsRandomEnable    bool
    # 参数比例依据哪个Header的值，例如userId
  paramsRandomHeaderKey string
    # 参数比例的百分比值，
    paramsPercentageRatio     int64
}

解析插件扩展参数，在控制台插件配置中填写的 YAML 配置会自动转换为 JSON，此处直接从 JSON 这个参数里解析配置即可。

// 在控制台插件配置中填写的YAML配置会自动转换为JSON，此处直接从JSON这个参数里解析配置即可
func parseConfig(json gjson.Result, config *MyConfig, log wrapper.Log) error {
  // 解析出配置，更新到config中
  config.paramsRandomEnable = json.Get("paramsRandomEnable").Bool()
  config.paramsRandomHeaderKey = json.Get("paramsRandomHeaderKey").String()
  config.paramsPercentageRatio = json.Get("paramsPercentageRatio").Int()

  return nil
}

请求处理 Filter 编写。

func onHttpRequestHeaders(ctx wrapper.HttpContext, config MyConfig, log wrapper.Log) types.Action {
  if config.paramsRandomEnable {
    randomHeaderValue, err := proxywasm.GetHttpRequestHeader(config.paramsRandomHeaderKey)
    if err != nil {
      proxywasm.LogErrorf("get header enhance error: %v", err)
      return types.ActionContinue
    }

    // 取目标参数值的 hash ，用于百分比值计算
    hash := sha256.Sum256([]byte(randomHeaderValue))
    hashInt := new(big.Int)
    hashInt.SetBytes(hash[:])

    modulo := new(big.Int).Mod(hashInt, big.NewInt(100))
    result := modulo.Cmp(big.NewInt(config.paramsPercentageRatio))
    if result <= 0 {
      // 写入 x-mse-tag=gray 说明该请求流量标为 gray，在后续链路中会优先去玩gray环境的节点，
      // 如果对应的应用没有gray环境，会fallback到基线环境
      proxywasm.AddHttpRequestHeader("x-mse-tag", "gray")
    } else {
      // 不符合灰度条件的流量
      proxywasm.LogInfof("set header false value: %s, hash: %s", randomHeaderValue, hashInt)
    }
  }
  return types.ActionContinue
}

编译生成 WASM 文件

我们通过如下命令编译生成 WASM 文件。

go mod tidy
tinygo build -o main.wasm -scheduler=none -target=wasi -gc=custom -tags='custommalloc nottinygc_finalizer' ./main.go

编译成功会在当前目录下创建文件 main.wasm。该文件在下文本地调试的示例中也会被用到。

在使用云原生网关插件市场的自定义插件功能时，直接上传该文件即可。

配置参数并验证参数比例功能

如上图所示，我们指定 Header 中的 userId 为百分比依据的参数，并且配置了 10% 流量灰度的比例值。点击保存后配置，实时生效。

请求过程中 userId=1 的 header 恒定去往灰度环境，userId=11 的请求恒定去往基线环境。

观察插件日志

到目前为止，我们通过编写 WASM 插件实现了根据特定 Header 的参数比例需求。

总结

通过 WASM 插件，我们可以实现各种全链路灰度的需求，包括但不限于以下几个方面：

根据用户标识进行灰度

可以根据用户的身份、角色、权限等信息将特定用户的请求路由到相应的灰度环境，以实现个别用户的全链路灰度。

根据地理位置进行灰度

可以根据用户的地理位置信息将请求路由到特定地区的灰度环境，以满足特定地区的全链路灰度需求。

基于流量比例的灰度

可以根据流量比例将请求路由到不同的灰度环境，以实现按比例分配流量的全链路灰度。

基于请求包复杂属性的灰度

可以根据请求的属性，如请求头、请求体、查询参数等信息，来判断是否满足特定条件，从而路由请求到相应的灰度环境。

利用 WASM 插件的强大适应性，我们可以针对性地编写插件以适应不同的全链路灰度发布需求。这为定制化业务场景提供了无限的可能性，使得灰度测试和发布可以根据独特的业务要求灵活执行。特别是对于计算密集型和无状态的任务，如认证鉴权、请求/响应的加密和混淆、内容转换等，将这些逻辑部署在网关层是理想选择。它不仅保持了系统的简洁和灵活性，而且确保了核心网关功能的低性能损失，这在优化资源使用和维护服务品质方面都提供了显著的好处。

目前 MSE WASM 插件支持 Redis 访问，当然 WASM 插件也不是万能的，如果逻辑里需要对接数据库，或者要起多线程处理，就不适合做成网关插件，当前 WASM 插件也不支持这些能力。

参考链接：

[1] 基于 MSE 云原生网关实现全链路灰度

https://help.aliyun.com/zh/mse/user-guide/implement-an-end-to...

[2] 开发插件_微服务引擎(MSE)

https://help.aliyun.com/zh/mse/user-guide/14/?spm=a2c4g.11186...

作者：十眠

原文链接

本文为阿里云原创内容，未经允许不得转载。

微调工程师岗位可能并不存在，但使用 AI 编码工具已经成为刚需

2024-04-17T10:50:32+08:00

智能编码工具的快速普及是否会带来全新的编程模式？“大力出奇迹”的规律还将继续适用吗？本文节选自 QCon 北京特别策划圆桌节目，内容摘自阿里云通义灵码产品技术负责人陈鑫在圆桌对话里的精彩回答。全文见：Sora很难跟进？微调就不是一个岗位？大力出奇迹将继续适用？大模型将对软件生态带来哪些变化？

观点 1：智能编码工具将被更加广泛的应用，甚至出现全新的编程模式。不擅长利用大模型来辅助代码开发的程序员未来一段时间将被淘汰。

陈鑫（神秀）：去年，ChatGPT 火了以后，我们立即开始着手利用大模型技术进行代码智能生成方向的工作。在此之前，我们已经有些探索，我们团队大约在 2021 年开始尝试代码工具的研发。起初，我有些悲观，因为我觉得以现在的投入，无论是在数据、算法还是人才方面，都无法超过当时 GitHub 的投入。随着大语言模型的火热，我们意识到这个方向的商业化价值以及给开发者带来的价值都是巨大的。因此，去年年初，通义灵码就成为通义系列大模型产品家族的一员。

通义灵码是一款基于通义大模型的智能编码助手，提供自然语言生成代码、单元测试生成、代码优化、注释生成、智能问答等能力，通义灵码上线 4 个月，目前下载量已经超过 130 万，在国内 AI 编码工具领域使用率第一。但是，从最开始的产品发布、到现在灵码的产品能力获得用户的一致好评，这中间我们经历了非常多的困难。

最开始，我们尝试了基于开源模型，然后基于通义的基础模型进行训练，这其中挑战与机遇并存。一方面，我们感觉与 Github Copilot 的差距在逐步缩小，但我们也非常担心出现 Sora 这种情况，即突然有一个全新的架构或算法来颠覆我们之前的努力。另一方面，从国内接受度来看，最近一些媒体包括我们自己也进行了广泛调研，发现开发者对 AI 编码工具的接受度非常高，甚至有报道称 80% 到 90% 的开发者都在采用相关工具，这就意味着这种生产力工具对开发者的价值是实实在在的。

代码智能生成工具可能是业内最成功的大模型相关应用之一。我们现在跟很多客户接触，客户也觉得在基础模型的落地上需要探索很多场景，解决方案的复杂度很高，而代码模型的门槛非常低。我们发现大模型代码生成在 IDE 编码场景下非常适合当前的技术现状，因为不仅用户的接受度高，而且特别适合当前的技术现状。我认为它在这个领域的成功可能是必然。

我们最近访谈了很多企业，发现一些先驱型企业已经在思考如何使他们的代码框架和研发模式适应 AI。这可能是许多人未曾思考过的问题，如今 AI 对代码的理解方式还存在一定局限性，但我们可以通过一些调整让 AI 生成的准确率更高。

我们最近访谈的一个客户，他们的做法是让高级工程师用自然语言编写伪代码，然后将其定义好的数据和接口与自然语言注释一起交给大模型生成代码。然后初级工程师对其进行修正，这样提高了研发效率，也提升了高级工程师的价值。初级工程师的效率也得到了提升，整体上提升了专业性，不再是一个人从头到尾完成。这种方式避免了重复工作和精力浪费，企业未来可能会考虑采用所谓的 AI 原生（AI Native）研发模式。

国外一些项目已经尝试使用自然语言框架，按照 AI 理解的方式生成代码，大模型帮助生成整个工程的代码，生成的代码既有注释又有代码，这样如果出现变更，大模型可以很容易理解它自己生成的代码，形成良性循环。我认为这可能会在一年内实现，随着基础模型能力和理解力的提升以及 AI 原生编程框架的发展，可能会出现全新的代码编写模式。

观点 2：开放模型拥有广阔的前景，大模型未来的竞争很可能是流量入口之争、是生态之争。而谷歌是否会将 Gemma 开放模型融入 Android 和 Chrome 生态是值得期待的。

陈鑫（神秀）：在模型开源方面，阿里云做了很多工作，包括开源了 7B、14B 等模型，前几个月还开源了 72B 和 72B 模型的 1.5 版本。我们内部也是通过外面媒体得知有新版本的消息，之后才进行模型的升级。我觉得阿里云在开源领域非常用心，特别是在通义团队这边。

开源模型对企业，尤其是中大型企业的整体业务能力构建起到了关键作用。有了开源版本，企业可以以较低的成本进行实验，而不必花费大量资金购买商业化模型。企业可以先利用开源模型做一些实验，并结合一些 Prompt 的调优，就可以得到比较好的结果。

从我对企业的观察来看，开源对大模型产业的推进非常关键。我担忧现在模型参数量的增加会带来更大的算力需求。虽然开源模型的参数量越来越大，但企业面临的最大难题仍然是缺乏足够的算力。即使是 2B 模型的训练成本也很高，而现在很多企业甚至连推理资源都买不到，更别说进行训练了。企业需要考虑在公共云上构建训练，而不是自建。很多企业过去可能不考虑上公共云，但是现在这个问题可能会长期存在。企业需要权衡自建和使用公共云的成本，并考虑自建是否会导致错过竞争优势。

虽然现在各个厂商都在推动开源，但是将开源的价值真正落到企业的生产效益中仍然面临许多挑战。但我相信各个厂家已经意识到了这一点，并且可能会在未来几个月推出更多的芯片，希望能够解决企业面临的算力问题，包括云上算力的问题，希望我们能够尽快度过这个难关。

观点 3：简单的标注被 AI 取代，复杂标注对“人”的要求越来越高。

陈鑫（神秀）：这个话题我们非常感同身受，因为代码大模型的质量与高质量数据息息相关。提升模型本身的能力主要依赖于高质量数据，而代码领域又是一个专业的领域。过去几个月，我们花费了大量时间和资深专家去处理数据，只有将数据处理到足够好，才能获得更好的调优结果。

代码优化是一项艰巨的任务。我们需要确定有问题的代码，解决 bug 后优化的代码，优化的原因可能是风格问题、内存泄漏或安全性问题等。数据收集、处理和分析是关键，对下游任务的影响很大。我们在调整大模型以准确预测开发者行为和生成期望结果的过程中，需要处理大量数据，包括各种语言的语法分析、切分和数据构造等。预训练过程中可能会发现数据处理中的 bug，导致生成代码中出现语法错误或不合适的情况，需要返回修正。这一工作量较大且需要资深专家。

刚开始的阶段，人们可能认为数据标注不需要大量人工，会考虑使用 AI 代替，但随着深入了解，发现这些看似容易的事情实际上还是需要专家去做。未来，有经验的程序员可能会投入更多时间到企业内部的数据标注和处理，并训练企业专属的代码模型，以生成符合企业规范要求的代码。

GitHub Copilot 过去一直未推出企业个性化套件，直到最近才推出了类似于私有化模型的训练方法，通义灵码的个性化套件也将在 4 月份上线。我们预测接下来的趋势是，各个企业的员工可能都在尝试使用 AI 工具进行编码，随后各公司可能需要专人投入到数据处理和标注，以训练企业私有模型。

对于专家和工程师来说，尤其是那些曾经从事代码框架、中间件、规范、基础 SDK 和 API 开发的人，他们首先会将这些内容编写出来，然后将这些内容融入到大模型中，以便所有人都能从代码生成中受益，这是未来各企业需要考虑的重要问题。

观点 4：通过公共云平台获取算力是算力紧缺的当下值得企业认真考虑的解决方案，短期内我们可能很难摆脱“大力出奇迹”的规律。

陈鑫（神秀）：在代码领域，我们观察到一个明显的趋势：具有较大参数量的模型（例如 72B）在推理能力和理解能力上，尤其是处理长上下文方面，表现得比小参数模型要好得多。例如，当你要求模型为 1,000 行代码生成注释或单元测试时，小参数模型可能在处理前一两百行代码时还能保持正常，但随后性能会逐渐下降，甚至可能出现偷懒、忘记任务或开始出错的情况，而参数量较大的模型则能更好地处理这些问题。

我认为在一段时间内，尤其是在代码领域，我们无法摆脱“大力出奇迹”的规律。对于一些简单的任务，使用非常大的参数模型可能并不必要。例如，在通义灵码平台上，线上也并不全是使用千亿参数的模型。我们有不同参数规模的模型，如百亿参数、几十亿参数的模型，并且会根据任务的不同，将任务调度到相应的模型上。我们也在尝试形成各种专家模型的组合，并计划进行 DevOps 整个全链路的智能化改造。这有点类似于企业的流程再造，只是 DevOps 的软件生产流程与企业生产流程相似。在这个流程中，并不是所有的任务都需要使用非常大的参数模型。我们可以通过组合各种不同参数规模的模型，以及训练出的下游任务能力，来完成流程的改造。

我认为，使用多大规模的模型是需要企业去不断尝试的。但首先，我们需要解决算力问题。一旦解决了初始的算力问题，我们就可以开始逐步前进。至于后续的芯片问题，我相信最终也会得到解决。包括许多互联网大厂和国内顶尖的芯片制造企业，现在都在努力去创造一些改变。

观点 5：微调工程师岗位可能并不存在，但微调是一项必备技能，了解业务并将其需求转化为真正的 Prompt 才是真正的价值点。

陈鑫（神秀）：如果你想要进行微调，但不理解业务，那么你的价值就会非常有限。如果将微调定义为一个岗位，那么这个岗位应该具有深厚的价值，并且需要长期的积累和能力。

如果这个岗位的价值和能力很容易被替代，或者很容易学习，那么它可能就不会成为一个独立的岗位。以我们的例子来说，通义灵码本身就包含了一个非常简单的微调训练平台。这是因为我们把工程师在微调代码模型的所有经验都内置到了平台中，并且添加了一些配置。一个工程师通过一两天的培训，基本上就能掌握这些概念，开始进行微调工作。在代码领域，至少在我看来，这个门槛并没有大家想象的那么高。但在其他领域，门槛可能会更高。

对于专家知识来说，如何选择合适的数据、如何处理数据、如何解决出现的问题、如何校正训练不佳的模型、如何通过不断实验训练出符合预期的模型，以及是否清楚自己训练模型的目的，这些都是微调工程师需要考虑的问题。例如，如果你想要微调模型以理解特定的 SDK 库，并在代码补全时生成可以直接调用企业内部 SDK 或 API 的代码，那么你需要考虑如何教会模型实现这一点，构造什么样的数据，如何标注数据，以及如何筛选和处理数据。这些问题可能不是一个简单的微调工程师就能解决的。

未来，像原来的效能工程师或者中台的资深研发人员可能都需要具备微调的能力，将自己的代码资产训练到大模型中，让整个公司的人都能使用。所以，未来每个人都需要具备理解模型、处理数据和进行微调的能力，如果这成为一个必备技能，那么就不会存在一个专门称为“微调工程师”的岗位了。

观点 6：2024 年，Agent 将率先在 B 端落地。今年下半年，我们预计将看到大量 Agent 相关的实践和落地案例。

陈鑫（神秀）：关于 AI Agent 的话题，我认为今年它肯定会非常火热，甚至在代码领域也会受到关注。根据当前的趋势，我们可以预见这个过程将分为几个步骤。首先，大家会开始采用能够进行代码生成或续写的模型。接下来，会进行企业个性化的定制。正如我们之前讨论的微调，实际上已经涉及到了这个过程。然后，我们会进一步扩展这些模型的能力，目标是提高整个软件生产链条的效率。为了实现这一目标，我们肯定会利用 AI Agent 技术。

在没有模型的时候，我们需要训练这个“大脑”，然后通过像通义灵码这样的平台，专注于完成最核心、价值最大的任务。完成这些任务后，接下来就是构建 AI Agent。我们会搭建好平台，让各个企业基于这个平台构建自己的 AI Agent。研发领域的场景可能有上百甚至几百个，如果每个企业都进行个性化定制，那将是成千上万的需求，这显然不是一个团队能够独立完成的。

现在，各方面的技术探索已经非常成熟，我认为今年确实是 AI Agent 落地的关键一年。经过去年一年对模型和参数的优化，今年我们应该开始考虑企业个性化以及 AI Agent 的实际应用。我们已经看到，2024 年将有大量行业领先的客户开始在代码生成或代码助手领域落地。一旦他们起到了带头作用，相关的实践经验将会被大家所看到。

目前，我们在网上很少看到关于 AI Agent 实践的案例，这是因为整个行业还没有发展到那一步。预计 6 月份之后，将会有实践经验出现，下半年将会有大量 AI Agent 落地的场景和效果展示的文章，我对 AI Agent 的发展前景抱有极大的期望，这也是我们今年建设的重点。

原文链接

本文为阿里云原创内容，未经允许不得转载。

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

2024-04-15T17:15:14+08:00

背景介绍

阿里云向量检索 Milvus 版是一款 Serverless 全托管服务，确保了与开源 Milvus 的完全兼容性，并支持无缝迁移。它在开源版本的基础上增强了可扩展性，能提供大规模 AI 向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警，Milvus 云服务成为多样化 AI 应用场景的理想选择，包括多模态搜索、检索增强生成（RAG）、搜索推荐、内容风险识别等。您还可以利用开源的 Attu 工具进行可视化操作，进一步促进应用的快速开发和部署。

阿里云向量检索 Milvus 版已开启免费公测。您可以在E-MapReduce控制台，选择 EMR Serverless > Milvus，进入 Milvus 页面创建入门版的实例，公测期间您可以免费试用 Milvus 服务。

前提条件

已创建 Milvus 实例。具体操作，请参见快速创建Milvus实例。
已开通服务并获得 API-KEY。具体操作，请参见开通DashScope并创建API-KEY。

使用限制

请确保您的运行环境中已安装 Python 3.8或以上版本，以便顺利安装并使用 DashScope。

操作流程

准备工作

1.安装相关的依赖库。

pip3 install pymilvus tqdm dashscope

2.下载所需的知识库。

本文示例使用了公开数据集 CEC-Corpus。CEC-Corpus 数据集包含332篇针对各类突发事件的新闻报道，语料和标注数据，这里我们只需要提取原始的新闻稿文本，并将其向量化后入库。

git clone https://github.com/shijiebei2009/CEC-Corpus.git

步骤一：知识库向量化

1.创建 embedding.py 文件，内容如下所示。

import os
import time
from tqdm import tqdm
import dashscope
from dashscope import TextEmbedding
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility


def prepareData(path, batch_size=25):
    batch_docs = []
    for file in os.listdir(path):
        with open(path + '/' + file, 'r', encoding='utf-8') as f:
            batch_docs.append(f.read())
            if len(batch_docs) == batch_size:
                yield batch_docs
                batch_docs = []
                
    if batch_docs:
        yield batch_docs
        
        
def getEmbedding(news):
    model = TextEmbedding.call(
        model=TextEmbedding.Models.text_embedding_v1,
        input=news
    )
    embeddings = [record['embedding'] for record in model.output['embeddings']]
    return embeddings if isinstance(news, list) else embeddings[0]


if __name__ == '__main__':
    
    current_path = os.path.abspath(os.path.dirname(__file__))   # 当前目录
    root_path = os.path.abspath(os.path.join(current_path, '..'))   # 上级目录
    data_path = f'{root_path}/CEC-Corpus/raw corpus/allSourceText'  # 数据下载git clone https://github.com/shijiebei2009/CEC-Corpus.git
    
    # 配置Dashscope API KEY
    dashscope.api_key = 'sk-630319159edb4e97a614f17f9609****'
    
    # 配置Milvus参数
    COLLECTION_NAME = 'CEC_Corpus'
    DIMENSION = 1536
    MILVUS_HOST = 'c-97a7d8038fb8****.milvus.aliyuncs.com'
    MILVUS_PORT = '19530'
    USER = 'root'
    PASSWORD = '<password>'
    
    connections.connect(host=MILVUS_HOST, port=MILVUS_PORT, user=USER, password=PASSWORD)
    
    # Remove collection if it already exists
    if utility.has_collection(COLLECTION_NAME):
        utility.drop_collection(COLLECTION_NAME)
    
    # Create collection which includes the id, title, and embedding.
    fields = [
        FieldSchema(name='id', dtype=DataType.INT64, descrition='Ids', is_primary=True, auto_id=False),
        FieldSchema(name='text', dtype=DataType.VARCHAR, description='Text', max_length=4096),
        FieldSchema(name='embedding', dtype=DataType.FLOAT_VECTOR, description='Embedding vectors', dim=DIMENSION)
    ]
    schema = CollectionSchema(fields=fields, description='CEC Corpus Collection')
    collection = Collection(name=COLLECTION_NAME, schema=schema)
    
    # Create an index for the collection.
    index_params = {
        'index_type': 'IVF_FLAT',
        'metric_type': 'L2',
        'params': {'nlist': 1024}
    }
    collection.create_index(field_name="embedding", index_params=index_params)
    
    id = 0
    for news in tqdm(list(prepareData(data_path))):
        ids = [id + i for i, _ in enumerate(news)]
        id += len(news)
        
        vectors = getEmbedding(news)
        # insert Milvus Collection
        for id, vector, doc in zip(ids, vectors, news):
            insert_doc = (doc[:498] + '..') if len(doc) > 500 else doc
            ins = [[id], [insert_doc], [vector]]  # Insert the title id, the text, and the text embedding vector
            collection.insert(ins)
            time.sleep(2)

本文示例涉及以下参数，请您根据实际环境替换。

在 Attu 中您可以看到创建的 Collection，具体操作请参见 Attu操作指南。

在本文示例中，我们将 Embedding 向量和新闻报道文稿一起存入 Milvus 中，同时构建索引类型采用了 IVF_FLAT，在向量检索时，同时可以召回原始文稿。

步骤二：向量检索与知识问答

数据写入完成后，即可进行快速的向量检索。在通过提问搜索到相关的知识点后，我们可以按照特定的模板将“提问 + 知识点”作为 prompt 向 LLM 发起提问。在这里我们所使用的 LLM 是通义千问，这是阿里巴巴自主研发的超大规模语言模型，能够在用户自然语言输入的基础上，通过自然语言理解和语义分析，理解用户意图。通过提供尽可能清晰详细的指令（prompt)，可以获得更符合预期的结果。这些能力都可以通过通义千问来获得。

本文示例设计的提问模板格式为：请基于我提供的内容回答问题。内容是{___}，我的问题是{___}，当然您也可以自行设计合适的模板。

创建 answer.py 文件，内容如下所示。

import os
import dashscope
from dashscope import Generation
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection
from embedding import getEmbedding


def getAnswer(query, context):
    prompt = f'''请基于```内的报道内容，回答我的问题。

      {context}
      ```
      我的问题是：{query}。
   '''

rsp = Generation.call(model='qwen-turbo', prompt=prompt)
return rsp.output.text

def search(text):

# Search parameters for the index
search_params = {
    "metric_type": "L2"
}

results = collection.search(
    data=[getEmbedding(text)],  # Embeded search value
    anns_field="embedding",  # Search across embeddings
    param=search_params,
    limit=1,  # Limit to five results per search
    output_fields=['text']  # Include title field in result
)

ret = []
for hit in results[0]:
    ret.append(hit.entity.get('text'))
return ret

if name == '__main__':


current_path = os.path.abspath(os.path.dirname(__file__))   # 当前目录
root_path = os.path.abspath(os.path.join(current_path, '..'))   # 上级目录
data_path = f'{root_path}/CEC-Corpus/raw corpus/allSourceText'

# 配置Dashscope API KEY
dashscope.api_key = 'sk-630319159edb4e97a614f17f9609****'

# 配置Milvus参数
COLLECTION_NAME = 'CEC_Corpus'
DIMENSION = 1536
MILVUS_HOST = 'c-97a7d8038fb8****.milvus.aliyuncs.com'
MILVUS_PORT = '19530'
USER = 'root'
PASSWORD = '<password>'

connections.connect(host=MILVUS_HOST, port=MILVUS_PORT, user=USER, password=PASSWORD)

fields = [
    FieldSchema(name='id', dtype=DataType.INT64, descrition='Ids', is_primary=True, auto_id=False),
    FieldSchema(name='text', dtype=DataType.VARCHAR, description='Text', max_length=4096),
    FieldSchema(name='embedding', dtype=DataType.FLOAT_VECTOR, description='Embedding vectors', dim=DIMENSION)
]
schema = CollectionSchema(fields=fields, description='CEC Corpus Collection')
collection = Collection(name=COLLECTION_NAME, schema=schema)

# Load the collection into memory for searching
collection.load()

question = '北京中央电视台工地发生大火，发生在哪里？出动了多少辆消防车？人员伤亡情况如何？'
context = search(question)
answer = getAnswer(question, context)
print(answer)


运行完成后，针对北京中央电视台工地发生大火，发生在哪里？出动了多少辆消防车？人员伤亡情况如何？的提问，会得到以下结果。

火灾发生在北京市朝阳区东三环中央电视台新址园区在建的附属文化中心大楼工地。出动了54辆消防车。目前尚无人员伤亡报告。

**[原文链接](https://developer.aliyun.com/article/1479040?utm_content=g_1000392701)**

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

2024-04-15T15:12:38+08:00

随着当前数据处理业务场景日趋复杂，对于大数据处理平台基础架构的能力要求也越来越高，既要求数据湖的大存储能力，也要求具备海量数据高效批处理能力，同时还可能对延时敏感的近实时链路有强需求，本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供近实时增全量一体的数据存储和计算（Transaction Table2.0）解决方案。

业务背景和现状

当前典型的数据处理业务场景中，对于时效性要求低的大规模数据全量批处理的单一场景，直接使用 MaxCompute 足以很好的满足业务需求。但随着 MaxCompute 承载的业务无论是规模，还是使用场景，都越来越丰富，在处理好大规模离线批处理链路的同时，用户对近实时和增量处理链路也有很多的需求，下图展示了部分业务场景。

比如近实时数据导入链路，依赖平台引擎具备事务隔离，小文件自动合并等能力，又比如增全量数据合并链路，还依赖增量数据存储和读写，主键等能力。MaxCompute以前不具备新架构能力之前，要支持这些复杂的综合业务场景，只能通过下图所示的三种解决方案，但无论使用单一引擎或者联邦多引擎都存在一些无法解决的痛点。

方案一，只使用单一的MaxCompute离线批处理解决方案，对于近实时链路或者增量处理链路通常需要转化成T+1的批处理链路，会一定程度上增加业务逻辑复杂度，且时效性也较差，存储成本也可能较高。方案二，只使用单一的实时引擎，那资源成本会较高，性价比较低，且对于大规模数据批处理链路的稳定性和灵活性也存在一些瓶颈。方案三，使用典型的Lambda架构，全量批处理使用MaxCompute链路，时效性要求比较高的增量处理使用实时引擎链路，但该架构也存在大家所熟知的一些固有缺陷，比如多套处理和存储引擎引发的数据不一致问题，多份数据冗余存储和计算引入的额外成本，架构复杂以及开发周期长等问题。这些解决方案在成本，易用性，低延时，高吞吐等方面互相制约，很难同时具备较好的效果，这也驱动着MaxCompute有必要开发新的架构既能满足这些业务场景需求，也能提供较低的成本和较好的用户体验。

近几年在大数据开源生态中，针对这些问题已经形成了一些典型的解决方案，最流行的就是Spark/Flink/Trino开源数据处理引擎，深度集成Hudi / Delta Lake / Iceberg / Paimon开源数据湖，践行开放统一的计算引擎和统一的数据存储思想来提供解决方案，解决Lamdba架构带来的一系列问题。同时MaxCompute近一年多在离线批处理计算引擎架构上，自研设计了离线&近实时数仓一体化架构，在保持经济高效的批处理优势下，同时具备分钟级的增量数据读写和处理的业务需求，另外，还可提供Upsert，Time travel等一系列实用功能来扩展业务场景，可有效地节省数据计算，存储和迁移成本，切实提高用户体验。

离线&近实时增全量一体化业务架构

上图所示即为MaxCompute高效支持上述综合业务场景的全新业务架构。写入端会融合多种数据集成工具将丰富的数据源近实时增量或批量导入到统一的MaxCompute表存储中，存储引擎的表数据管理服务会自动优化编排数据存储结构来治理小文件等问题；使用统一的计算引擎支持近实时增量和大规模离线批量分析处理链路；由统一的元数据服务支持事务机制和海量文件元数据管理。统一的新架构带来的优势也是非常显著，可有效解决纯离线系统处理增量数据导致的冗余计算和存储、时效低等问题，也能避免实时系统高昂的资源消耗成本，同时可消除Lambda架构多套系统的不一致问题，减少冗余多份存储成本以及系统间的数据迁移成本。简言之，一体化新架构既可以满足增量处理链路的计算存储优化以及分钟级的时效性，又能保证批处理的整体高效性，还能有效节省资源使用成本。

目前新架构已支持了部分核心能力，包括主键表，Upsert实时写入，Time travel查询，增量查询，SQL DML操作，表数据自动治理优化等，更详细的架构原理和相关操作指导请参考官网架构原理和用户操作文档。

业务场景实践

本章节重点介绍新架构如何支持一些典型的业务链路以及产生的优化效果。

表存储和数据治理优化

本章节主要介绍建表操作和关键表属性的含义，以及根据业务场景如何设置表属性值以达到最佳效果，也会简单描述一下存储引擎后台如何自动优化表数据。

建表

首先，一体化新架构需要设计统一的表格式来存储不同格式的数据以支撑不同业务场景的数据读写，这里称为Transaction Table2.0，简称TT2，可以同时支持既有的批处理链路，以及近实时增量等新链路的所有功能。

建表语法参考官网，简单示例:

createtable tt2 (pk bigint notnullprimarykey, val string) tblproperties ("transactional"="true");
createtable par_tt2 (pk bigint notnullprimarykey, val string) 
partitioned by (pt string) tblproperties ("transactional"="true");

只需要设置主键Primary Key(PK)，以及表属性transactional为true，就可以创建一张TT2。PK用来保障数据行的unique属性，transactional属性用来配置ACID事务机制，满足读写快照隔离。

关键的表属性配置

详细属性配置参考官网，简单示例:

createtable tt2 (pk bigint notnullprimarykey, val string) 
tblproperties ("transactional"="true", "write.bucket.num" = "32", "acid.data.retain.hours"="48");

表属性: write.bucket.num

此属性非常重要，表示每个partition或者非分区表的分桶数量，默认值为16，所有写入的记录会根据PK值对数据进行分桶存储，相同PK值的记录会落在同一个桶中。非分区表不支持修改，分区表可修改，但只有新分区生效。

数据写入和查询的并发度可通过bucket数量来水平扩展，每个并发可至少处理一个桶数据。但桶数量并不是越多越好，对于每个数据文件只会归属一个桶，因此桶数量越多，越容易产生更多的小文件，进一步可能增加存储成本和压力，以及读取效率。因此需要结合数据写入的吞吐，延时，总数据的大小，分区数，以及读取延时来整体评估合理的桶数量。

此外，数据分桶存储也非常有助于提升点查场景性能，如果查询语句的过滤条件为具体的PK值，那查询时可进行高效的桶裁剪和数据文件裁剪，极大减少查询的数据量。

评估桶数量建议

对于非分区表，如果数据量小于1G，桶数量建议设置为4-16; 如果总数据量大于1G，建议按照128M-256M作为一个桶数据的大小，如果希望查询的并发度更多的话，可以进一步调小桶数据量大小; 如果总数据量大于1T，建议按照500M-1G作为一个桶数据的大小; 但目前能够设置的最大桶数量是4096，因此对于更大的数据量，单个桶的数据量也只能越来越大，会进一步影响查询效率，后续平台也会考虑是否可放开更大的限制。
对于分区表，设置的桶数量是针对每个分区的，并且每个分区的桶数量可以不同。每个分区的桶数量设置原则可以参考上面非分区表的配置建议。对于存在海量分区的表，并且每个分区的数据量又较小的话，比如在几十M以内，建议每个分区的桶数量尽可能少，配置在1-2个即可，避免产生过多的小文件。

表属性: acid.data.retain.hours

此属性也很重要，代表time travel查询时可以读取的历史数据实践范围，默认值是1天，最大支持7天。

建议用户按真实的业务场景需求来设置合理的时间周期，设置的时间越长，保存的历史数据越多，产生的存储费用就越多，而且也会一定程度上影响查询效率，如果用户不需要time travel查询历史数据，建议此属性值设置为0，代表关掉time travel功能，这样可以有效节省数据历史状态的存储成本。

Schema Evolution操作

TT2支持完整的Schema Evolution操作，包括增加和删除列。在time travel查询历史数据时，会根据历史数据的Schema来读取数据。另外PK列不支持修改。

详细DDL语法参考官网，简单示例:

altertable tt2 add columns (val2 string);
altertable tt2 drop columns val;

表数据自动治理优化

存在的问题

TT2典型场景之一是支持分钟级近实时增量数据导入，因此可能导致增量小文件数量膨胀，尤其是桶数量较大的情况，从而引发存储访问压力大、成本高，数据读写IO效率低下，文件元数据分析慢等问题，如果Update/Delete格式的数据较多，也会造成数据中间状态的冗余记录较多，进一步增加存储和计算的成本，查询效率降低等问题。

为此，后台存储引擎配套支持了合理高效的表数据服务对存储数据进行自动治理和优化，降低存储和计算成本，提升分析处理性能。

表数据组织格式

如上图所示，展示了分区表的数据结构，先按照分区对数据文件进行物理隔离，不同分区的数据在不同的目录之下; 每个分区内的数据按照桶数量来切分数据，每个桶的数据文件单独存放; 每个桶内的数据文件类型主要分成三种:

Delta Data File：每次事务写入或者小文件合并后生成的增量数据文件，会保存每行记录的中间历史状态，用于满足近实时增量读写需求。
Compacted Data File：Delta File经过Compact执行生成的数据文件，会消除数据记录的中间历史状态，PK值相同的记录只会保留一行，按照列式压缩存储，用来支撑高效的数据查询需求。
Delta CDC Log: 按照时序存储的CDC格式增量日志 (目前还未对外推出)。

数据自动治理优化

如上图所示，TT2的表数据服务主要分成Auto Sort / Auto Merge / Auto Compact / Auto Clean四种，用户无需主动配置，存储引擎后台服务会智能的自动收集各个维度的数据信息，配置合理的策略自动执行。

Auto Sort: 自动将实时写入的行存avro文件转换成aliorc列存文件，节省存储成本和提升读取效率。
Auto Merge: 自动合并小文件，解决小文件数量膨胀引发的各种问题。主要策略是周期性地根据数据文件大小/文件数量/写入时序等多个维度进行综合分析，进行分层次的合并。但它并不会消除任何一条记录的中间历史状态，主要用于time travel查询历史数据。
Auto Partial Compact: 自动合并文件并消除记录的历史状态，降低update/delete记录过多带来的额外存储成本，以及提升读取效率。主要策略是周期性地根据增量的数据大小/写入时序/time travel时间等多个维度进行综合分析来执行compact操作。该操作只针对超过time travel可查询时间范围的历史记录进行compact。
Auto Clean: 自动清理无效文件，节省存储成本。Auto Sort / Auto Merge / Auto Partial Compact操作执行完成后，会生成新的数据文件，所以老的数据文件其实没什么作用了，会被即时自动删除，及时节省存储成本。

如果用户对于查询性能的要求非常高，也可尝试手动执行全量数据的major compact操作，每个桶的所有数据会消除所有的历史状态，并且额外生成一个新的Aliorc列存数据文件，用于高效查询，但也会产生额外的执行成本，以及新文件的存储成本，因此非必要尽量不执行。

详细语法参考官网，简单示例:

set odps.merge.task.mode=service;
altertable tt2 compact major;

数据写入场景业务实践

本章节主要介绍部分典型的写入场景业务实践。

分钟级近实时 Upsert 写入链路

MaxCompute离线架构一般在小时或天级别批量导入增量数据到一张新表或者新分区中，然后配置对应的离线ETL处理链路，将增量数据和存量表数据执行Join Merge操作，生成最新的全量数据，此离线链路的延时较长，计算和存储也会消耗一定的成本。

使用新架构的upsert实时导入链路基本可以保持数据从写入到查询可见的延时在5-10分钟，满足分钟级近实时业务需求，并且不需要复杂的ETL链路来进行增全量的Merge操作，节省相应的计算和存储成本。

实际业务数据处理场景中，涉及的数据源丰富多样，可能存在数据库、日志系统或者其他消息队列等系统，为了方便用户数据写入TT2， MaxCompute深度定制开发了开源Flink Connector工具，针对高并发、容错、事务提交等场景做了定制化的设计及开发优化，以满足延时低、正确性高等要求，同时也能很好的对接融合Flink生态。具体使用细节可以参考官网产品说明

上图简单展示了整体写入的流程，可总结如下主要关键点:

基本大部份可融合flink生态的引擎或者工具都可通过flink任务，结合MaxCompute flink connector实时写入数据进TT2表。
写入并发可以横向扩展，满足低延时高吞吐需求。写入流量吞吐跟flink sink并发数，TT2桶数量等参数配置相关，可根据各自的业务场景进行合理配置。特别说明，针对TT2桶数量配置为Flink sink并发数的整数倍的场景，系统进行了高效优化，写入性能最佳。
满足数据分钟级可见，支持读写快照隔离
结合Flink的Checkpoint机制处理容错场景，保障exactly_once语义。
支持上千分区同时写入，满足海量分区并发写入场景需求。
流量吞吐上限可参考单个桶1MB/s的处理能力进行评估，不同环境不同配置都可能影响吞吐。如果对写入延时比较敏感，需要相对稳定的吞吐量，可考虑申请独享的数据传输资源，但需要额外收费。如果默认使用共享的公共数据传输服务资源组的话，在资源竞抢严重的情况下，可能保障不了稳定的写入吞吐量，并且可使用的资源量也有上限。

部分列增量更新链路

该链路可用来优化将多张增量表的数据列拼接到一张大宽表的场景，比较类似多流join的业务场景。

如上图所示，左边展示了MaxCompute的离线ETL链路处理此类场景，将多张增量表按照比较固定的时间来对齐数据，通常小时/天级别，然后触发一个join任务，把所有表的数据列拼接起来生成大宽表，如果有存量数据，还需要执行类似upsert的ETL链路。因此整体ETL链路延时较长，流程复杂，也比较消耗计算和存储资源，数据也容易遇到无法对齐的场景。

右边展示了通过TT2表支持部分列更新的能力，只需要将各个表的数据列实时增量更新到TT2大宽表中即可，TT2表的后台Compact服务以及查询时，会自动把相同PK值的数据行拼接成一行数据。该链路基本完全解决了离线链路遇到的问题，延时从小时/天级别降低到分钟级，而且链路简单，几乎是ZeroETL，也能成倍节省计算和存储成本。

目前支持以下两种方式进行部分列更新，功能还在灰度上线中，还未发布到官网(预计两个月内在公共云发布)。

通过SQL Insert进行增量写入部分列：

createtable tt2 (pk bigint notnullprimarykey, val1 string, val2 string, val3 string) tblproperties ("transactional"="true");
insertinto tt2 (pk, val1) select pk, val1 from table1;
insertinto tt2 (pk, val2) select pk, val2 from table2;
insertinto tt2 (pk, val3) select pk, val3 from table3;

通过Flink Connector实时写入部分列。

SQL DML / Upsert 批处理链路

为了方便用户操作TT2表，MaxCompute计算引擎对SQL全套的数据查询DQL语法和数据操作DML语法进行了支持，保障离线链路的高可用和良好的用户体验。SQL引擎的内核模块包括Compiler、Optimizer、Runtime等都做了专门适配开发以支持相关功能和优化，包括特定语法的解析，特定算子的Plan优化，针对pk列的去重逻辑，以及runtime upsert并发写入等。

数据处理完成之后，会由Meta Service来执行事务冲突检测，原子更新数据文件元信息等，保障读写隔离和事务一致性。

SQL DML具体语法可参考官网文档，对于Insert / Update / Delete / Merge Into都有详细的介绍和示例。

对于Upsert批式写入能力，由于TT2表后台服务或者查询时会自动根据PK值来合并记录，因此对于Insert + Update场景，不需要使用复杂的Update/Merge Into语法，可统一使用Insert into插入新数据即可，使用简单，并且能节省一些读取IO和计算资源。

数据查询场景业务实践

本章节主要介绍部分典型的查询场景业务实践。

Time travel查询

基于TT2，计算引擎可高效支持Time travel查询的典型业务场景，即查询历史版本的数据，可用于回溯业务数据的历史状态，或数据出错时，用来恢复历史状态数据进行数据纠正。

详细语法参考官网，简单示例：

//查询指定时间戳的历史数据
select * from tt2 timestampasof'2024-04-01 01:00:00';
//查询5分钟之间的历史数据
select * from tt2 timestampasofcurrent_timestamp() - 300;
//查询截止到最近第二次Commit写入的历史数据
select * from tt2 timestampasof get_latest_timestamp('tt2', 2);

可查询的历史数据时间范围，可通过表属性acid.data.retain.hours来配置，配置策略上文已介绍，配置参数详解参考官网。

Time travel查询处理过程简介

SQL引擎接收到用户侧输入的time travel查询语法后，会先从Meta服务中解析出来要查询的历史数据版本，然后过滤出来要读取的Compacted file和Delta file，进行合并merge输出，Compacted file可极大提升读取效率。

结合上图示例进一步描述查询细节：

图中TT2 Schema包含一个pk列和一个val列。左边图展示了数据变化过程，t1 - t5代表了5个事务的时间版本，分别执行了5次数据写入操作，生成了5个Delta file，在t2和t4时刻分别执行了Compact操作，生成了两个Compacted File: c1和c2，可见c1已经消除了中间状态历史记录（2,a），只保留最新状态的记录（2,b）。
如查询t1时刻的历史数据，只需读取Delta file (d1) 进行输出; 如查询t2时刻，只需读取Compacted file (c1) 输出其三条记录。如查询t3时刻，就会包含Compacted file (c1)以及Delta file (d3) 进行合并merge输出，可依此类推其他时刻的查询。可见，Compacted file文件虽可用来加速查询，但需要触发较重的Compact操作，用户需要结合自己的业务场景主动触发major compact，或者由后台系统自动触发compact操作。
Time travel查询设置的事务版本，支持时间版本和ID版本两种形态，SQL语法上除了可直接指定一些常量和常用函数外，还额外开发了get_latest_timestamp和get_latest_version两个函数，第二个参数代表它是最近第几次commit，方便用户获取MaxCompute内部的数据版本进行精准查询，提升用户体验。

增量查询

TT2表支持增量写入和存储，最重要的一个考虑就是支持增量查询以及增量计算链路，为此，也专门设计开发了新的SQL增量查询语法来支持近实时增量处理链路。用户通过增量查询语句可灵活构建增量数仓业务链路，近期正在规划开发支持增量物化视图来进一步简化使用门槛，提升用户体验，降低用户成本。

支持两种增量查询语法：

用户指定时间戳或者版本查询增量数据，详细语法参考官网，简单示例：

//查询2024-04-0101:00:00-01:10:00之间十分钟的增量数据
select * from tt2 timestampbetween'2024-04-01 01:00:00'and'2024-04-01 01:10:00';
//查询前10分钟到前5分钟之间的增量数据
select * from tt2 timestampbetweencurrent_timestamp() - 601andcurrent_timestamp() - 300;
//查询最近一次commit的增量数据
select * from tt2 timestampbetween get_latest_timestamp('tt2', 2) and get_latest_timestamp('tt2');

引擎自动管理数据版本查询增量数据，不需要用户手动指定查询版本, 非常适合周期性的增量计算链路 (功能灰度发布中，以官网发布为准)。简单示例：

//绑定一个stream对象到tt2表上
create stream tt2_stream ontable tt2;
insertinto tt2 values (1, 'a'), (2, 'b');
//自动查询出来新增的两条记录(1, 'a'), (2, 'b'), 并把下一次的查询版本更新到最新的数据版本
insert overwrite dest select * from tt2_stream;
insertinto tt2 values (3, 'c'), (4, 'd');
//自动查询出来新增的两条记录(3, 'c'), (4, 'd')
insert overwrite dest select * from tt2_stream;

增量查询处理过程简介

SQL引擎接收到用户侧输入的增量查询语法后，会先从Meta服务中解析出来要查询的历史增量数据版本，然后过滤出来要读取的Delta file列表，进行合并merge输出。

结合上图示例进一步描述查询细节：

图中表tt2 Schema包含一个pk列和一个val列。左边图展示了数据变化过程，t1 - t5代表了5个事务的时间版本，分别执行了5次数据写入操作，生成了5个Delta file，在t2和t4时刻分别执行了Compact操作，生成了两个Compacted File: c1和c2。
在具体的查询示例中，例如，begin是t1-1，end是t1，只需读取t1时间段对应的Delta file (d1)进行输出; 如果end是t2，会读取两个Delta files (d1, d2)；如果begin是t1，end是t2-1，即查询的时间范围为（t1, t2），这个时间段是没有任何增量数据插入的，会返回空行。
Compact / Merge服务生成的数据(c1, c2)不会作为新增数据重复输出。

PK 点查 DataSkipping 优化

上文提到，TT2表的数据分布和索引基本是按照PK列值进行构建的，因此如果对TT2表进行点查，并指定了PK值进行过滤的话，将会极大减少要读取的数据量和读取耗时，资源消耗可能也会成百上千倍的减少。比如，TT2表总的数据记录是1亿，经过过滤后真正从数据文件中读取的数据记录可能只有一万条。

主要的DataSkipping优化包括:

先进行Bucket裁剪，只读取包含指定PK值的一个bucket即可；
在Bucket内部进行数据文件裁剪，只读取包含指定PK值的文件即可；
在文件内部进行Block裁剪，根据Block的PK值域范围进行过滤，只读取包含指定PK值的block即可。

遵循常规的SQL查询语法，简单示例:

select * from tt2 where pk = 1;

SQL查询分析Plan优化

由于TT2表数据按照PK值进行分桶分布的，并且桶内部数据查询出来具备Unique属性和Sort有序性，因此SQL Optimizer利用这些属性可以做大量的优化。

比如图中示例的SQL语句 (假设tt2_t1和tt2_t2的桶数量相同)，SQL Optimizer可做的主要优化如下:

Distinct的PK列本身具备的Unique属性，因此可以消除去重算子；
Join on key和PK列相同，因此直接使用Bucket Local Join即可，消除资源消耗很重的Shuffle过程；
由于每个桶读取出来的数据本身有序，因此可以直接使用MergeJoin算法，消除前置的Sort算子。

这些消除的算子都极为消耗资源，因此这些优化可整体让性能提升1倍以上。

遵循常规的SQL查询语法，简单示例：

select * from (selectdistinct pk from tt2_t1) t 
join (selectdistinct pk from tt2_t2) t2 on t.pk = t2.pk;

数据库整库实时同步写入 MaxCompute

当前数据库和大数据处理引擎都有各自擅长的数据处理场景，部分复杂的业务场景同时需要OLTP/OLAP/离线分析引擎对数据进行分析处理，因此数据也需要在各个引擎之间流动。将数据库的单表或者整库的变更记录实时同步到MaxCompute进行分析处理是目前比较典型的业务链路。

如上图所示，左边流程是之前MaxCompute支持此类场景的典型ETL处理链路，按照小时/天级别读取数据库的变更记录写入到MaxCompute一张临时的增量表中，然后将临时表和存量的全量表进行Join Merge处理，生成新的全量数据。此链路较复杂，并且延时较长，也会消耗一定的计算和存储成本。

右边流程则是使用新架构支持该场景，直接按照分钟级别实时读取数据库的变更记录upsert写入到TT2表即可。链路极简单，数据可见降低到分钟级，只需要一张TT2表即可，计算和存储成本降到最低。

目前MaxCompute集成了两种方式支持该链路：

通过DataWorks数据集成的整库/单表增全量实时同步任务，在页面进行任务配置即可。

优势

MaxCompute离线&近实时数仓一体化新架构会尽量覆盖部分近实时数据湖(HUDI/ICEBERG等)的通用功能，此外，作为完全自研设计的新架构，在低成本，功能，性能，稳定性，集成等方面也具备很多独特亮点：

用MaxCompute较低的成本来支持近实时以及增量链路，具备很高的性价比。
统一的存储、元数据、计算引擎一体化设计，做了非常深度和高效的集成，具备存储成本低，数据文件管理高效，查询效率高，并且Time travel / 增量查询可复用MaxCompute批量查询的大量优化规则等优势。
通用的全套SQL语法支持所有功能，非常便于用户使用。
深度定制优化的数据导入工具，高性能支持很多复杂的业务场景。
无缝衔接MaxCompute现有的业务场景，可以减少迁移、存储、计算成本。
表数据后台智能自动化治理和优化，保证更好的读写稳定性和性能，自动优化存储效率和成本。
基于MaxCompute平台完全托管，用户可以开箱即用，没有额外的接入成本，功能生效只需要创建一张TT2表即可。
作为完全自研的架构，需求开发节奏完全自主可控。

原文链接

本文为阿里云原创内容，未经允许不得转载。

运维人少，如何批量管理上百个微服务、上千条流水线?

2024-04-11T16:20:52+08:00

随着微服务和云原生技术的发展，一个业务系统往往由多个微服务应用组成，多个业务方向涉及几十上百应用。每个应用研发过程又划分为测试、预发、生产多条流水线，也即成百上千条流水线。而一个企业下通常只有 1～2 个运维或架构师负责这些应用的配置管理工作。该场景下你是否会遇到以下苦恼：

业务应用太多啦，一个应用配置的修改就得修改几十上百遍，还有可能错改、漏改？
流水线太多啦，怎么分组管理，快速找到目标流水线？流水线怎么批量授权给一线开发测试同学？

云效应用交付平台 AppStack 以应用为中心聚合管理资源环境、CI/CD 流程、人员权限等；提供应用模板，支持使用模板一键创建应用，快速初始化应用配置；支持应用模板修改批量升级应用，帮助你高效管理上百应用、上千条流水线，帮助企业研发流程和规范有效落地。

01 使用模版一键创建应用

通常企业一类应用研发会采用相同的技术栈，如 Web 类后端服务通常会采用Java开发语言、Spring boot 框架、K8s 部署形态，前端服务通常会采用 Node.js 开发语言、K8s 部署形态等。一类应用的研发流程、部署架构、环境划分、角色权限划分基本类似，可将一类应用定义为应用模板，同类应用使用模板即可快速初始化配置。

我们提供以下 2 种方式，帮助企业使用模板快速完成初始化。

方式 1：从示例应用模板快速配置应用

云效提供两套示例应用模板，你可以直接从示例模板一键初始化应用配置，体验完整应用部署流程；实际应用部署可按需修改部分流程或配置。

示例模板 1 - Java K8s 应用示例模板，预置测试（镜像构建+测试环境部署）、预发（镜像构建+预发环境部署）、生产（镜像构建+人工卡点+生产环境部署）三条流水线，预置 K8s Deployment 部署 YAML，预置开发、测试、预发、生产四套环境。
示例模板 2 - Java 主机应用示例模板，预置测试、预发、生产三条流水线，预置 Linux 主机部署 Shell 脚本，预置开发、测试、预发、生产四套环境。

方式 2: 企业自定义应用模板一键创建应用

示例应用模板用于帮助快速体验应用配置部署流程，在实际业务研发中，企业页可以自定义符合企业业务特征、满足企业研发流程规范的应用模板。

操作方法如下：在企业全局设置中，新建应用模板（也可以从已有模板复制），按上述单应用配置方式配置应用环境、流水线、部署 K8s YAML 等，其中，应用下少量不同的配置可以抽取成变量，关联全局变量组或应用内变量组进行差异化配置。

如：Java 构建命令中，某些应用跳过 maven 测试。定义 skipMvnTest 为流水线变量，流水线关联应用变量组，由变量组取值决定是否跳过。

如：部署 K8s YAML 中，某些应用 Deployment 开启 xx 特殊配置。定义 pilotAutoEnable 为编排配置变量，环境关联变量组，应用环境部署时由变量组取值决定是否开启。

新建应用时，选择上述配置好的模板，即可一键初始化应用配置，省去多应用逐个重复配置成本，“解放”双手。

应用创建成功后，可以批量为应用添加成员并赋予相应角色，以角色权限方式统一为应用的多套环境、多条流水线授权。企业可按需配置开发、测试等各角色的权限点。

02 通过模版修改批量升级应用

随着应用架构升级或研发规范的调整，应用配置也需要不断的升级，通常会选取一两个试点应用做升级测试，验证通过后批量推广到所有应用。典型升级场景示例如下：

示例场景 1：批量修改应用部署配置，增加 sidecar 容器，统一接入监控日志

应用稳定性升级项目要求所有统一接入监控日志，需要在应用部署中增加 skywalking sidecar 容器，用于日志采集、上报等。批量升级步骤如下：

1）进入应用模板 -> 编排配置，开启同步功能。

2）修改模板编排 YAML Demployment 文件，增加 skywalking 容器配置。

3）选择试点应用，进行配置同步，重新部署试点应用进行测试验证。

4）试点应用测试验证 OK 后，再批量选择应用同步，批量推广。同步后，应用下次部署使用最新同步的 YAML 即可生效 skywalking sidecar 容器，进行应用日志采集。

5）点击应用模板 -> 版本记录，可以实时查看各应用同步状态和同步版本，整体控制升级进度和风险，避免错改、避免漏改。

示例场景 2：应用研发流程统一增加安全扫描卡点

企业内引入安全扫描能力，安全同学要求将安全扫描结果作为发布流程卡点，没有通过安全扫描的应用不允许发布。应用批量接入步骤如下：

1）进入应用模板 -> 研发流程配置，开启同步功能（即将上线）。

2）编辑生产发布阶段流水线，增加「安全扫描卡点」组件。

3）选择试点应用，进行配置同步，重新运行试点应用生产阶段发布流程，进行流程验证。

4）试点应用流程验证 OK 后，再批量选择应用同步，批量推广。同步后，应用下次发布时，生产发布流程将经过「安全扫描卡点」，作为发布卡点。

以上，即介绍了以应用维度分组管理测试、预发、生产等不同环境流水线；通过应用模板一键初始化应用配置；通过应用模板批量同步功能统一配置管理上百应用、上千流水线，真正做到“解放”管理员双手。

作者：周静

原文链接

本文为阿里云原创内容，未经允许不得转载。

云原生最佳实践系列2：基于 MSE 云原生网关同城多活

2024-04-10T15:08:04+08:00

方案概述

分布在同城多个机房内的应用同时对外提供服务。同城机房物理距离较小，一般小于 50 公里。同城多活架构的难点有三个：

当某机房出现故障，能不能做到机房级的快速切换？
如何实现非对等部署下的全局的流量负载均衡？
对流量的精细化管控？

常见的同城多活实现方式（如下图），在这个架构里。DNS 本身存在缓存，DNS 的域名是映射到机房的网关 IP，网关又是每个机房一个局部的。很难做到机房级故障的秒级自动转移和非对等状态下的全局负载均衡。如果两个机房的微服务应用如果共用一套注册中心，就没办法保证微服务调用单元内闭环。

应用场景

借助云原生微服务引擎 MSE 产品，配置注册中心的同城容灾多活微服务应用。提供一个经典微服务场景在云上实现同城容灾的步骤，通过云原生相关产品在用户应用上云时解决高可用，同城容灾，多活等需求。主要步骤：

通过 CADT 快速完成应用环境部署；
同城双 MSE 注册中心接入；
MSE 网关接入。

方案适合场景和优势

MSE 云原生网关

云原生网关默认双可用区部署，既使一个可用区的节点都挂了，另一个可用区的节点依旧可以正常工作。

MSE 注册中心

MSE 注册中心默认三可用区部署，即使两个可用区的节点都挂了依然不会影响业务。

机房级故障的秒级自动转移

云原生网关对于关联服务的每个节点都建立了主动健康检查的机制，默认是 2 秒（也可以自己调整）。主动健康检查发现节点不健康，则会自动剔除，健康检查除了 TCP 的端口探测外，也支持 HTTP 的探测，通过健康检查机制，可以实现机房级故障的秒级自动转移。

非对等部署状态下的全局流量负载均衡

云原生网关会把两个集群的同名服务进行合并，然后在合并后的节点数量的基础上实现多种负载均衡策略，通过这种方式可以很好的实现两个机房在非对等部署状态下的负载均衡，例如：两个机房的同应用各部署了 5 个节点，这个时候云原生网关会把两个机房的同名服务的节点进行合并，变成 10 个。然后云原生网关在这 10 个中实现轮询等负载均衡策略，假设机房 1 的节点挂了 4 个，还剩一个。那这时分配给机房 1 的流量会自动的从 50% 降到 10%，分配给机房 2 的流量会自动的从 50% 提升到 90%。

流量的精细化管控

每个集群一套注册中心，应用启动的时候只像本可用区的注册中心注册。这样可以保证微服务调用在可用区内闭环。微服务调用可用区闭环以后，可以配合云原生网关的多种流量路由能力实现蓝绿和灰度等发布策略。

部署架构

架构说明

2 个 MSE 注册配置中心， 2 个 ACK 集群，1 个高可用 MSE 云原生网关。

每个可用区的微服务只注册到本 AZ 的 MSE 注册配置中心，实现闭环调用。
两个 AZ 共享 1 个 NAT 网关，用于容器节点拉取镜像。

产品介绍

容器服务 Kubernetes 版 ACK：容器服务 Kubernetes 版（简称 ACK）提供高性能且可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。在 2021 年，ACK 成为国内唯一连续三年入选 Gartner 公共云容器报告的产品，同时在 2022 年成为国内唯一进入 Forrester 领导者象限的产品。ACK 整合了阿里云的虚拟化、存储、网络和安全能力，助力企业高效运行云端 Kubernetes 容器化应用。

微服务引擎 MSE：微服务引擎 MSE 面向业界主流开源微服务项目，提供注册配置中心和分布式协调（原生支持 Nacos/ZooKeeper/Eureka ）、云原生网关（原生支持 Higress/Nginx/Envoy，遵循 Ingress 标准）、微服务治理和分布式任务调度能力（兼容开源 XXL-JOB/ElasticJob/K8s Job/Spring Schedule）。

NAT 网关：阿里云 NAT 网关（NAT Gateway，简称 NAT）提供公网 NAT 和私网 NAT 两种功能。公网 NAT 网关通过自定义 SNAT、DNAT 规则可为云上服务器提供对外公网服务、及主动访问公网能力；私网 NAT 网关(也即 VPC NAT 网关)可使 VPC 内的 ECS 实例通过私网地址转换服务，实现 VPC 与 VPC 之间、及 VPC 与线下 IDC 互访能力。

前置条件

在进行本文操作之前，您需要完成以下准备工作：

操作步骤

基础环境搭建
在 ACK 集群中部署 Demo 应用

2.1. 打开部署好的应用

2.2. 获取 J 和 K 区 MSE 注册中心地址

配置 MSE 网关及路由

3.1. 配置 MSE 网关

多活场景验证

4.1. 通过云原生网关进行路由调试

4.2. 多活验证

4.3. 切流验证

4.4. PTS 压测验证（可选）

一键释放资源

原文链接

本文为阿里云原创内容，未经允许不得转载。

RocketMQ 流存储解析：面向流场景的关键特性与典型案例

2024-04-09T12:40:22+08:00

前言：

在这样的背景下，2022 年，RocketMQ 5.0 正式发布，相对于 RocketMQ 4.0，架构走向云原生化，并且覆盖了更多的业务场景。

背景

什么是流存储呢？前面我们在《从互联网到云时代，Apache RocketMQ 是如何演进的？》里提到 RocketMQ 5.0 具备“消息、事件、流”一体能力。这里的“流”指的就是流处理，而流存储是流处理的基石，流存储也是 RocketMQ 从应用架构集成走向数据架构集成的基础，为大数据架构的数据组件提供异步解耦的能力。

本文第一部分，我们将从使用的角度出发，详细展示一下流存储的场景，看看它和业务消息的场景有哪些区别？第二部分，我们会讲 RocketMQ 5.0 面向流存储的场景，提供了哪些特性？第三部分，我们再结合两个数据集成的案例，来帮助大家了解流存储的用法。

什么是流场景

先看第一部分，什么是流场景？我们通过下面这个对比图来看，消息和流的区别。

前面我们讲的消息基础（《RocketMQ 5.0 架构解析：如何基于云原生架构支撑多元化场景》、《RocketMQ 在业务消息场景的优势详解》）、消息进阶（《Apache RocketMQ 5.0 消息进阶：如何支撑复杂的业务消息场景？》）都侧重于讲消息的业务集成。这里 RocketMQ 的主要作用是连接业务应用，解耦业务架构的上下游系统，比如交易系统的解耦。这类场景，更多的是在线业务，由用户触发某个业务流程，比如购买。为了保障用户体验，消息系统要优先保障低延迟。这个场景里和同步通信 RPC 对应，消息系统承担都是异步通信职责。在消息消费层面，更多的是基于消息数据执行对应的业务逻辑，触发下一个业务流程。每条消息的处理都是不相关的，无状态的。侧重于业务数字化场景，可类比于数据库的 OLTP，单次操作数据量少，用于在线交易。

再来看流场景，它主要是侧重于数据集成，连接各种数据组件，进行数据分发，解耦数据架构的上下游系统。比如日志解决方案，采集日志数据，进行 ETL 将日志数据分发到搜索引擎、流计算、数据仓库等。除了日志之外，数据库 Binlog 分发、页面点击流也是常见的数据源。在这种场景里里面，由于是离线业务，它对低延迟的需求较弱，更加侧重于大批量吞吐型负载。另外在消息消费阶段，不再是单条消息处理，更多的是批量转储，或者批量进行流计算。侧重于数字业务化场景，可类比于数据库的 OLAP，单次操作数据量大，用于离线分析场景。

流存储特性

1.流存储基础

第二部分我们看看，在流的场景下，对于 RocketMQ 的用法有何不同？

最大的区别就是它对于消息数据的访问模式：

由于用在数据集成场景，对于大规模的数据集成，不可避免的要涉及到数据的分片，基于数据分片来连接上下游数据系统。为了提升数据集成的质量，需要 Topic 的分区数不变，这样才能保证同一个分区的数据不会错乱。在消息的读写方式上，不再是指定 Topic 读写，而是指定 Topic 分片，也就是队列，进行读写操作。
作为流存储系统，下游的消费通常会是一些流计算引擎，用于有状态计算。为了支撑流计算引擎的容错处理，它需要支持 checkpoint 机制，类似于为流计算引擎提供 redolog，能够按照队列位点重放消息，重新恢复流计算的状态。它也会要求分片内有序，同一个 key 的数据会 hash 到同一个分片，用于实现 keyby 的操作。

这就是流存储访问模式跟消息访问模式的区别。在消息场景里，用户只需要关注到 topic 资源，无需了解队列、位点等概念。

2.流存储弹性

2.1 RocketMQ 经典扩容模式

刚才我们从用户维度了解了流存储的使用方式，现在我们再从运维角度来看流存储如何弹性？

我们先回顾一下现在业界的弹性方式。左下图是 RocketMQ 的经典扩容模式，比如说要将 Topic A 的容量扩容一倍，一般做法是新增一台机器，然后创建 Topic A，新增同等数量的队列。这样的话，分片数量也会扩容一倍，无法满足流存储固定分区的场景。

右下图则是 Kafka 的扩容模式，要将 Topic A 的容量扩容一倍时，需要添加一个新节点，并将原来旧节点的分区 mq-2 迁移到新节点。它虽然可以保证数分区数量不变，但是要对分区数据做迁移。当分区数特别多且数据量大，讲对集群产生流量风暴，严重影响稳定性，而且整个扩容时间不可控。

现有的流存储弹性机制都有所不足。

2.2 RocketMQ 5.0 静态 Topic 扩容模式

为了解决经典流存储的扩容难题，RocketMQ 5.0 提供了一种新的模式，引入静态 topic 。在静态 topic 的扩容模式，可以做到分区数不变，且扩容过程无数据迁移，可以实现秒级的扩容。

它的实现关键点是引入逻辑队列的概念。就是对于用户来说，它的访问的对象是不再是原来绑定到某个 Broker 的物理队列，而是 Topic 全局的逻辑队列，每个逻辑队列会对应一个或者多个物理队列。

我们基于实际的案例，来理解逻辑队列的实现原理。图为 Topic A 进行流量扩容一倍的操作，最初逻辑队列 1 绑定的物理队列是 Broker1 的 mq1。在扩容完成后，Broker1-mq1 变成只读状态，逻辑队列 1 的最新读写操作都在 Broker2-mq1，生产者最新的消息都会发往 Broker2-mq1。消费者如果读最新数据，则直接从 Broke2-mq1 的物理队列里面去读取；如果它读的是老数据的话，读请求讲转发到旧物理队列 Broker1-mq1。这样就完成了整个静态 topic 的扩容流程。既保证的分区数不变，又实现了没有数据迁移，降低了大量的数据复制，提升了系统的稳定性。

3.高吞吐

在流场景里面，还有一个很重要的变化，就是数据类型的变化。

做个简单对比，业务集成场景，消息的数据承载的是业务事件，比如说订单操作、物流操作，特点就是数据规模较小，但是每一条数据的价值都特别高，访问模式是偏向于在线的，单条事务的短平快访问模式。

而在流场景里面，更多的是一些非交易型的数据。比如用户日志，系统的监控、IoT 的一些传感器数据、网站的点击流等等。特点是数据规模有数量级的提升，但单条数据的价值比较低的，访问模式偏向于离线批量传输。所以在流的场景里面，RocketMQ 存储要面向高吞吐做更多的优化。

在 RocketMQ 5.0 里面，我们引入了端到端的批量消息。如何理解端到端呢？就是从客户端开始，在发送阶段，消息在客户端攒批到一定数量，直接一个 RPC 请求里面直接发到 Broker 端。Broker 存储阶段，直接把整批消息存储，用批量索引的技术，一批消息只会构建一个索引，大幅度提升索引构建速度。在消费阶段，也是按照整批数据读取到消费端，先进行解包操作，最后执行消费逻辑。这样整个 Broker 的消息 TPS 可以从原来的十万级提升至百万级。

4.流的状态

流存储通常会对接流计算引擎，比如 Flink、Spark 等。流计算引擎涉及的一些有状态计算，如数据聚合类的，求平均、求总和、keyby、时间窗口等算子都需要维护计算状态。

所以在 RocketMQ 5.0 里面，我们新增了 CompactTopic 的类型，是一种以流为核心的类 KV 服务，在不引入外部 KV 系统的情况下维护流的状态。它还适用于一些特殊场景，可作为最新值队列，比如用于股票价格流场景，股票交易，用户只关注每只股票的最新价格。

我们通过下图来了解一下 CompactTopic 的实现，在 CompactTopic 里面，每条消息就是一对 KV。如果用常规的 Topic，那么同一个 Key 的持续更新会占用大量的空间，影响读的效率。在生命周期管理上，也会因为磁盘占用过高，按照 FIFO 的方式，旧数据被整批删除。而对于 CompactTopic 来说，Broker 会定期对同一个 Key 的消息进行合并，节约存储空间，用户对 Topic 的流式访问，也只会读到每个 Key 的最新值。

我们来结合这个例子，能对 CompactTopic 有更加形象的理解。消息生产没啥区别，需要为消息添加 Key。区别主要体现在消费的方式上，首先我们要用 PullConsumer，这是一个用于流场景的的消费者 SDK。然后我们要获取 Compact topic 的队列，进行队列分片。然后每一个消费者实例都会分配到固定的队列，承载这个分区的流状态的恢复。在这里的话，用 HashMap 进行模拟，重放整个队列，重新构建 KV。

5.流数据 Schema

随着 RocketMQ 的数据生态的繁荣，数据集成涉及的上下游组件越来越多，提升数据治理能力也变得迫在眉睫。因此我们在 RocketMQ 5.0 引入 Schema 的概念，为消息增加结构化的描述。

它带来了几个好处：第一个是可以提高类型的安全，避免消息结构变化导致上下游数据集成不兼容，集成失败。第二个是可以提升数据集成的研发效率，上下游通过 Schema 注册中心获取消息结构，节约沟通成本，内置高效序列化机制，无需编写重复的序列化代码。同时在流表融合的大背景下面，消息 Schema 能和数据库的表结构的概念完成映射，提升流式 SQL 亲和度。

下图是就是消息 Schema 的架构。首先会有一个 Schema 注册中心的组件，维护 Schema 的数据，数据存储基于 CompactTopic。在消息收发的过程中，客户端都会先去获取 Schema 的格式，进行格式的校验，用内置的序列工具进行序列化，从而完成整个消息收发的链路。

我们再来看 Schema 的代码示例。左边是生产者、右边是消费者，代码结构和常规的方式接近。唯一的区别是，发送的对象是业务领域对象，无需自行转成 byte 数组。对于消费者也一样，消费者直接获取业务对象执行业务逻辑，减少了序列化、反序列化等繁杂的工作，提高了研发的效率。

典型案例

最后我们再来看几个 RocketMQ 流存储的例子。

案例 1 ：日志的采集和流 SQL 分析

首先，我们通过批量的索引，提升日志采集的吞吐量，降低机器成本。我们为日志消息引入 Schema，如这是用户在电商平台的行为操作，如商品进行收藏、加购、购买等操作，使得消息数据就像流动的表。在流存储下游对接 FlinkSQL 或者 RSQLDB，完成流式 SQL 分析。

案例 2 ：异构数据库的同步

如下图，我们有两个数据库，一个是按照买家 ID 的维度进行分库分表的，另外一个是按照卖家 ID 的维度进行分库分表，我们需要实时同步两个数据库的订单状态。基于 RocketMQ 的的流存储的能力，上游按照订单的 ID 去对 Binlog 进行分片，确保同一个记录的 Binlog 数据能分发到同一个队列。在消费阶段按照顺序重放队列里的 Binlog 数据，把数据同步到卖家库。当流量不足时， RocketMQ 对静态 Topic 进行扩容，分区数不变，保障了数据同步的正确性。

总结

这篇文章，我们了解了流存储用于数据集成的场景，它可以作为大数据架构的数据枢纽，连接数据的上下游组件。而 RocketMQ 的流存储的特性，既包含功能层面，提供流式的访问接口、状态存储、数据治理的能力，也包括了流的弹性、流的高吞吐能力。最后，我们也展示了两个数据集成的案例，包括日志的分析以及异构数据库的同步。

作者：林清山（隆基）

原文链接

本文为阿里云原创内容，未经允许不得转载。

全新架构！日志服务 SLS 自研免登录方案发布

2024-04-08T10:57:19+08:00

引言

很多用户在使用日志服务 SLS 时，采用 STS 这种免登的方式，能够快速将日志服务的页面集成到三方的系统中。STS 模式是非常经典且成熟的免登方案，它的优点非常多，例如：能够充分利用阿里云账号 RAM 体系、能够通用地集成支持 STS 模式的所有云产品、支持客户自定义访问权限等。

存在问题

随着时间的推移，STS 模式在多个方面已经不满足日志服务客户的需求：

性能问题

STS 模式加载速度慢，下面是 STS 模式的流程图，客户通常需要三次顺序的交互才能够访问到页面，如果考虑客户外部系统的交互和 iframe 内的重定向，这个流程会更长。

以 SLS 控制台查询页面为例，用户登录阿里云官网后直接打开 SLS 页面，通常只需要 2s 即可查看到日志。如果使用 STS 模式，这个时间会拉长到 6s 以上：

客户打开自建 web（1 ～ 2s）
客户自建 web 发起获取免登链接请求（向客户的服务端）（1s）
客户服务端访问令牌服务（500 ms）
客户服务端获取登录 token、拼接 url 返回给客户 web（500ms）5. iframe 访问 url（包含多次重定向）（3s）

会话时间限制

STS 模式创建的链接有会话时间限制，默认是 1 小时，最长能延长到 24 小时，且没有任何办法能够再次延长会话的时间。客户使用过程中经常发现打开的浏览器 tab 页，隔天就无法使用了，此时是无法通过新打开一个页面登录再次恢复的（直接使用公有云日志服务是支持新打开页面登录后恢复旧的页面的登录状态）。客户自建的内网 web 网站一般都会有较长时间的会话时间，STS 模式会话时间的限制和客户自建 web 有严重的冲突。

会话时间限制这个问题几乎所有使用内嵌的客户都会来问这个问题，属于痛点中的痛点。

错误排查困难

上面介绍过 STS 模式登录的流程非常长，登录过程涉及到阿里云多个模块（STS、RAM、登录、SLS），所以在登录的流程中一旦出现问题很难排查。而且由于登录逻辑中包含多次重定向的操作，SLS 控制台本身很难自己排查客户登录不成功的根因。客户如果登录失败，一般会看到下面几种让人非常懵的结果：

或者：

跨域问题

STS 模式一般是在客户自建的 web 中使用 iframe 内嵌 SLS 的页面，这种跨域的方式严重依赖浏览器的 cookie。而随着各大浏览器厂商安全策略的增强，跨域 cookie 已经受到非常大的限制。例如：

a. Safari 很早就已经限制了第三方的 cookie，这个导致如果客户不主动关闭这个限制，Safari 默认是无法打开 STS 模式内嵌的页面。

b. Chrome 从 2024 年 1 月也开始逐步限制第三方的 cookie，到 2024 年第三季度某日后 Chrome 也将默认打开第三方的 cookie 的限制。

全新免登方案

全新架构

为了解决上面的所有问题，SLS 自研了一套全新的基于 Ticket 的免登方案，支持客户能够使用 Ticket 方案将 SLS 控制台免登分享给他人或免登嵌入到第三方系统，同时可控制嵌入至第三方系统的日志服务权限。

该 Ticket 方案登录过程只需要两步，第一是调用 SDK 获取免登链接，第二是使用链接直接访问 SLS，在此过程中没有任何浏览器重定向操作。

方案优势

速度快：只需两步即可访问 SLS 控制台，没有任何浏览器重定向操作，平均访问时间在 2s 以内。

会话时间限制：支持客户调用 SLS 的接口延长会话时间，彻底解决会话时间限制问题。

安全性：支持使用 RAM 账户调用创建免登链接接口，支持使用 RAM Policy 控制该免登链接的权限。

错误排查：客户在实施该方案的过程中，只需调用 SLS 接口（没有第三方系统介入），SLS 会返回详细的错误原因，方便用户排查。

跨域问题：该方案没有基于浏览器 cookie 实现，不存在跨域问题。

接入文档

有需要接入的可以参考此文档，该方案已经全网发布：

https://help.aliyun.com/zh/sls/developer-reference/console-em...

仪表盘免密分享

在给客户支持的过程中，我们发现让客户自建系统集成免登方案（无论步骤多简单）是非常复杂的，只有一定规模的用户才会使用免登方案。但是在很多场景下，客户也是需要免登、分享等功能的。例如客户想要临时分享日志查询给其他同学 debug 问题；客户想要将日志服务仪表盘放在电视大屏上播放；客户想要将仪表盘嵌入到文档中等等场景。

因此除了全新的免登方案外，我们基于 Ticket 机制提供了仪表盘的免密分享功能，支持在控制台创建免登链接，无需调用 SDK 实现，未来也会支持日志查询页面的免密分享。

仪表盘免密分享的操作步骤非常简单，仅需一步（仪表盘页面右上角点击分享按钮）：

点这里可以体验免密分享的仪表盘：Nginx 访问日志 demo[1]

方案优势

方便实用：免密分享使得用户可以直接通过一个链接访问仪表盘，无需处理复杂的登录问题、权限校验问题，能够满足多个场景的客户使用需求（大屏、诊断、共享等），特别是在一些特殊的只需要一次性登录的场景。

简化流程：使用免密分享功能只需要在控制台点击操作，无需使用 SDK，免去了复杂的开发流程。

安全性：一方面使用仪表盘免密分享功能有严格的权限校验，支持配置 Ram Policy 控制子账号是否可以创建、查看免密分享。另一方面创建免密分享支持多种权限控制机制，例如时间范围限制、访问时间限制、阿里云账号限制、过滤条件限制等。

接入文档

有需要尝试的可以参考此文档操作，该方案已经全网发布：

https://help.aliyun.com/zh/sls/user-guide/dashboard-secret-fr...

总结

日志服务（SLS）开发了一套全新的基于 Ticket 的登录方案，包括免登方案、仪表盘免密分享方案，旨在解决用户在共享和集成日志服务时面临的挑战。这个方案较 STS 模式在便捷性、安全性、性能等多个方面有较大的优势，欢迎大家使用。

参考文档：

[1] Nginx 访问日志 demo

https://sls.console.aliyun.com/lognext/share/project/nginx-de...

[2] 免登接入文档

https://help.aliyun.com/zh/sls/developer-reference/console-em...

[3] 仪表盘免密分享使用文档

https://help.aliyun.com/zh/sls/user-guide/dashboard-secret-fr...

[4] 仪表盘免密分享使用 demo

https://sls.console.aliyun.com/lognext/share/project/nginx-de...

作者：灵亦

原文链接

本文为阿里云原创内容，未经允许不得转载。

爆款游戏如何借助 RocketMQ Serverless，打造流畅体验并节省 98% 成本？

2024-04-07T17:16:31+08:00

一款游戏作品之所以能在市场上引爆热潮，铸就爆款传奇，除了独树一帜的创新设计理念、引人入胜的故事情节和丰富多样的玩法机制之外，最核心的要素就是为玩家提供极致流畅且无与伦比的游戏体验。这种体验涵盖了从游戏载入速度、画面帧率稳定性、操作响应灵敏度到网络环境的优化等多个维度，每一环节都对游戏最终能否赢得市场青睐，并成为爆款起着至关重要的作用。

近期，某游戏客户精心打造的一款冒险闯关类游戏，自发布以来便迅速在玩家群体中引发热烈反响，展现出强劲的发展势头，并已多次荣登行业内各大权威畅销榜单的前列。该款游戏之所以能快速崭露头角，不仅得益于其在玩法机制设计上的创新升级和深度优化，更在于它为玩家群体提供了流畅顺滑的游戏体验。

游戏中的一处亮点场景，即每周特定时段会举办一场限时约 1 小时的“跨服战”，旨在增进不同服务器玩家之间的社交互动与竞技交流。这一场景具有时间短、频率低的特点，却能在短时间内吸引大量玩家参与，从而产生海量的跨服通信消息。消息中间件在此过程中扮演着至关重要的角色，它位于跨服通信的核心链路上，其可用性与性能表现直接决定了玩家的游戏体验质量。

RocketMQ 5.0 Serverless：爆款游戏流畅体验的秘诀

对于该业务场景呈现出的，对消息中间件使用时段高度集中、运行时长短且流量大、可用性要求高等特点，该游戏客户选择了阿里云消息队列 RocketMQ 5.0 Serverless 版本作为核心的消息中间件，其架构如下：

在当前的架构中，阿里云消息队列 RocketMQ 5.0 Serverless 版本以其弹性伸缩与按需计费的特性，能够轻松应对短时间内突发的大规模消息处理需求。具体来说，它能够根据业务流量需求动态扩展或收缩计算资源，确保消息传输的流畅性和稳定性，避免了在高峰期因资源不足而导致的消息延迟或丢弃问题，并在非高峰时段能够有效减少不必要的资源闲置浪费，实现成本效益的最大化。

同时，阿里云消息队列 RocketMQ 5.0 Serverless 版本采用高可用架构，保证了即使在面对复杂业务场景或者部分节点故障时，整个消息队列服务依然能够持续稳定运行，提供高效及时的响应服务。

相比之下，传统自建的开源 RocketMQ 虽然具备一定的灵活性和可定制性，但在应对大幅波动的流量场景时，由于缺乏高效的资源管理和自动化的运维能力，往往需要投入更多的机器资源和人力成本，来进行监控和维护，并且在面临突发流量冲击时，其系统的稳定性及响应速度可能无法达到云消息队列 RocketMQ 5.0 Serverless 版本的高度。

因此，在成本效益和系统稳定性这两个关键指标上，云消息队列 RocketMQ 5.0 Serverless 版本无疑展现出显著的优势，为用户的业务发展提供了更为稳定可靠的支撑。

RocketMQ 5.0 Serverless 助力实现成本直降 98%

云消息队列 RocketMQ 5.0 Serverless 版本凭借其独特的产品优势，显著提升了该游戏客户的业务价值：

1.按需计费，降本增效

云消息队列 RocketMQ 5.0 Serverless 版本按照实际使用资源量进行计费，使得客户在非消息收发时段几乎无需承担费用，尤其适用于具有周期性、集中性消息收发特性的业务场景。得益于此特性，该游戏客户成功实现了每月资源成本大幅削减 98%。

2.弹性扩容，优化资源

云消息队列 RocketMQ 5.0 Serverless 版本具备强大的弹性能力，近乎无限的弹性扩容可以轻松应对大规模流量需求变化，确保客户在极端高峰流量时段仍能保持业务平稳运行，同时有效避免了非高峰时段的资源闲置浪费，提高了资源的整体使用效率。

3.稳定可靠，简化运维

云消息队列 RocketMQ 5.0 Serverless 版本提供商业化 SLA 保障，大幅度降低了客户在自主运维层面的复杂性和安全风险挑战，并通过集成先进的可观测能力，让客户在享受便捷、高效的云端消息队列服务的同时，能够专注于核心业务的创新与发展。

该游戏客户反馈：“使用云消息队列 RocketMQ 5.0 Serverless 版本后，运维效率得到了显著提升，并且系统表现出高度的稳定性，没有再出现 MQ 的瓶颈问题”。

作者：鼎岳、稚柳、勇猛、家泽

原文链接

本文为阿里云原创内容，未经允许不得转载。

一键开启 GPU 闲置模式，基于函数计算低成本部署 Google Gemma 模型服务

2024-04-07T16:16:38+08:00

1.背景信息

Google 在 2024 年 02 月 21 日正式推出了自家的首个开源模型族 Gemma ，并同时上架了四个大型语言模型，提供了 2B 和 7B 两种参数规模的版本，每种都包含了预训练版本（base 模型）和指令微调版本（chat 模型）[1]。根据 Google 的技术报告，本次开源的 Gemma 在问题回答、合理性、数学、代码等方面的性能均超越同参数量级的其他开源模型。

$$ 数据来源 $$

函数计算作为阿里云上的 Serverless 计算服务，持续在 Serverless GPU 方面投入研发，为用户提供性价比极高的 GPU 实例。通过采用 Serverless GPU 的闲置计费模式（目前正处于公测阶段），用户得以迅速部署并上线自己的大型语言模型（ LLM ）服务。为了进一步提升用户体验，阿里云函数计算 GPU 平台摒弃了传统的运维需求，提供了多项用户友好的特性，包括但不限于实例冻结、自定义域名等，这些特性极大地简化了使用流程。它们使得用户部署的模型服务可以迅速进入就绪状态，避免了长时间的冷启动过程，确保了快速响应。这些优势有效地解决了 LLM 部署难、弹性差、资源浪费的痛点问题。

本文将介绍如何使用函数计算 GPU 实例和函数计算 GPU 首创的闲置模式低成本并快速部署 Gemma 模型服务。

2.前提条件

已开通函数计算服务，详情请参见开通函数计算服务[2]。

GPU 闲置计费公测资格申请：

【公测 - 申请使用[5]】Serverless GPU 闲置计费当前为邀测功能，如需体验，请提交公测申请或联系客户经理申请。

3.操作步骤

使用函数计算部署 LLM 应用过程将产生部分费用，包括 GPU 资源使用、vCPU 资源使用、内存资源使用、磁盘资源使用以及函数调用的费用。具体信息，请参见费用说明[3]。

3.1 创建应用

1.下载模型权重，您可以选择从 huggingface 或者 modelscope 中进行下载，本文选择 Gemma-2b-it 作为示例进行部署。

Gemma 模型系列现已在 ModelScope 社区开源，包括：
1.Gemma-2b：https://modelscope.cn/models/AI-ModelScope/gemma-2b
2.Gemma-2b-it：https://modelscope.cn/models/AI-ModelScope/gemma-2b-it
3.Gemma-7b：https://modelscope.cn/models/AI-ModelScope/gemma-7b
4.Gemma-7b-it：https://modelscope.cn/models/AI-ModelScope/gemma-7b-it

2.编写 Dockerfile 和模型服务代码，并推送镜像。

FROM registry.cn-shanghai.aliyuncs.com/modelscope-repo/modelscope:fc-deploy-common-v17

WORKDIR /usr/src/app

COPY . .

RUN pip install -U transformers

CMD [ "python3", "-u", "/usr/src/app/app.py" ]

EXPOSE 9000

模型服务代码：

from flask import Flask, request
from transformers import AutoTokenizer, AutoModelForCausalLM

model_dir = '/usr/src/app/gemma-2b-it'

app = Flask(__name__)

tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto")

@app.route('/invoke', methods=['POST'])
def invoke():
    # See FC docs for all the HTTP headers: https://help.aliyun.com/document_detail/179368.html#section-fk2-z5x-am6
    request_id = request.headers.get("x-fc-request-id", "")
    print("FC Invoke Start RequestId: " + request_id)

    text = request.get_data().decode("utf-8")
    print(text)
    input_ids = tokenizer(text, return_tensors="pt").to("cuda")
    outputs = model.generate(**input_ids, max_new_tokens=1000)
    response = tokenizer.decode(outputs[0])
    print("FC Invoke End RequestId: " + request_id)
    return str(response) + "\n"

if __name__ == '__main__':
    app.run(debug=False, host='0.0.0.0', port=9000)

目录结构如下所示：

.
|-- app.py
|-- Dockerfile
`-- gemma-2b-it
    |-- config.json
    |-- generation_config.json
    |-- model-00001-of-00002.safetensors
    |-- model-00002-of-00002.safetensors
    |-- model.safetensors.index.json
    |-- README.md
    |-- special_tokens_map.json
    |-- tokenizer_config.json
    |-- tokenizer.json
    `-- tokenizer.model

1 directory, 12 files

构建镜像并进行推送：

IMAGE_NAME=registry.cn-shanghai.aliyuncs.com/{NAMESPACE}/{REPO}:gemma-2b-it
docker build -f Dockerfile -t $IMAGE_NAME . && docker push $IMAGE_NAME

3.创建函数。

a. 进入函数计算控制台，新建 GPU 函数，选择第二部所推送的镜像

b. 在高级设置中启用 GPU，并选择 T4 卡型，配置 16GB 显存规格，完成创建

4.为函数开启闲置预留模式：等待应用部署完成后，进入配置 - 预留实例页面，为该函数打开闲置预留模式。

a. 进入函数弹性管理页 - 单击创建规则：版本选择 LATEST ，最小实例数选择 1，并启用闲置模式，最后点击创建完成弹性规则配置

b. 页面跳转回弹性管理页面，等待容器实例成功启动后，可以看到当前预留实例数为 1，且可以看到已开启闲置模式的字样，则表示 GPU 闲置预留实例已成功启动

3.2 使用LLM应用

1.在函数配置 - 触发器页面找到函数的 endpoint 并进行测试。

curl -X POST -d "who are you" https://gemma-service-xxx.cn-shanghai.fcapp.run/invoke
<bos>who are you?

I am a large language model, trained by Google. I am a conversational AI that can understand and generate human language, and I am able to communicate and provide information in a comprehensive and informative way.

What can I do for you today?<eos>

2.通过实例监控数据观察可见，在没有函数调用发生时，该实例的显存使用量会降至零。而当有新的函数调用请求到来时，函数计算平台会迅速恢复并分配所需的显存资源，从而帮助降本。

3.函数计算平台会在您调用结束后，自动将 GPU 实例置位闲置模式，无需您进行手动操作，并且会在下次调用到来之前，将该实例唤醒，置位活跃模式进行服务。

3.3 删除资源

如您暂时不需要使用此函数，请及时删除对应资源。如您需要长期使用此应用，请忽略此步骤。

1.返回函数计算控制台[4]概览页面，在左侧导航栏，单击函数。

2.单击目标函数右侧操作列的更多 - 删除，在弹出的删除应用对话框，勾选我已确定资源删除的风险，依旧要删除上面已选择的资源，然后单击删除函数。

4.费用说明

4.1 套餐领取

为了方便您体验本文提供的 LLM 应用场景，首次开通用户可以领取试用套餐并开通函数计算服务。该套餐不支持抵扣公网出流量和磁盘使用量的费用。如果您没有购买相关资源包，公网出流量和超出 512 MB 的磁盘使用量将按量付费。

4.2 资源消耗评估

函数计算资源配置如下：拥有 2 核 CPU、16GB 的内存、16GB 的显存，以及 512MB 的磁盘空间。若保有 1 个闲置预留实例并在该小时内与 Gemma 进行多轮对话，累计有效函数运行时间达到 20 分钟、函数闲置时间即为 40 分钟。相关资源使用的计费标准可参照下表所示。

$$ 注 1：公测阶段闲置 GPU 单价为 0.000009元/GB* 秒 $$

相关阅读：

ModelScope 一键部署模型：新手村实操 FAQ 篇-阿里云开发者社区

基于 ModelScope 模型库和 GPU 实例闲置计费功能低成本快速搭建 LLM 应用_函数计算(FC)-阿里云帮助中心

相关链接：

[1] 指令微调版本（chat 模型）

[2] 开通函数计算服务

[3] 费用说明

[4] 函数计算控制台

[5] 公测 - 申请使用

作者：王骜

原文链接

本文为阿里云原创内容，未经允许不得转载。

一键生成视频！用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流

2024-04-03T16:29:54+08:00

SVD技术介绍

Stable Video Diffusion（以下简称 SVD），是一个图像到视频模型模型，能够以每秒 3 到 30 帧的可自定义的帧率生成 14 帧和 25 帧的视频。去年 11 月，Stability.AI 发布了它的 1.0 版本。

而这个1.1版本的模型经过训练，可在 1024x576 的分辨率下生成 25 帧。总体上他是一个生成短视频，类似gif形式的一个模型，而这个也是目前来说开源并且在直接生成视频的模型效果比较好的一个了。

还有一点需要注意，这个 SVD 和我们常用的生成视频类的操作，比如它和 AnimateDiff 相比，这是不一样的技术。但他们也可以同时放在一起使用，比如我们先用 SVD 生成一个视频，hires提升分辨率后再用 AnimateDiff 重绘等等，这又是后话了。

资源领取

点击https://click.aliyun.com/m/1000391701/ 领取 PAI-EAS 免费试用 1 个月 A10/V100 资源。注意这个免费每日是有一定限额的，先到先得哦~

等待开通完成，点击前往控制台

如果免费额度用完了，可以购买 PAI-EAS 59元抵扣200元资源包 https://www.aliyun.com/activity/2024purchase/bigdata_ai?

来到 PAI 控制台后，推荐大家在这里切换区域为华北 2（北京），组合开通勾选OSS的选项，因为已经开通过所以默认勾上了。然后等待部署，部署完成后就可以前往默认工作空间

找到左侧的 EAS 服务来部署一个实例。首次使用的时候我们需要先开通授权一下服务。

部署ComfyUI

点击部署服务，自定义部署。

自定义输入实例名称，然后在镜像内找到comfyui，版本选择0.3。

在下面选择资源信息，注意这里非常重要，需要选择试用活动的GPU，推荐大家选择A10的GPU，如果缺货也可以选择 V100、T4 等。

选择完成，都配置好后，我们点击部署，等待部署完成。由于这个镜像预制好了很多节点，所以部署可能要等上几分钟到10分钟左右。如果觉得等了很久也可以点进去服务日志查看日志输出，部署情况。等到看到这行“运行中”，即为部署完成了，我们就可以直接进入ComfyUI了。

启动ComfyUI进行模型推理

单击目标服务的服务方式列下的查看Web应用。

在WebUI页面进行模型推理验证。

我们前面提到了SVD是一个图片生成视频的模型，所以这里左侧是一个文生图的工作流，首先生成了一张图片。然后再把这张图片输入到右侧的SVD模型，进行视频生成。

根据需要，选择文生图的模型和图生视频的模型，本方案使用默认配置。然后在CLIP文本编码器中输入Prompts，修改长宽为16：9（例如384：216），单击提示词队列，等待工作流运行完成即可获得AI生成的视频。

请在【合并为视频】将视频改为GIF格式，视频生成后，右键单击生成的视频，选择 Save preview保存图像，即可将生成的GIF格式视频保存到本地，通过活动页【提交作品】参与活动！

ComfyUI 参数讲解

左侧的文生图可以调节模型，分辨率。然后是正负prompt，采样时候的种子，采样器等等。都可以随意修改。

然后来看SVD这边的参数。首先就是这个SVD 图像到视频的条件。设置宽、高，这个是视频的分辨率，不要调的太大。然后是帧数，就是一共生成多少帧。动态bucketid这个值越大，画面运动幅度越大。帧率就不用多说了。

然后是这个线性CFG引导。这个摆的位置有些靠下，其实他是在模型和k采样器之间的。他的作用是在不同的帧之间，按线性来缩放CFG值，他会从这个最小CFG值随着帧数按线性增大到K采样器设置的值。比如我们这个节点设置了为1，那么实际上的CFG就是跟随帧数从1变化到2.5。

整体来说，这个工作流就是一个入门的文生视频工作流，如果我们有需要，也可以把生成图像部分换为自己的一个图像输入，就是最原本的SVD图生视频了。

那么后续还有没有更高级的玩法呢？当然有，这里采样器输出的是每一帧的图像，我们当然也可以为他接上高清修复的流程，让他能放大，再接个其他的重绘流程都是可以的。后续就留给大家任意发挥了~

常见问题

更多操作问题可参考：https://help.aliyun.com/zh/pai/use-cases/deploy-ai-video-gene...

原文链接

本文为阿里云原创内容，未经允许不得转载。

一文看懂如何做好 SQL 质量监控

2024-04-02T16:51:56+08:00

背景

在 SLS 中，用户可以通过 SQL 对日志数据（结构化、半结构化、无结构化）进行查询和分析。随着用户对 SQL 使用程度的不断加深，越来越多的用户希望了解自己使用 SQL 分析时的服务反馈（如请求量、成功率、数据量等等），以便对数据和分析行为进行精细管理或优化治理。

“现在我这个 Project 的 SQL 并发是多少？”
“奇怪，我 SQL 请求并不多，为什么会有这么多 SQL 请求，是哪个业务线（Logstore）用的？”
“我想了解我在 SLS 中使用 SQL 分析的整体情况，请问有什么监控数据或日志可以查看？

这些都是来自 SLS 真实用户的声音，可以看出用户对于自身 SQL 分析行为的监控和质量管理有着较强的需求。

为了提升用户 SLS SQL 的使用体验，我们提供了用户级 SQL 质量监控功能，希望能够帮助用户直观、清晰地了解自身使用 SQL 的情况。

通过 CloudLens 开启使用

我们将此功能集成于 CloudLens for SLS[1]中，用户可以轻松开启该服务，并对 SQL 质量进行监控和管理。除此之外，CloudLens for SLS 还帮助您监控和管理所有 SLS 相关资源（包括采集接入、读写操作、作业、配额、SQL、计费等等），以提升您对日志服务资产的管理效率、快速了解其消耗情况。

服务开启后按照引导开通全局日志，数据同步可能需要一定时间（首次开启大约 10min），请耐心等待，随后在「报表中心 / SQL 质量监控」中即可查看完整 SQL 质量监控。

功能总览

总体上，我们为用户提供了 5 个维度的 SQL 质量监控：

SQL 健康分和使用报告
主要展示用户整体使用 SQL 的健康度和总体情况（包含一些很有意思的指标）。
SQL 服务指标
主要描述用户使用 SQL 时的整体服务情况，以便用户对服务现状有整体了解。
SQL 运行指标
主要描述 SQL 内部运行时的指标，以便用户了解自身 SQL 的实际处理表现和吞吐。
SQL Pattern
主要刻画用户提交的 SQL 范式（根据 SLS 原生 sql parse 解析并去除参数差异），以便用户识别出具有相同特征的分析业务，做相关管理和监控。
SQL 质量优化和建议
主要描述 SQL 请求的服务质量，包括用户侧错误，给出相关建议，推荐用户进行优化改善。

关于指标的说明：

所有指标以分钟为粒度，根据以下 4 个基础字段（Category 除外）作为分组维度，聚合分析计算得出。
所有指标目前不包含 JDBC 接入和 ScheduledSQL 的流量请求。
所有指标为当前状态，随产品形态和系统发展，未来可能增减指标，以帮助用户更明确的反馈服务情况。
所有指标的解释权归 SLS 所有。

SQL 健康分和使用报告

通过「SQL 健康分」，反馈用户使用 SLS SQL 服务的总体质量，进而驱动用户去做服务治理和质量优化。

UserStory：很多时候，用户在使用 SQL 的过程中，常常由于 AK 失效/授权过期/索引未建立 / SQL 语法错误等各种客观原因，而发起了大量的无效 SQL 请求，不仅占用了 SQL 请求并发配额，对于用户自身服务器资源也是无效的消耗。通过 SQL 健康分，用户可以一目了然了解自己使用 SLS SQL 的健康情况，并进行针对的优化或者治理。

同时，我们提供了一份用户最近的「SQL 使用报告」。在这里，用户可以从全局视角看到当前账户下使用 SQL 的活跃 Project、活跃 Logstore、SQL 请求量、常用请求代理、SQL 整体表现（包括延时、数据量、数据行数、返回行数、预估并发量等）

SQL 服务指标

通过「SQL 服务指标」，用户可以了解自己使用 SQL 时更详细的服务质量，包括每分钟的请求 PV 数、平均延时、请求代理分布以及延时四分位的分布水平。

通过这些时序图的趋势展示，用户可以非常直观地了解自己在哪些时段出现过 SQL 请求量飙升或延时毛刺，以便辅助分析业务问题。将时间线拉长到 1 天，用户也可以了解到自己业务高峰一般处在 1 天中的什么时刻，延时毛刺是否与请求量相关等等。

SQL 运行明细指标

通过「SQL 运行明细指标」，用户可以更进一步地了解当前 SQL 执行情况，包括并发请求（预估）、各阶段平均延时、每分钟的处理数据量和处理行数，以及细化到 Logstore 的 SQL 热力分布情况等等。

关于并发请求（预估）和各阶段平均延时的说明

首先，回答大家一个问题：为什么要有 SQL 并发控制？

SLS SQL 执行涉及到分布式计算，计算过程消耗较多算力资源，而我们的服务是面向云上多租用户的，为了保证资源的公平使用，我们为每个租户设置了合理的并发额度。

每个用户会配置 1 个并发队列和 1 个排队队列，当用户提交一条 SQL 时，会进行并发控制，若并发队列有空余，则直接运行；若并发队列满，则排队等待；若排队队列再满，则并发超限报错。

UserStory：有些用户当并发请求过高时，查询延时会有明显增高，这又是怎么回事呢？

其实，了解了上面的并发控制模型，就不难理解这一点：当一条 SQL 提交时，如果并发队列满，该 SQL 将在排队队列中等待，直到并发队列中最短的一条 SQL 执行完才能腾出空位来，这个时间间隔称为“QueuedTime（排队时间）”，所以，当出现排队时，SQL 端到端的总延时可能会增高，这其中包含了队列中等待在途 Query 完成的排队时间。

因此，为了让大家在日常使用过程中，更合理地使用并发，以及遇到并发超限时进行合理地优化处理，我们提供了并发请求（预估）和各阶段平均延时指标以供用户参考。

SQL Pattern 分析

我们提供「SQL Pattern分析」视图，将 SQL 中的变量参数进行了泛化，提炼出 SQL 语义特征，用户可以据此了解哪些特征 SQL 请求占比特多、执行特慢、处理量特大等等。

UserStory：很多时候，用户提交的 SQL 是通过程序化方式以模板+参数的方式渲染生成最终 SQL 语句，有可能多条不同的 SQL 对应的其实是同一个业务，为了让用户能更加洞悉业务特征，快速识别出存在问题或异常的业务 SQL。

String sql = String.format("* | SELECT sum(price) from log where category = %s", category_id);
// request sql to sls...

质量优化和建议

用户可以通过「质量优化和建议」了解到自己使用 SQL 的整体请求成功/失败占比、错误码的分布，我们还会给出具体的优化建议。

UserStory：很多时候，由于企业组织结构不同，在 SLS 上的资源可能分布在不同的团队，有可能运维部门负责资源的创建（如 Project/Logstore/索引），而数据部门负责数据的使用（如发起 SQL 请求），业务上的快速迭代和变化常常会导致某个 Logstore 已不存在、AK 失效、权限不足等，而数据部门却可能还一直在持续地发起大量的 SQL 请求，造成客户大量无效资源的消耗。这种情况下，各部门往往缺乏一个全局视角了解资源的整体使用情况和错误占比，我们通过优化建议可以让用户从全局视角了解到最需要优化和治理的方面，帮助提效。

最后，别忘了，以上所有 SQL 质量指标和视图还可以通过筛选 Project 和 Logstore 来实现不同维度的细化分析，希望您使用愉快并对您有用。

相关链接：

[1] CloudLens for SLS

https://sls.console.aliyun.com/lognext/app/lens/sls?resource=...

作者：顾汉杰（执少）

原文链接

本文为阿里云原创内容，未经允许不得转载。

使用 SPL 高效实现 Flink SLS Connector 下推

2024-04-01T17:21:28+08:00

1.背景

日志服务 SLS 是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务，基于日志服务的便捷的数据接入能力，可以将系统日志、业务日志等接入 SLS 进行存储、分析；阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台，在实时数据分析、风控检测等场景应用广泛。阿里云 Flink 原生支持阿里云日志服务 SLS 的 Connector，可以在阿里云 Flink 平台将 SLS 作为源表或者结果表使用。

在阿里云 Flink 配置 SLS 作为源表时，默认会消费 SLS 的 Logstore 数据进行动态表的构建，在消费的过程中，可以指定起始时间点，消费的数据也是指定时间点以后的全量数据；在特定场景中，往往只需要对某类特征的日志或者日志的某些字段进行分析处理，此类需求可以通过 Flink SQL 的 WHERE 和 SELECT 完成，这样做有两个问题：

1）Connector 从源头拉取了过多不必要的数据行或者数据列造成了网络的开销；

2）这些不必要的数据需要在 Flink 中进行过滤投影计算，这些清洗工作并不是数据分析的关注的重点，造成了计算的浪费。

对于这种场景，有没有更好的办法呢？

答案是肯定的，SLS 推出了 SPL 语言，可以高效的对日志数据的清洗，加工。这种能力也集成在了日志消费场景，包括阿里云 Flink 中 SLS Connector，通过配置 SLS SPL 即可实现对数据的清洗规则，在减少网络传输的数据量的同时，也可以减少 Flink 端计算消耗。

接下来对 SPL 及 SPL 在阿里云 Flink SLS Connector 中应用进行介绍及举例。

2.SLS SPL 介绍

SLS SPL 是日志服务推出的一款针对弱结构化的高性能日志处理语言，可以同时在 Logtail 端、查询扫描、流式消费场景使用，具有交互式、探索式、使用简洁等特点。

SPL 基本语法如下：

<data-source> 
| <spl-cmd> -option=<option> -option ... <expression>, ... as <output>, ...
| <spl-cmd> ...
| <spl-cmd> ...

是 SPL 指令，支持行过滤、列扩展、列裁剪、正则取值、字段投影、数值计算、JSON、CSV 等半结构化数据处理，具体参考 SPL 指令[1]介绍，具体来说包括：

结构化数据 SQL 计算指令：支持行过滤、列扩展、数值计算、SQL 函数调用

extend 通过 SQL 表达式计算结果产生新字段
where 根据 SQL 表达式计算结果过滤数据条目

*
| extend latency=cast(latency as BIGINT)
| where status='200' AND latency>100

字段操作指令：支持字段投影、字段重名、列裁剪

project 保留与给定模式相匹配的字段、重命名指定字段
project-away 保留与给定模式相匹配的字段、重命名指定字段
project-rename 重命名指定字段，并原样保留其他所有字段

*
| project-away -wildcard "__tag__:*"
| project-rename __source__=remote_addr

非结构化数据提取指令：支持 JSON、正则、CSV 等非结构化字段值处理

parse-regexp 提取指定字段中的正则表达式分组匹配信息
parse-json 提取指定字段中的第一层 JSON 信息
parse-csv 提取指定字段中的 CSV 格式信息

*
| parse-csv -delim='^_^' content as time, body
| parse-regexp body, '(\S+)\s+(\w+)' as msg, user

3.SPL 在 Flink SLS Connector 中的原理介绍

阿里云 Flink 支持 SLS Connector，通过 SLS Connector 实时拉取 SLS 中 Logstore 的数据，分析后的数据也可以实时写入 SLS，作为一个高性能计算引擎，Flink SQL 也在越来越广泛的应用在 Flink 计算中，借助 SQL 语法可以对结构化的数据进行分析。

在 SLS Connector 中，可以配置日志字段为 Flink SQL 中的 Table 字段，然后基于 SQL 进行数据分析；在未支持 SPL 配置之前，SLS Connector 会实时消费全量的日志数据到 Flink 计算平台，当前消费方式有如下特点：

在 Flink 中计算的往往不需要所有的日志行，比如在安全场景中，可能仅需要符合某种特征的数据，需要进行日志进行过滤，事实上不需要的日志行也会被拉取，造成网络带宽的浪费。
在 Flink 中计算的一般是特定的字段列，比如在 Logstore 中有 30 个字段，真正需要在 Flink 计算的可能仅有 10 个字段，全字段的拉取造成了网络带宽的浪费。

在以上场景中，可能会增加并不需要的网络流量和计算开销，基于这些特点，SLS 将 SPL 的能力集成到 SLS Connector 的新版本中，可以实现数据在到达 Flink 之前已经进行了行过滤和列裁剪，这些预处理能力内置在 SLS 服务端，可以达到同时节省网络流量与 Flink 计算（过滤、列裁剪）开销的目的。

3.1 原理对比

未配置 SPL 语句时：Flink 会拉取 SLS 的全量日志数据（包含所有列、所有行）进行计算，如图 1。
配置 SPL 语句时：SPL 可以对拉取到的数据如果 SPL 语句包含过滤及列裁剪等，Flink 拉取到的是进行过滤和列裁剪后部分数据进行计算，如图 2。

4.在 Flink 中使用 SLS SPL

接下来以一个 Nginx 日志为例，来介绍基于 SLS SPL 的能力来使用 Flink。为了便于演示，这里在 Flink 控制台配置 SLS 的源表，然后开启一个连续查询以观察效果。在实际使用过程中，可以直接修改 SLS 源表，保留其余分析和写出逻辑。

接下来介绍下阿里云 Flink 中使用 SPL 实现行过滤与列裁剪功能。

4.1 在 SLS 准备数据

开通 SLS，在 SLS 创建 Project，Logstore，并创建具有消费 Logstore 的权限的账号 AK/SK。
当前 Logstore 数据使用 SLS 的的 SLB 七层日志模拟接入方式产生模拟数据，其中包含 10 多个字段。

模拟接入会持续产生随机的日志数据，日志内容示例如下：

{
  "__source__": "127.0.0.1",
  "__tag__:__receive_time__": "1706531737",
  "__time__": "1706531727",
  "__topic__": "slb_layer7",
  "body_bytes_sent": "3577",
  "client_ip": "114.137.195.189",
  "host": "www.pi.mock.com",
  "http_host": "www.cwj.mock.com",
  "http_user_agent": "Mozilla/5.0 (Windows NT 6.2; rv:22.0) Gecko/20130405 Firefox/23.0",
  "request_length": "1662",
  "request_method": "GET",
  "request_time": "31",
  "request_uri": "/request/path-0/file-3",
  "scheme": "https",
  "slbid": "slb-02",
  "status": "200",
  "upstream_addr": "42.63.187.102",
  "upstream_response_time": "32",
  "upstream_status": "200",
  "vip_addr": "223.18.47.239"
}

Logstore 中 slbid 字段有两种值：slb-01 和 slb-02，对 15 分钟的日志数据进行 slbid 统计，可以发现 slb-01 与 slb-02 数量相当。

5.行过滤场景

在数据处理中过滤数据是一种常见需求，在 Flink 中可以使用 filter 算子或者 SQL 中的 where 条件进行过滤，使用非常方便；但是在 Flink 使用 filter 算子，往往意味着数据已经通过网络进入 Flink 计算引擎中，全量的数据会消耗着网络带宽和 Flink 的计算性能，这种场景下，SLS SPL 为 Flink SLS Connector 提供了一种支持过滤“下推”的能力，通过配置 SLS Connector 的 query 语句中，过滤条件，即可实现过滤条件下推。避免全量数据传输和全量数据过滤计算。

5.1 创建 SQL 作业

在阿里云 Flink 控制台创建一个空白的 SQL 的流作业草稿，点击下一步，进入作业编写。

在作业草稿中输入如下创建临时表的语句：

CREATE TEMPORARY TABLE sls_input(
  request_uri STRING,
  scheme STRING,
  slbid STRING,
  status STRING,
  `__topic__` STRING METADATA VIRTUAL,
  `__source__` STRING METADATA VIRTUAL,
  `__timestamp__` STRING METADATA VIRTUAL,
   __tag__ MAP<VARCHAR, VARCHAR> METADATA VIRTUAL,
  proctime as PROCTIME()
) WITH (
  'connector' = 'sls',
  'endpoint' ='cn-beijing-intranet.log.aliyuncs.com',
  'accessId' = '${ak}',
  'accessKey' = '${sk}',
  'starttime' = '2024-01-21 00:00:00',
  'project' ='${project}',
  'logstore' ='test-nginx-log',
  'query' = '* | where slbid = ''slb-01'''
);

这里为了演示方便，仅设置 request_uri、scheme、slbid、status 和一些元数据字段作为表字段。
${ak}、${sk}、${project} 替换为具有 Logstore 消费权限的账号。
endpoint：填写同地域的 SLS 的私网地址。
query：填写 SLS 的 SPL 语句，这里填写了 SPL 的过滤语句：* | where slbid = ''slb-01''，注意在阿里云 Flink 的 SQL 作业开发中，字符串需要使用英文单引号进行转义。

5.2 连续查询及效果

在作业中输入分析语句，按照 slbid 进行聚合查询，动态查询会根据日志的变化，实时刷新数字。

SELECT slbid, count(1) as slb_cnt FROM sls_input GROUP BY slbid

点击右上角调试按钮，进行调试，可以看到结果中 slbid 的字段值，始终是 slb-01。

可以看出设置了 SPL 语句后，sls_input 仅包含 slbid=‘slb-01’ 的数据，其他不符合条件的数据被过滤掉了。

5.3 流量对比

使用 SPL 后，可以看出在 SLS 的写流量不变的情况下，Flink 对 SLS 的读流量有大幅度下降；同时在过滤占主要很多 Flink CU 的场景下，经过过滤后，Flink CU 也会有相应的降低。

6.列裁剪场景

在数据处理中列裁剪也是一种常见需求，在原始数据中，往往会有全量的字段，但是实际的计算只需要特定的字段；类似需要在 Flink 中可以使用 project 算子或者 SQL 中的 select 进行列裁剪与变换，使用 Flink 使用 project 算子，往往意味着数据已经通过网络进入 Flink 计算引擎中，全量的数据会消耗着网络带宽和 Flink 的计算性能，这种场景下，SLS SPL 为 Flink SLS Connector 提供了一种支持投影下推的能力，通过配置 SLS Connector 的 query 参数，即可实现投影字段下推。避免全量数据传输和全量数据过滤计算。

6.1 创建 SQL 作业

创建步骤同行过滤场景，在作业草稿中输入如下创建临时表的语句，这里 query 参数配置进行了修改，在过滤的基础上增加了投影语句，可以实现从 SLS 服务端仅拉取特定字段的内容。

CREATE TEMPORARY TABLE sls_input(
  request_uri STRING,
  scheme STRING,
  slbid STRING,
  status STRING,
  `__topic__` STRING METADATA VIRTUAL,
  `__source__` STRING METADATA VIRTUAL,
  `__timestamp__` STRING METADATA VIRTUAL,
   __tag__ MAP<VARCHAR, VARCHAR> METADATA VIRTUAL,
  proctime as PROCTIME()
) WITH (
  'connector' = 'sls',
  'endpoint' ='cn-beijing-intranet.log.aliyuncs.com',
  'accessId' = '${ak}',
  'accessKey' = '${sk}',
  'starttime' = '2024-01-21 00:00:00',
  'project' ='${project}',
  'logstore' ='test-nginx-log',
  'query' = '* | where slbid = ''slb-01'' | project request_uri, scheme, slbid, status, __topic__, __source__, "__tag__:__receive_time__"'
);

为了效果，下面分行展示语句中配置，在 Flink 语句中任然需要单行配置。

* 
| where slbid = ''slb-01'' 
| project request_uri, scheme, slbid, status, __topic__, __source__, "__tag__:__receive_time__"

上面使用了 SLS SPL 的管道式语法来实现数据过滤后投影的操作，类似 Unix 管道，使用|符号将不同指令进行分割，上一条指令的输出作为下一条指令的输入，最后的指令的输出表示整个管道的输出。

6.2 连续查询及效果

在作业中输入分析语句，可以看到，结果与行过滤场景结果类似。

SELECT slbid, count(1) as slb_cnt FROM sls_input_project GROUP BY slbid

注意：这里与行过滤不同的是，上面的行过滤场景会返回全量的字段，而当前的语句令 SLS Connector 只返回特定的字段，再次减少了数据的网络传输。

7.SPL 还可以做什么

上述实例中演示了使用 SLS SPL 的过滤和投影功能来实现 SLS Connector 的“下推”功能，可以有效地减少网络流量和 Flink CU 的使用。可以避免在 Flink 进行计算之前，进行额外的过滤和投影计算消耗。
SLS SPL 的功能不止于过滤与投影，SLS SPL 完整支持的语法可以参考文档：SPL 指令[1]。同时，SPL管道式语法已全面支持在 Flink Connector 中进行配置。
SLS SPL 支持对于数据进行预处理，比如正则字段、JSON 字段，CSV 字段展开；数据格式转换，列的增加和减少；过滤等。除了用于消费场景，在 SLS 的 Scan 模式与采集端都会应用场景，以便用户在采集端、消费端都可以使用 SPL 的能力。

TorchAcc：基于 TorchXLA 的分布式训练框架

2024-04-01T15:04:07+08:00

本文旨在探讨阿里云 TorchAcc，这是一个基于 PyTorch/XLA 的大模型分布式训练框架。

过去十年 AI 领域的显著进步，关键在于训练技术的革新和模型规模的快速攀升。尽管大模型展现了堪比人类的理解力，但其训练却对算力提出了极高的要求。唯有配备充足的计算资源，方能在海量数据上有效训练大模型，确保其在有限时间内实现优质收敛。

根据上图左侧图表显示，过去五年，大模型规模的增长态势尤为突出，平均每两年大小翻 15 倍；而对于 Transformer 为代表的语言模型以及多模态模型而言，其规模膨胀速度更加惊人，每隔两年以 750 倍剧增。对比之下，右侧图表揭示了一个明显的矛盾点：不论是单个 GPU 的计算能力抑或是 GPU 显存容量的发展速度，都无法跟上模型规模如此急剧的扩张步伐。这一现实状况直接催生了对分布式训练的迫切需求。分布式训练不再局限于以往单纯的数据并行模式，而是在此基础上，更加重视并采取模型并行策略，以弥补单个计算单元算力与存储提升速度相对于模型规模增长的滞后性。

在分布式训练实践中，开发人员普遍认同，构建模型并行的分布式训练系统相比数据并行更为复杂。数据并行从分布式角度来看，其逻辑相对直接和简洁，因为每个计算节点执行的任务本质上是对等且一致的。在这种情况下，只需在训练过程末尾插入 AllReduce 步骤，将各个工作节点（worker）独立计算出的梯度差异累加整合，然后求平均值，并将最终梯度结果广播至所有参与工作的节点，用以同步更新全局模型参数。

这类简单的分布式训练范式，确实呈现出类似单机计算的特点，主要涉及全局梯度同步的 AllReduce。然而步入大模型时代，由于模型规模过大，已无法容纳于单个 GPU 之内，我们就必须采用模型并行策略，其开发难度也就陡然上升了。

原因是，模型并行需要根据模型的规模和结构来决定如何恰当地“分割”模型，即将其分割为多个可以平衡计算负载的模块。在不同的分割策略下，模型在各个节点上算子的算法实现方式会发生变化，同时，不同分割方法还会引起节点间通信原语的差异，需要精心选择最优分割方案以及配套的通信原语。

在模型分割完成后，接下来的任务就是选用适合的通信原语，并精细地调度各个算子及其相关的通信操作，力求最大化计算与网络通信的重叠（overlap），以充分发挥底层计算资源的效率。正是由于存在多种可能的分割选项与调度决策，寻求最优模型并行策略的复杂性明显高于数据并行，对开发者的技巧和经验提出了更高的要求。

本文将围绕四个核心方面展开。首个议题是如何在 TorchAcc 中实现多样化的并行策略，涵盖了常规的数据并行，以及当下备受关注的 FSDP（Fully Sharded Data Parallel，又称 ZeRO (Zero Redundancy Optimizer)) 。此外，还包括了模型并行的各种形态，诸如算子并行，即 Tensor Parallelism，以及流水线并行（Pipeline Parallelism）等。

TorchAcc 的一大亮点在于其能够自动探寻并有机整合各类并行策略，并为用户提供高度自动化的分布式策略配置方案；与此同时，为了满足高级开发者的定制化需求，TorchAcc 还提供了半自动化的控制接口，允许用户介入并调整自动探索并行策略的过程，从而在兼顾灵活性的同时，最大程度地提升训练效率和资源利用率。

通过上述方式，TorchAcc 有效地助力算法开发者将精力集中于模型自身的结构设计、训练方法的优化，以及追求模型收敛性能的提升上，而非花费精力在分布式训练的具体实现细节。TorchAcc 将智能化地协助开发者探寻并实现最佳的分布式训练方案，从而显著提升计算资源利用效率和算法迭代效率。

其次，模型并行技术的必要性是因为大模型尺寸超出单个 GPU 显存容量的限制。显存容量对于模型训练至关重要，如何打破显存瓶颈，对于提升分布式训练的整体效率来说至关重要。因此，TorchAcc 提供了一种显存智能分配器，通过对显存资源的精细化调度与地址分配策略，最大限度地提高模型并行训练时的效率，确保模型能充分利用现有的显存地址空间。

再者，随着模型结构日益复杂，且规模不断增大，用户对计算资源的需求也在持续攀升，因此，进一步优化模型在训练过程中的计算密集度及减少访存开销也非常关键。

最后，考虑到当前数据中心基础设施的发展趋势，大模型训练对网络条件的要求日渐严苛。现代数据中心服务器间的互联带宽已达到 TB 级别，以满足大规模模型并行训练对高速数据交换的需求。然而，模型并行所带来的复杂通信模式与高频次的数据交互亦会对整体训练效率构成挑战。因此，如何有效利用网络带宽，减少通信过程在迭代计算中占据的时间比例，也就成了训练效率提升的另一重要因素。

在具体实现上，TorchAcc 通过一系列技术手段，成功地将用户在前端，无论是基于 PyTorch 还是 TensorFlow 构建的模型训练过程转化为统一的中间表示层（Model IR）的 graph。其中，对于 TensorFlow 而言，因其自身就是一种计算图模型，转化过程相对直接，而对于 PyTorch，我们采用了符号式追踪（symbolic tracing）以及 LazyTensor 等技术捕获计算图，进而转化为 IR Graph。

基于中间表示层（IR Graph）的构建，TorchAcc 实施了一系列多元化的优化策略，涵盖计算优化、存储优化、通信优化以及分布式策略优化，IR Graph 以各类组合并反复执行这些优化的 Pass 后，最终得到一个最优的执行 Plan。然后交由底层 Backend 执行，以实现模型训练性能的最大化提升。

通过这一整套方案，TorchAcc 在多个模型的分布式训练场景中表现出了显著的性能优势。部分模型的训练过程得以实现高达 3 倍的性能提速，充分证明了 TorchAcc 在解决分布式训练难题上的高效性和实用性。

这张图片主要展示了 TorchAcc 的框架总体架构。TorchAcc 以 Pytorch/XLA 为基础，并 TorchAcc 依托于 OpenXLA，构建了一套大模型训练加速框架。TorchAcc 在处理使用不同前端构建的模型时，会灵活采用适宜的图捕获技术，如 Symbolic Trace 和 LazyTensor，进而生成两种不同层级的图表示：FX Graph 和 HLO Graph。其中，FX Graph 位于较高抽象层次，而 HLO Graph 则更为底层。

基于捕获到的模型计算图，TorchAcc 即可进一步展开了四类优化工作，即前文提及的计算优化、存储优化、通信优化以及分布式策略优化。

在分布式策略优化层面，TorchAcc 支持业界广泛使用的各种并行策略，并能够灵活地结合这些策略对给定模型进行有效的并行化处理。具体而言，对于数据并行 DP（Data Parallelism）、流水并行 PP（Pipeline Parallelism）以及 FSDP（Fully Sharded Data Parallel, 也称为 ZeRO）这三种分布式策略，其实现和优化都是在 FX Graph 这一较高抽象层次上完成的。

选择在 FX Graph 层面对并行策略进行操作的原因在于，这一层级所包含的关于计算图结构和操作的信息已足够丰富，足以支撑开发人员设计出适应不同并行策略的优化方案。相较于在更低层的 HLO Graph 上直接进行优化，由于 FX Graph 具有更高的抽象性和概括性，在这一层面上进行优化的成本通常较低，更容易实施高效且针对性强的分布式策略调整。

以流水并行作为例子，系统能够自动检测 FX Graph 层级上的不同阶段，并确定合适的分割点，从而有效地将模型分割为多个连续执行的阶段，实现流水线并行化。在此过程中，我们可以利用 FX Graph 提供的详细计算结构信息来进行智能分割。

至于 Tensor Parallelism （张量并行）和 Sequence Parallelism （序列并行）这两种更为复杂的并行策略，它们要求更为细致精确的信息以便进行决策。为了实现这一点，系统需要对前向传播和反向传播的整个计算图的执行计划来进行分析。这时的工作主要在 HLO 这一低级别表示层面上进行。

通过利用 PyTorch/XLA 提供的 mark sharding 接口，系统能够在模型参数上添加相应的拆分标记，然后将这些拆分信息传递给 OpenXLA 的 SPMD 优化 Pass，进而触发计算图的拆分、优化、推导和重写过程，最终实现自动的 Tensor Parallelism 和 Sequence Parallelism 功能。

在算子优化层面，TorchAcc 引入 FlashAttention 技术来提升 Attention 模块的执行效率。首先，通过 XLA 的 custom call 功能，将 FlashAttention 的实现无缝地融入到了 OpenXLA 编译器和运行时框架中。这意味着 FlashAttention 可以直接在 XLA 内核层级被执行，从而充分利用硬件加速能力。

在整合过程中，要处理好在 PyTorch 与 XLA 之间 Tensor 数据的传递问题，确保在两个系统间转换时的数据一致性与性能优化，同时，还要妥善处理 FlashAttention内部参数传递等细节问题，保证在并行计算和优化的过程中，这些关键参数能够正确且高效地应用到计算中，进一步提升模型在执行注意力机制部分的运算速度和资源利用率。

为了用户能便捷地使用 FlashAttention 优化功能，我们提供了两种接口，用户也可以直接通过 Python 接口调用预先写好的 FlashAttention 算子，第三种方法是用户可以使用我们在 OpenXLA 上写好的 Pattern Match Pass，该 Pass 能够自动识别计算图中的 Attention Block，并将这部分计算结构提取出来，替换为FlashAttention 的 custom call。这样设计的优势在于，既能充分利用 XLA 原本就十分出色的 Kernel fusion 等算子优化功能，又能结合 FlashAttention 带来的先进计算优化技术。

在 Llama 2-7B 模型的性能测试中，我们能够明显观察到上述计算优化带来的效果。通过利用 XLA 自身的优化技术，尤其是 kernel fusion，我们将大量的访存密集型算子做了有效合并，从而大幅减少其数量，在叠加 FlashAttention 后，优化性能进一步提升。

在通信优化层面，我们主要完成了三项核心任务以提升分布式训练效率：首先，我们合并了一些零散的 collective 通讯算子，通过减少算子数量来降低通讯开销和调度复杂度，其次，我们将合并的 collective 通讯算子移至独立的 CUDA Stream 上执行，这样一来，就能够异步实现计算与通讯的重叠执行。最后，我们充分利用了 OpenXLA 的 Latency Hiding Scheduler 功能，对通讯算子的调度进行了精细优化，使其尽早启动和执行，从而增强通讯与计算之间的重叠效果。

通过在 Llama2 -7B 模型上进行的端到端多机性能测试，我们发现，应用了通讯优化策略后，在 128 张 GPU 卡上进行分布式训练，优化后的加速比从原来的 88 提升到了 116，通过 timeline 图我们也可以直观地看到，优化后的通讯算子更加有序，并且能够更好地和计算重叠执行。

本文最后一个章节绍 TorchAcc 的显存优化功能，该功能通过优化计算图中算子的执行顺序以及 Tensor 在显存中的地址分配，来降低显存开销。

如图举例说明，假设有一个包含四个算子 V0、V1、V2、V3 的计算图，如果不控制算子执行顺序，如左图所示按照 V0-V1-V2-V3 的顺序执行，若每个 Tensor 按照默认方式进行显存地址申请，则可能出现如 B 图左半部分所示的情况，即显存容量不足以容纳所有 Tensor，导致 out of memory 错误。

然而，如果我们能够预判并精细管理内存分配，即在分配地址时预知后续执行的算子序列，即可如 B 图右半部分所示进行更优的显存布局，使得整体计算可在有限显存内顺利完成。更进一步，通过精确控制执行顺序，比如按照 V0-V2-V1-V3 的方式执行，可以进一步压缩显存需求至原始需求的 70% 左右。

这一理念是基于 XLA 中间表示层已有的 scheduler 和 buffer 管理机制，我们在此基础上提出了更先进的显存优化方法。目前业界存在多种优化显存分配的方法，如启发式算法、约束求解等，但这些方法往往难以兼顾时效性和高效性，在实际生产环境的集群中应用时可能存在局限性。

在训练场景中实现有效且高效的显存优化是一项极具挑战的任务，原因主要包括以下几个方面：

NP-Hard 问题本质：由于模型的规模、算子的种类繁多，以及算子间显存分配的复杂性，显存优化问题成为一个典型的 NP-hard 问题，即找到全局最优解在计算上通常是不可行的。
算子执行灵活性：训练过程中，前向传播、反向传播和权重更新等操作具有很高的灵活性，特别是在权重更新方面，梯度产生后随时可以被用于权重更新，但不同的执行时机会影响显存的申请和释放，增加了优化难度。
显存复用复杂性：在训练过程中，前向和反向传播可以通过复用显存减少重新计算，但 Tensor 生命周期的多样性和尺寸的变化使得显存复用变得极为复杂，这对启发式算法等传统优化手段构成了严峻挑战。

为了解决上述难题，我们采取了一种分治策略：

Memory-aware Weight Update Scheduler：引入了显存感知的权重更新调度器，它会根据梯度产生的时机、使用的优化器类型以及当前显存资源状况，选择合适的权重更新时间点，避免即时更新加重显存压力，特别是对于复杂的优化器如 Adam，需考虑动量和其他变量的存储。
Graph 分割与局部优化：将大计算图根据关键节点 (memory insensitive operator) 分割成多个内存无关性的子图，子图间执行顺序固定，而子图内部的执行顺序则可以多样化。通过这种方式，可以将复杂的全局线性规划问题分解成多个局部问题，在子图范围内采用高效的优化方法，如线性规划求解最优执行顺序。

通过上述分治策略，最终我们能够聚合这些子图的求解结果，这也就是我们提出的 ROAM (Reorder Operators and Arrange Tensors Address to Reduce Memory Usage) 这一内存优化探索方式。

上述方法可以成功实现对显存优化问题的高效处理。实验结果显示，与原生 PyTorch、启发式算法以及 Facebook 近期基于整数线性规划的优化方法等 baseline 相比，ROAM 分别节省了约 16%、13% 和 27% 的显存开销，且在优化时长和可扩展性方面表现出色，证实了这种方法的有效性。

从另一个维度衡量效果，我们考察了算法求解的时间开销。实验证明，在常见的深度学习场景中，我们的优化算法能够在短短几分钟内得出优化结果。从右图所示对比中可以看出，相较于 Facebook 最近提出的 MODeL（一种基于线性规划的优化方法），我们的方法在求解时间上实现了显著的缩减。原因在于，MODeL 在处理大规模图时并未对其进行有效分割，而我们的方法通过引入 memory-aware weight update scheduler 和子图划分策略，有效地降低了优化问题的空间复杂度，从而提高了求解效率。

综上所述，TorchAcc 在显存优化、计算优化、通信优化以及并行策略优化等方面均取得显著成效，全方位提升了分布式训练的效率与性能。

演讲人：林伟，阿里云研究员，阿里云人工智能平台 PAI 技术负责人

原文链接

本文为阿里云原创内容，未经允许不得转载。

PolarDB-X最佳实践系列（五）：使用通义千问和存储过程快速生成测试数据

2024-03-28T16:01:56+08:00

我们在测试数据库性能的过程中，通常需要生成一批测试数据。

以前，一般要写一段程序或者脚本来完成这项工作，但现在是2024年啦！时代变了！

PolarDB-X目前是少有的支持存储过程的分布式数据库，结合大模型，我们可以非常简单的来制造测试数据：存储过程的原理和使用方法通义官网

例如，有这样的表结构：

CREATE TABLE t2 (
        id bigint(20) NOT NULL AUTO_INCREMENT,
        c1 varchar(64) NOT NULL ,
        c2 tinyint(4) NOT NULL ,
        c3 varchar(64) NOT NULL ,
        c4 tinyint(4) NOT NULL ,
        c5 varchar(64) NOT NULL ,
        c6 bigint(20) DEFAULT NULL ,
        c7 bigint(20) DEFAULT NULL ,
        c8 double DEFAULT NULL ,
        c9 bigint(20) DEFAULT NULL ,
        PRIMARY KEY (id),
        CLUSTERED INDEX gsi1 (c3)
                PARTITION BY KEY(c3)
                PARTITIONS 32,
        UNIQUE KEY uk1 (c5, c3, c1),
        KEY idx1 (c1),
        KEY idx2 (c5, c1, c8),
        KEY idx3 (c5, c3, c8)
) ENGINE = InnoDB PARTITION BY KEY(c1) PARTITIONS 32;

我们只需要对通义千问进行提问，描述以下需求，它就能自动生成一个存储过程：

写一个存储过程，为以下表生成100万条数据，其中，c1和c5是40位的十六进制字符串。（SQL内容省略了）

通义千问生成了这样的下面的存储过程：

DELIMITER ;;
CREATE PROCEDURE GenerateTestData()
BEGIN
    DECLARE v_counter INT DEFAULT 0;
    DECLARE v_hex_string CHAR(40);
    WHILE v_counter < 1000000 DO
        -- 生成40位十六进制字符串
        SET v_hex_string = LPAD(LOWER(REPLACE(UUID(), '-', '')), 40, '0');
        INSERT INTO t2 (
            c1,
            c2,
            c3,
            c4,
            c5,
            c6,
            c7,
            c8,
            c9
        ) VALUES (
            -- 生成c1的十六进制字符串
            v_hex_string,
            -- 随机生成tinyint值（例如，范围从0到255）
            FLOOR(RAND() * 256),
            -- 生成c3的随机字符串（也可以是十六进制，这里仅作示例）
            LPAD(LOWER(REPLACE(UUID(), '-', '')), 32, '0'),
            -- 随机生成tinyint值
            FLOOR(RAND() * 256),
            -- 生成c5的十六进制字符串
            v_hex_string,
            -- 随机生成bigint值
            FLOOR(RAND() * POW(2, 63)),
            -- 随机生成bigint值
            FLOOR(RAND() * POW(2, 63)),
            -- 随机生成double值
            RAND(),
            -- 随机生成bigint值
            FLOOR(RAND() * POW(2, 63))
        );
        SET v_counter = v_counter + 1;
    END WHILE;
END;;
DELIMITER ;
CALL GenerateTestData();

由于PolarDB-X对MySQL的语法兼容都非常高，我们无需对生成结果进行修改，直接粘贴到PolarDB-X中即可执行：

喝一杯茶，我们的测试数据就创建完成了：

欢迎关注，我们会带给大家更多PolarDB-X的最佳实践！

作者：梦实

原文链接

本文为阿里云原创内容，未经允许不得转载。

从4小时到15分钟，一次分布式数据库的丝滑体验

2024-03-27T17:05:11+08:00

识货APP致力于为广大用户提供专业的网购决策指导，为喜欢追求性价比的网购朋友带来及时劲爆的运动、潮流、生活、时尚等网购优惠资讯，产品覆盖国内外主流购物商城。它提供了全球范围内的时尚品牌、潮流单品的信息，帮助用户发现和购买最新、最热、最具性价比的时尚商品。近年来，各大电商平台上的商品信息持续增加，海量商品信息增加了消费者的选购成本。识货从用户视角出发，不断整合行业渠道供给，降低发现和筛选成本，帮助用户更高效地购买到最具性价比的产品。

1.业务高速发展，平台挑战加剧

识货作为一个购物商城，为用户提供最核心的价值就是性价比。它提供的商品比价、价格订阅等特色服务为消费者在选购商品时提供了及时而精准的推荐。这一切归功于识货的数据加工平台，它负责收集同类商品全网渠道的价格信息、折扣信息、满减政策，并计算出同类商品在不同平台不同渠道的售价，通过数据服务平台推送给消费者，以便于准确锁定性价比最高的渠道。然而，随着商品种类的不断增加，大促政策的日趋复杂，数据加工平台面临着巨大的挑战。

1.1 大促期间，数据加工性能难以保证

现在各渠道平台大促期间满减、折扣越来越多样，越来越复杂。商品价格变更瞬息万变，为了在第一时间向消费者推送最及时的价格信息，数据加工性能尤为关键。在以往大促期间，最核心的价格变更动作就需要数小时完成，导致大促期间经常会接到业务部门的投诉，比如商品渠道价格波动、更新不及时等。我们也曾尝试使用更大规格的MySQL(104核)，通过增加多个只读节点、读写分离、业务模块剥离等一系列举措，但问题始终得不到有效解决。

1.2 传统读写分离，延迟不可控，稳定性堪忧

为了缓解数据加工的压力，我们尝试剥离部分只读业务，通过只读实例实现读写分离，这也是大部分业务都会做的选择。然而，识货的情况有些特别，核心数据加工场景的复杂度和并发度都非常高，对数据库的写压力非常大，高峰期单单写的QPS就能突破20万，所以主备延迟是摆在我们面前很严峻的问题，当只读业务长时间读不到准确的数据时，我们又会被迫将其临时搬回主实例，又进一步加剧了主实例的压力，陷入了无穷的死循环当中。同时，过高的主备延迟，也给数据库自身稳定性带来了极大风险。

1.3 商城扩品在即，平台处理能力捉襟见肘

识货的GMV已突破百亿，规模持续增长，预计未来几年商城将扩品3~5倍，对识货整个数据加工平台的存储和计算能力都是非常严峻的考验。目前核心业务数据库已经是最高规格，升无可升，在过去的几年大促里，资源使用率偏高，处理能力急需突破。

2.集中分布式一体化，性能提升400%

在过去的几年里，识货试图通过各种方式突破加工平台的性能瓶颈，也调研过市面上主流的分布式数据库产品，尝试通过分布式数据库的替换来解决当下问题。但是，市面上分布式数据库产品的架构、技术各不相同，为了发挥其最佳性能，都需要遵循各自的最佳实践。然而，识货的核心渠道库是自2012年创业以来的第一个库，经过十多年的沉淀，积累了众多业务模块，相互依赖关系错综复杂，且开发设计完全是单机习惯。一来很难将业务进行剥离，二来短期内也不具备分布式改造的可能，所以我们一直未能坚定地迈出分布式升级这条道路。

在我们踌躇不前、极度迷茫的时候，阿里云瑶池数据库技术团队从实际情况出发，为我们指出了一条不一样的分布式升级道路。PolarDB分布式版（PolarDB for Xscale，简称PolarDB-X）是集中分布式一体化的分布式数据库，对每一个表来说，既可以打散到不同的节点，也可以单节点存储。我们核心库的特点是表的个数非常多，并且单表体量也达到了亿级别，数据量仍然保持持续增长的势头。结合这两个特性，阿里云瑶池数据库技术团队给出了如下方案：

按业务模块区分，各个模块的表：

以单表形式存储在不同节点；

通过不同规格的DN支撑不同业务的特性，避免同一规格的DN带来的资源浪费；
通过Locality能力，确保任何表都具备任意节点间腾挪的能力，应对未来业务模型发生变化。

识货运维总监瞿晟荣表示：“这就好比我们拿出一个大规格的DN当作收纳桶，所有理不清业务逻辑的表先统一放在这里，一些核心流程上的关键业务表，我们进行单独的DN处理，上面通过CN统一管理调度，对业务代码完全无感，而底层已经悄悄完成了分布式的改造。”

在进行分布式改造后，经过大促实战验证，数据处理能力提升6倍，价格变更场景性能提升4倍，从小时级别缩短到分钟级别。

3.平滑迁移，性价比提升500%

PolarDB分布式版除了提供极致的MySQL兼容，确保识货APP业务代码0修改之外，在整个迁移过程中，也提供了丰富的手段，助力我们完成丝滑地迁移。

3.1 热力分区图

集中式往分布式的演进过程中，数据会被打散到不同节点，大家普遍担心的问题是：关联的表是否被打散到了不同的节点带来了性能瓶颈？是否访问频繁的表被打散到了同一个节点上？导致该节点资源消耗过大。

为了解决上述困扰，PolarDB分布式版提供了热力分区的功能，通过可视化的方式，实时观测各个节点的容量瓶颈和访问瓶颈，准确定位大大降低了迁移和日常运维的难度。

3.2 智能压测

核心渠道库数据加工逻辑的大量信息是来自淘宝、亚马逊、拼多多等渠道的实时价格信息，在测试环境下无法模拟，导致我们无法在测试环境进行业务压测，这给割接带来了很大风险。阿里云提供了智能压测方案CMH-DOA（也称frodo），CMH-DOA可以全量录制原生产端MySQL的全量SQL，在目标端PolarDB分布式版进行完整回放。不仅保证执行顺序与生产保持一致，同时也支持倍速回放，能够模拟更大的生产压力场景。让我们对当前数据库实例的处理能力拥有非常好的判断基准，不仅降低了割接风险，也为未来大促扩容提供了很好的参考依据。该工具目前已开源，相信未来会帮助更多的开源或商业用户，让分布式这条路更加丝滑平顺：

https://github.com/polardb/polardbx-tools/tree/frodo-v1.0.0/frodo

3.3 性价比大幅提升

在以往大促期间，我们MySQL的QPS一旦超过15w之后，性能就会明显下降，需要采取只读实例、应用限流等一系列措施，整体QPS勉强接近20w。迁移到PolarDB分布式版之后，识货在大促期间可以增加数据加工的并发，QPS峰值可以达到60w，而资源使用不超过50%。通过国际公认的性价比计算公式：price/performanc，也就是月消费/QPS峰值，计算出每个QPS成本之后，我们发现，性价比提升了500%。

4.突破瓶颈，未来可期

渠道、商品、用户是整个识货最核心的板块，我们借助PolarDB分布式版集中分布式一体化的能力轻松完成了分布式演进。通过这次升级，数据加工平台的性能和整体支撑能力得到了显著提升。

识货运维总监瞿晟荣表示：“这一次识货核心业务的分布式改造，我们没有让研发部门修改任何一行代码，性能就得到了质的飞跃。去年双11期间，我们价格清洗需要4小时完成，而今年只花了15分钟，真正做到了代码0修改的分布式迁移。在经历了618、双11多个大促，我们做到了数据库0故障的表现，我们运维部门今年也真正做到了4个9的SLO，这对整个团队来说是很大的提升。”

作者：识货运维总监瞿晟荣

原文链接

本文为阿里云原创内容，未经允许不得转载。

PolarDB-X 的 XPlan 索引选择

2024-03-27T15:19:23+08:00

前言

对于数据库来说，正确的选择索引是基本的要求，选错索引轻则导致查询缓慢，重则导致数据库整体不可用。PolarDB-X存在多种不同的索引，局部索引、全局索引、列存索引、归档表索引。

局部索引就是单机数据库上常用的索引，目的是避免全表扫描。

全局索引是分布式数据库为了避免全分片扫描，冗余一份数据，采用与主表不同分区键的索引表。

列存索引是主表的列存副本，提供HTAP能力。

归档表索引是归档表上的列布隆过滤器，为归档表提供一定的TP查询能力。

本文主要介绍一种CN上的局部索引算法：XPlan索引选择。

什么是XPlan

PolarDB-X包含计算节点(CN)和数据节点(DN)，CN负责SQL解析、优化和执行，DN节负责数据的持久化，CN与DN之间通过RPC通信。DN 100%兼容Mysql，也是作为PolarDB-X标准版进行售卖的。

CN与DN之间RPC通信的内容其实就是标准的SQL，CN会将解析优化好的语法树转成SQL传给DN重新解析、优化。对比起来，将CN的语法树直接传给DN执行听起来就更优[1]。

但这样其实不一定好，主要原因是作为存算分离的架构，数据都在DN上，DN可以直接在数据上进行index dive，而CN的统计信息是采样出来的静态数据，更新不及时，所以基数估计比不上DN精确，导致索引选择准确度不如DN，在很多场景下节省的DN解析优化的消耗远不如选错索引的后果。

但对于用户核心的点查场景，这样的CN优化一遍DN再优化一遍的流程就会成为瓶颈，所以PolarDB-X提供XPlan机制：对于点查场景，直接传输执行计划交给DN执行。

这样的定位说明XPlan不是必须的能力，而是锦上添花的能力。目前XPlan的适用范围被限定为单张表的DQL，只支持Scan、Filter和Project算子。

XPlan在Sysbench点查上有10%以上的提升，但线上在用户的真实场景下XPlan索引错选导致的慢查询问题频发。对于PolarDB-X来说，选错索引有两种可能：基数估计错误和执行计划缓存下的倾斜索引。

基数估计错误的三个常见原因统计信息缺失、倾斜数据和关联列，学术界、工业界研究了几十年都无法解决[2]。这些问题虽然无法解决，但是很容易检测到，PolarDB-X基本策略是检测到这些问题就禁用XPlan，交给DN做局部索引选择。同样发现索引错选也是容易的。通过预先和事后的检测，希望尽量减少XPlan错选概率。

PolarDB-X的优化器与索引选择

下图是一条sql过PolarDB-X优化器的大致过程：经过RBO和CBO后生成最好的单机执行计划，并基于CBO产生的最优执行计划的代价判断当前查询是否为AP查询，如果不是AP查询则直接构造单机执行计划，否则进一步考虑是否可以走列存索引。

无法走列存索引则基于最优单机执行计划插入shuffle算子构造分布式执行计划，否则将基于列存索引构造最优分布式执行计划。

局部索引、全局索引、归档表索引选择都在CBO里，局部索引选择影响的是Logicalview算子的IO代价，全局索引选择会将扫描主表的执行计划替换为全局索引回表，归档表索引选择可以将过滤条件复杂无法走索引的归档表扫描替换为多个简单走索引的归档表扫描。列存索引选择是利用列存对AP查询重新生成最优的分布式执行计划。

XPlan索引选择则是在单机优化器的最后对logicalview中进行索引选择。这与CBO里的局部索引选择不同，CBO里的局部索引选择只影响Logicalview算子的IO代价进而影响整个执行计划的代价，是CN基于自己的统计信息模拟DN做索引选择的过程，并不是DN真正使用的索引，只有XPlan会指定DN的索引。

PolarDB-X的执行计划缓存与倾斜值问题

PolarDB-X的执行计划获取大致逻辑如下

getPlan(String sql) 
    if PlanCache doesn't contain sql :
        PlanCache.put(sql, getPlanByOptimizer(sql))
    Plan =  PlanCache.get(sql)
    if PlanManager contiain sql :
        Plan = PlanManager.choose(sql)
    return Plan

所有的执行计划都会缓存在PlanCache中，如果PlanManager中有执行计划，则由PlanManager选择代价最低的执行计划。

这篇文章提及了Optimize Once和Optimize Always的概念，PolarDB-X采用的理念就是Optimize Once，尽量少进入优化器，主要的考量是PolarDB-X的优化器结构相当复杂，如果采用Optimize Always，优化器的耗时在高并发tp的查询中代价将无法忽视。

这里回顾一下Parameterized Queries的常见问题，考虑以下场景

create table hot_select (
    id int not null,
    c_int int,
    c_varchar varchar(20),
    PRIMARY KEY (`id`),
    KEY i_int(c_int),
    KEY i_varchar(c_varchar)
)

select * from hot_select where c_int = 1 and c_varchar = 'a';
select * from hot_select where c_int = 2 and c_varchar = 'a';

若满足c_int = 1的数据有1行，满足c_varchar = 'a'的数据有100行，满足c_int = 2有10000000行，则第一条查询应该走索引i_int，第二条查询应该走索引i_varchar。

但两条查询共用了同一个sql模版，同一个sql模版只会Optimize Once，这两条sql都只会走i_int，导致第二条查询事实上走错了索引。

这个问题学术界已经提出了很多解决方案[3]，PolarDB-X之前已经在线上验证过论文里面的部分方案，设计了下图所示的一套反馈和演化的机制，由于执行计划飘忽不定导致rt不稳定，最后导致反馈演化功能被关闭。TiDB也做过类似的尝试，也是强制关闭的状态。

基于大部分学术界方案生产上不可用的事实和XPlan的锦上添花定位，Xplan索引选择的设计都以不负优化为前提，PolarDB-X采取的方案有点类似于[4]，不同点在于XPlan会考虑期望基数，而是最大基数。

当然同样的问题也出现在全局索引选择上，但是由于全局索引选择的必要性，XPlan的方案并不适用，PolarDB-X有一套不同的方案来处理全局索引的倾斜值问题，在后续文章会进一步展开。

XPlan索引选择算法

XPlan核心问题有两个：如何选择索引以及如何进行执行计划传输和执行。执行计划传输和执行的大致逻辑如下图所示：在算子树上将filter尽量下推，用filter-XplanScan的pattern进行索引选择并记录到XplanScan中，基于算子树填充protobuf，利用私有协议传输给DN解析出来后直接对Innodb数据进行读取和过滤。

由于本文的主旨是XPlan索引选择而不是XPlan，这个部分不再展开，后面主要介绍如何进行XPlan的索引选择。

XPlan索引选择会尽量减少错选的概率，具体流程下图所示：首先检查当前表的统计信息是否过期，由于统计信息可能因为各种原因无法自动更新，没有统计信息的索引选择就是乱猜，所以统计系信息过期之后会禁用XPlan，有个小优化是pk、uk的查询不受此影响。

统计信息过期的时限是7天，内核每天都会自动检查并收集3天未更新的统计信息，并在完成后再次检查统计信息，依然存在超过3天未更新的表则会发出内核报警。这个判断会减少统计信息缺失导致的基数估计错误。第二步是过滤可能的倾斜索引，统计信息模块提供能力检查给定的列集合是否存在倾斜值，倾斜列的索引不会被XPlan使用。

这个过滤会减少Plan Cache导致的倾斜值问题。关联列估算错误一般是由于列间独立性假设的选择率迭乘导致基数估计过小，由于倾斜列被过滤，也不会出现关联列导致的基数估计过小。第三步利用基数估计模块挑选选择率最好的索引，只有足够好的索引才可以走XPlan。

由于XPlan是Robust Query Optimization而不会选最好的索引，所以可能选不出好索引，这种情况下也会直接禁用XPlan。最后将选择出的索引记录到XplanScan中，到此XPlan的索引选择就完成了。

再考虑一下之前的例子，由于c_int存在倾斜，XPlan不会再选择i_int而是会选择i_varchar，从而避免了倾斜值问题。

create table hot_select (
    id int not null,
    c_int int,
    c_varchar varchar(20),
    PRIMARY KEY (`id`),
    KEY i_int(c_int),
    KEY i_varchar(c_varchar)
)

select * from hot_select where c_int = 1 and c_varchar = 'a';
select * from hot_select where c_int = 2 and c_varchar = 'a';

倾斜值判断

倾斜值也就是所谓的skew data，在XPlan的场景下，只需要考虑所有索引的前缀列的组合是否有倾斜。 PolarDB-X的采样对于一张表会采出10万行数据，采样出来的频率大于5且频率/采样率大于1万就会被判断成倾斜值。

这个倾斜值判断的逻辑有改进的空间，且对抗sample的稳定性也不够强，但目前来说还是能够取得预期的效果。那么算法就很简单了，穷举n个索引的所有前缀列，判断其在sample出的10万行中最大频率是否满足上述条件即可。若索引平均列数为m，则时间复杂度为O(1e5*nm)，这个时间可以忽略不计了。

当然还有更细的优化，比如倾斜列的前缀一定是倾斜列，更大的列集合优先判断供后续剪枝之类的，不再赘述。额外提一句PolarDB-X采样采用的是block sampling[5]，在Innodb的主键上Random Walk出一些page，对于主键是天然倾斜的(特别是复合主键)，所以主键的前缀列不会做倾斜值判断。

回退机制与可观测性

鉴于DN的index dive能力对于单张表的估算有更好的表现，PolarDB-X选择的兜底策略是DN返回XPlan在Innodb上扫描的行数，CN一旦发现XPlan在索引上扫描的行数超出阈值，则关闭当前sql模版的XPlan，并发出报警。

后续12小时内对应sql模版都不会再走XPlan。这个简单的机制对于只有Plan Cache的数据库也同样有效：发现Plan Cache的查询出现异常慢的情况，可以对这个模版禁用Plan Cache。

PolarDB-X支持explain execute语法查看DN物理索引。对于XPlan，explain execute会将XPlan的上下文一直传递到执行器下发物理sql之前将其拦截，否则会在XPlan的上下文中设置无法XPlan并走回正常物理sql路径。

由于回退机制的存在，explain execute可能与线上发生问题的状态不一样，排查就会变得比较困难，所以在日志中会记录每个XPlan走的索引及在Innodb上扫描行数。

线上效果

下图是最近半个月不同版本实例XPlan报警的日平均发生率。

在优化版本XPlan索引选择逻辑改变之后，每天实例出现XPlan选错索引的概率从5%降到了0.1%，下降为原本的1/50。注意老版本的XPlan选错索引后用户可以关闭XPlan，所以真实的错选概率只会更高。

报警率概率下降的主因并不是优化器能选择对的索引了，而是优化器能不选择不对的索引了。

总结

本文详细介绍了PolarDB-X对于点查场景的专门优化XPlan的索引选择方案。

包括PolarDB-X的优化器架构和其中涉及的多种索引选择、XPlan面临的索引错选问题和其中的基数估计错误、执行计划缓存机制导致的倾斜值问题，针对性设计了一个能预先检测避免错选的算法，并提供监控报警机制、错选后的兜底回退机制以及良好的可观测性，显著降低了XPlan索引错选的概率。

当然XPlan的普适性、倾斜值判断的稳定性、关联列估算能力等都可以做进一步的优化。

引用

[1] Assembling a Query Engine From Spare Parts https://www.firebolt.io/content/firebolt-vldb-cdms-2022

[2] Efficient Query Re-optimization with Judicious Subquery Selections https://arxiv.org/pdf/2202.12535.pdf

[3] Robust Query Optimization Methods With Respect to Estimation Errors: A Survey https://dl.acm.org/doi/10.1145/2854006.2854012

[4] Towards a Robust Query Optimizer: A Principled and Practical Approach https://dl.acm.org/doi/10.1145/1066157.1066172

[5] A Survey of Data Partitioning and Sampling Methods to Support Big Data Analysis https://ieeexplore.ieee.org/document/9007871

作者：升雨

原文链接

本文为阿里云原创内容，未经允许不得转载。

选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化

2024-03-26T15:35:30+08:00

1月17日，在阿里云PolarDB开发者大会上，阿里云PolarDB分布式产品部负责人黄贵发表了《分布式的PolarDB：分布式的能力，一体化的体验》主题演讲。

黄贵表示，PolarDB分布式版（简称“PolarDB-X”）早期一直聚焦分布式形态，我们在 2023 年 10 月公有云和开源同时新增集中式形态，将分布式中的DN 多副本单独提供服务，支持 Paxos 多副本、lizard分布式事务引擎，可以100%兼容MySQL。同时，PolarDB-X 内核上具备了集中式分布式一体化的技术融合，支持集中式和分布式两种形态可以无缝切换，我们简称为“集分一体化”。

$$ 阿里云PolarDB分布式产品部负责人黄贵 $$

1.什么是PolarDB分布式版集分一体化

我们可以用一个买房子的场景来做简单的类比：

集中式数据库可以类比为90平米的小平层。大部分情况下，对于大部分三口之家来说，买一个90平米左右的两室一厅小平层就足够了。这样的房子面积适中，价格适中，打扫起来也不用花费太多的精力，能满足一家人日常的需求。但有可能偶尔也会出现房子不够住的情况，比如，有亲戚朋友来的时候。同样地，大部分情况下，对于大部分中小企业来说，集中式数据库就能满足其日常的业务需求，其资源规模适中，成本适中，运维起来也比较简单。但在少部分场景下，中小企业可能也会出现业务突增的情况，需要高并发高吞吐的数据库来处理业务，对数据库的扩展性有一定的要求。

分布式数据库可以类比为300平米的复式别墅。复式别墅的一个优点是空间大，足够一个三世同堂甚至四世同堂的大家庭居住。复式别墅的设施也比较齐全，餐厅、会客厅、衣帽间、化妆间、储藏室、车库、花园等等一应俱全，功能丰富。但它的缺点也很明显，价格昂贵，普通家庭很难负担。另外，由于空间较大，使用起来也不太方便。例如，需要上下楼梯；楼层之间的WiFi信号可能不太好，可能需要组个局域网；打扫起来不太方便，可能需要雇佣专门的人打扫。同样地，分布式数据库具备较高的性能，能够处理复杂的业务场景，满足客户对高吞吐、大存储、低延时、易扩展和超高可用数据库服务的需求。但是，分布式数据库的价格较高，技术门槛和运维成本都较高，对大部分中小企业来说其适用范围比较窄。

那么，偶尔需要扩展居住空间的小家庭应该怎么办呢？有没有这样一种房子，既有复式别墅的大空间和齐全设施，又不需要业主为此付出高昂的成本呢？在现实生活中，这应该是不太容易实现的，但在数据库这个领域，我们正在努力通过集分一体化技术满足客户的这种诉求。

所谓集分一体化，就是兼具分布式数据库的扩展性和集中式数据库的功能和单机性能，两种形态可以无缝切换。在集分一体化数据库中，数据节点被独立出来作为集中式形态，完全兼容单机数据库形态。当业务增长到需要分布式扩展的时候，架构会原地升级成分布式形态，分布式组件无缝对接到原有的数据节点上进行扩展，不需要数据迁移，也不需要应用侧做改造。

2.PolarDB分布式版为什么要做集分一体化

可能有人会问，既然大部分中小企业都没有使用分布式数据库的需求，那分布式数据库还是不是真正有效的需求？答案是肯定的，分布式数据库的需求是显性的，我们已经有客户在使用分布式数据库了，可扩展、高并发、高吞吐的分布式数据库已经运行了很多年了。

我们现在应该探讨的问题是，分布式数据库能不能给大部分情况下没有分布式需求、但偶尔有分布式需求的客户来用？从功能上讲，分布式数据库当然可以给没有分布式需求的客户用，就好比300平米的复式别墅当然可以给一个普通的三口之家用。但问题是分布式数据库的成本太高了，在常规的业务场景里，没有分布式的需求，使用分布式数据库是否有一种“杀鸡用牛刀”的感觉？对此，我们秉持的理念是“在业务无需分布式时，客户不应为此付出成本”。

PolarDB分布式版之所以要做集分一体化，就是要解决一个问题：扩展使用场景来降低用户的使用门槛，同时省去分布式数据库带来的额外成本。

我们用Demo来展示下PolarDB分布式版集分一体化的产品体验。

PolarDB-X标准版升级到企业版

3.PolarDB分布式版怎样实现集分一体化

要实现集分一体化，需要突破一系列的关键技术，我们的核心技术理念：

用分布式技术提升集中式的可靠性与扩展性。
用集中式优化分布式的性能与体验。

3.1 Paxos多副本高可用

Paxos是一种解决分布式系统一致性问题的共识协议。

PolarDB分布式版的集中式形态，基于分布式中的DN节点提供单独服务，全面享受了分布式的技术红利，基于Paxos协议的多副本，保障数据多副本之间的一致性，满足RPO=0以及RTO<30秒，可以很好地满足金融级场景的容灾诉求。

3.2 无缝升级切换

PolarDB分布式版跨形态的无缝升级切换，支持将集中式形态下的DN，逆向恢复为分布式下挂的DN节点（过程中需要构建分布式元数据、以及带DNS域名的一键切换），整个升级过程中原有集中式的数据不动，分钟级完成分布式的整体切换。

3.3 分布式事务优化

PolarDB分布式版结合DN存储节点复制组的边界，引入TableGroup（简称表组）的概念，其中一个表有多个分区，表组内所有表相同序号的分区称为分区组（Partition Group）。分布式水平扩展后会自动调度数据，但会根据调度算法保持一个分区组内涉及的多张表数据都在相同的DN存储节点上。

例如，user、orders这两张表都以hash（user_id）作为分区函数，属于一个表组，对应的分区按照分区组进行绑定调度，确保相同user_id的数据都在一个DN存储节点上，这样的事务称为单分区组事务，因为所有的事务状态都发生在一个DN存储节点上，针对该场景的事务读和写都可以简化交互流程，我们称为集中式场景的下推优化。

事务下推

PolarDB分布式版针对分布式事务的标准流程是采用2PC（Two-Phase Commit）机制，CN节点（作为TM事务管理器）会通过XA协议接口和DN节点(作为RM资源管理器)进行事务交互。标准2PC事务提交的流程会有1次全局时间戳获取+2次协议交互，整体的网络交互成本会比较高，影响分布式事务的响应时间。

上图展示了PolarDB分布式版基于表组模型下的单分区组事务的相关优化：

针对autocommit=true的单分区读和写场景，可以利用单个DN节点的单机事务机制，可以减少通过GMS元数据获取GCN，与集中式相比并不会增加任何多余的网络请求，我们称之为事务 0 PC。
针对autocommit=false的单分区写场景，可以利用单个DN节点的单机事务机制，采用COMMIT ONE PHASE语义，与分布式2PC相比少了一次PREPARE的网络阶段，我们称之为事务1PC。
其余不满足单分区组的事务场景，采用标准的2PC事务提交流程。

3.4 按需分布式演进

如上图，PolarDB分布式版在面向分布式线性扩展设计上，针对集中式的能力，引入存储池和Locality的概念：

存储池：指的是将DN存储节点划分为互不交叉的池，支持在单个存储池维度通过添加/减少DN存储节点
Locality：指的是将数据库中的对象（数据库、表、分区）通过Locality属性关联到不同的资源池。

典型的按需演进分布式的场景：

原始业务的多个单表，可以继续保持单表的形态，演进为分布式的垂直拆分，通过扩展单个存储池内的分布式节点后，可以实现多个单表在存储池多DN节点上的均衡分布。

原始业务的大表，可以在线变更为分布式表，演进为分布式的水平扩展，通过扩展单个存储池内的分布式节点后，分布式表的partition会自动进行数据均衡调度。

原始业务的多张表，大表在线变更为分布式表，单表继续保持并划分到多个存储池，整体演进为分布式的垂直拆分、水平拆分的组合场景，通过资源扩展实现线性能力。

按需演进分布式，除了基础的存储池模型定义，核心技术挑战在于如何支持更灵活的在线表变更能力（分布式DDL），目前PolarDB分布式版支持了完整的多种表类型之间的在线变更、迁移、分裂和合并等。

4.PolarDB分布式版集分一体化的落地实践

PolarDB分布式版的集分一体化自发布以来，已经在客户的业务场景中得到了实践，为客户提供了丝滑的无缝升级切换体验，解决了客户的业务痛点。识货APP的案例就是一个典型的案例。

4.1 客户痛点

识货APP是一个帮助消费者做网购决策的平台，为喜欢追求性价比的消费者提供网购优惠资讯，产品覆盖国内外主流购物商城，提供的商品比价、价格订阅等特色服务为消费者在选购商品时提供了及时而精准的推荐。

这一切归功于识货的数据加工平台，该平台负责收集同类商品全网渠道的价格信息、折扣信息、满减政策，并计算出同类商品在不同平台不同渠道的售价，然后通过数据服务平台推送给消费者，便于消费者准确锁定性价比最高的渠道。

4.1.1 大促期间，数据加工性能难以保证

现在各渠道平台大促期间满减、折扣越来越多样，越来越复杂。商品价格变更瞬息万变，为了在第一时间向消费者推送最及时的价格信息，数据加工的性能就尤为关键。

在以往的大促期间，最核心的价格变更动作就需要数小时完成，导致大促期间商品价格波动情况更新不及时，业务部门投诉比较多。客户也曾尝试使用顶配MySQL实例（104核），通过增加只读节点、读写分离、业务模块剥离等一系列举措，但问题始终得不到有效的解决。

4.1.2 商城扩品在即，平台处理能力捉襟见肘

识货的商品交易总额（GMV）已突破百亿，规模持续增长，预计未来几年内商城将扩品3~5倍，对识货整个数据加工平台的存储和计算能力都是很严峻的考验。目前核心业务的数据库已经是集中式的最高规格，升无可升，在过去的几年大促里，资源使用率偏高，处理能力急需突破。

4.2 PolarDB分布式版的解决方案

4.2.1 集中分布式一体化，性能提升400%

在过去的几年里，客户试图通过各种方式解决加工平台的性能瓶颈，也调研过市面上主流的分布式数据库产品，但是市面上的分布式数据库产品架构、技术各不相同，为了发挥其最佳性能，都需要遵循各自的最佳实践。识货的核心渠道库经过十多年的沉淀，积累了众多的业务模块，各个业务板块相互依赖关系错综复杂，且开发设计完全是单机习惯。一方面，客户很难将业务进行剥离。另一方面，短期内也不具备分布式改造的可能。所以客户一直未能坚定地迈出分布式升级这条路。

PolarDB分布式版为客户指出了一条不一样的分布式升级之路。PolarDB分布式版是一个集中式分布式一体化的数据库，每一个表既可以打散到不同的节点，也可以单节点存储。识货核心渠道库的特点是表的个数非常多，但单表体量有限，最大的日志表也只到亿级别。结合这两个特性，PolarDB分布式版给出了如下方案：

按业务模块区分，各个模块的表以单表形式存储在不同节点。
通过不同规格的DN支撑不同业务的特性，避免同一规格的DN带来的资源浪费。
通过Locality+存储池的能力，确保任何表都具备在任意节点间腾挪的能力，应对未来业务模型发生变化带来的挑战。

识货运维总监翟晟荣是这样介绍这次分布式升级的：“这就好比，我们拿出一个大规格的DN当做垃圾桶，所有理不清的业务逻辑的表先统一放在这里，一些核心流程上的关键业务表，我们给它提供单独的DN处理，上层通过分布式CN统一管理调度，对业务代码完全无感，而底层已经悄悄地完成了分布式改造。”

大促实战证明，经过这样的分布式改造后，数据处理能力提升了6倍，价格变更场景性能提升了4倍，从小时级别缩短到分钟级别。

整体的业务效果：

4.2.2 平滑迁移，性价比提升500%

PolarDB分布式版自身除了提供极致的MySQL兼容，确保了客户业务代码的0修改之外，在整个迁移过程中，也提供了丰富的功能，使迁移更丝滑。

▶︎ 热力分区图

从集中式向分布式演进的过程中，数据会被打散到不同的节点，客户普遍担心的问题包括：相关联的表是否被打散到了不同的节点带来了性能瓶颈？访问频繁的表是否被打散到了同一个节点上？为了解决这样的困扰，PolarDB分布式版提供了分区热力图的功能，可视化实时观测各节点的容量和访问的瓶颈，通过准确定位大幅降低了迁移和日常运维的难度。

▶︎ 智能压测

核心渠道库的大量信息是来自淘宝、亚马逊、拼多多等渠道的实时价格信息，在测试环境下无法模拟这些信息，导致客户无法在测试环境进行有效业务压测，这给割接带来了很大的风险。

阿里云提供了智能压测方案CMH-DOA（也称frodo)，frodo可以全量采集原生产端MySQL的SQL审计，在目标端PolarDB分布式版进行完整的流量回放，同时支持倍速回放模拟更大的生产压力场景。通过真实流量的压测验证，有效降低了割接的风险，也为未来大促扩容提供了很好的参考依据，目前该工具目前已开源。

▶︎ 性价比大幅提升

以往在大促期间，识货MySQL的QPS一旦超过15w之后，性能明显下降，通过只读实例、应用限流等一系列手段后，整体QPS也只能勉强接近20w。迁移到PolarDB分布式版之后，客户在大促期间可以增加数据加工的并发，QPS峰值可以达到60w，而资源使用不超过50%。通过国际公认的性价比计算公式：price/performance，也就是月消费/QPS峰值，计算出每个QPS的成本，可以发现性价比提升了500%。

4.2.3 平台突破瓶颈，未来可期

渠道、商品、用户是整个识货最核心的板块，借助PolarDB分布式版集分一体化的能力轻松完成分布式演进，识货运维总监翟晟荣表示：“一次识货核心业务的分布式改造，我们没有让研发部门修改任何一行代码，性能就得到了质的飞跃。去年双11期间我们价格清洗需要4小时完成，而今年只花了15分钟，真正做到了代码0修改的分布式迁移。在618、双11等多个大促期间，我们做到了数据库0故障的表现。我们运维部门今年也真正做到了4个9的SLA，这对我们团队来说是很大的提升。”

原文链接

本文为阿里云原创内容，未经允许不得转载。

PolarDB-X 最佳实践：如何设计一张订单表

2024-03-26T13:45:12+08:00

本文主要内容是如何使用全局索引与CO_HASH分区算法（CO_HASH），实现高效的多维度查询。

1.淘宝订单号中的秘密

有一个很有趣的事情。

打开你的淘宝客户端或者PC端的淘宝，点开订单列表，打开几个订单，查看他们的订单号，你会发现什么？

比如这是我最近的3个订单，和10年前的3个订单。其订单号分别是：

1249511065364414810
1238822988656414810
1236446127134414810
103698817404810
107655289504810
103719620094810

也许你会惊奇的发现，订单号的后几位好像是一样的。比如我的账号，从10年前到今天，订单号的后四位一直是4810，那么为什么？这个其实和使用分布式数据库的一个最佳实践相关。

2.经典的买卖家例子

好多年前就流传着淘宝买卖家的案例...

淘宝中有一个非常重要的表，订单表，他里面存着订单的一些关键信息，例如订单号（order_id）、卖家id（seller_id）、买家id（buyer_id）、商品id等等。有两类查询是这个表上的高频查询：

select * from orders where buyer_id = ?
select * from orders where seller_id = ?

这两个SQL的业务含义一目了然，分别是买家查询自己的订单列表和卖家查询自己的订单列表。

如果我们在单机数据库中做这两条SQL，都知道怎么做。嗯，在buyer_id和seller_id上分别建个建索引就可以了：

create index idx_buyer_id on orders (buyer_id);
create index idx_seller_id on orders (seller_id);

在数据库中，空间换时间是一个非常基本的思路，例如加索引。

如果你是用一些分库分表中间件，例如MyCAT之类的产品，对这个表做了分库分表，就需要面临一个跟单机数据库完全不一样的一个问题，该如何选择分库分表键？

一般此类中间件都会告诉你，你哪个列查的最多，就选哪个列做拆分键。

但问题来了，这两类SQL都很高频，选了buyer_id做分库分表键，那按seller_id查就会全库全表扫描；如果按seller_id做分库分表键，那按buyer_id查就会全库全表扫描。

难道鱼和熊掌不可兼得？

一般解决这类的问题的方案是，使用两套订单表，其中一套使用buyer_id做分库分表建，另一套使用seller_id做分库分表键，中间使用binlog来做同步，类似下面的样子：

这个方案是OK的，能够落地的，只不过做的过程会有些小痛苦要解决，例如：

1、这个同步怎么搞啊...，用开源的binlog订阅组件比如canal吗？那这个canal怎么运维啊...好烦
2、这个同步是有延迟的，延迟代表了数据死不一致的，应用需要有一些容错机制来避免不一致带来的影响，好烦+1
3、需要在业务里自己控制应该访问哪个表，好烦+2
4、分库分表下面有很多的mysql，要同时同步这么多的mysql...，好烦+3
5、做DDL要有些技巧，比如加列先加目标端，减列先减源端...，很多的潜规则，好烦+4
6、这才是一张表呢！我有一堆类似的场景怎么办！！好烦+10086

我们先不管这些缺点，假设我们已经这样做到了，我们成功的解决了买卖家订单问题。

3.买卖家问题进阶

我们现在又有了一个新的要考虑的SQL：

select * from orders where order_id = ?

这个SQL作用太简单了，根据订单id查订单详情嘛！

为了做这个SQL，单机里给order_id建索引即可，分库分表应该怎么做？

抢答一个！把订单表再复制一份，使用order_id做分库分表键。

听起来可以，应该能解决问题。但是，这个表多复制一份，就是多一份的代价，比如空间，比如同步链路的维护。所以，有没有更好的方法？

我们能关注到一个事情，订单id，是由我们程序控制生成的。在生成订单的时候，我们一定知道它的买家id，假如我们将买家id隐藏在订单id里，有了订单id就能算出买家id，有了买家id就可以去查买家维度的订单表了。

这样，我们还是只需要存两份数据（买家维度和卖家维度），就能同时解决三个维度的查询（买家维度、卖家维度、订单维度）。

所以现在应该明白了，为什么同一个人的淘宝订单后4位是相同的了吧。

小花絮：

我发现我11年7月10的订单号还是4810结尾，但11年6月28号及之前的订单并没有遵循这个规律。呃...这说明，淘宝应该是在11年的6.28-7.10之间做了这个优化。

4.PolarDB-X中如何实现

OK，回到我们的云原生分布式数据库PolarDB-X。

如果我们在PolarDB-X中要解决上述买卖家问题，应该怎么做？

答案是，我们只需执行以下几条SQL即可：

jcreate database ms1 mode=auto;
use ms1;
create table orders(
    order_id varchar(128) primary key,
    buyer_id varchar(128),
    seller_id varchar(128),
    index idx_buyer_id(buyer_id),
    index idx_seller_id(seller_id)
)partition by hash(order_id);
create clustered index gsi_buyer_id on orders (buyer_id) partition by hash(buyer_id);
create clustered index gsi_seller_id on orders (seller_id) partition by hash(seller_id);

然后？没有然后了啊，这就可以了。

真的可以了，你不用改SQL，不用研究Canal（其实canal作者就坐我旁边，要考虑下来玩玩吗），不用维护同步链路，不用担心数据不一致，就O！K！了！

至于按订单id查？订单id本来就是orders的主键，默认就是orders表的分区键，所以没问题的。

这么简单就OK了？为什么？

5.PolarDB-X中的全局索引

这两条语句发生了什么？实际上，他们在orders表上，创建了两条全局索引。全局索引和单机索引的原理差不多，也是空间换时间的思想，只不过它的数据以索引的key分布在整个集群中。

全局索引的创建、维护，都在PolarDB-X内核中完成的，完全不需要用户去操心。

有一个小问题，建索引的语句里面，有个clustered关键字，这是什么意思？

我们先看，如果不加clustered，会发生什么，例如：

jcreate global index gsi_buyer_id on orders (buyer_id) partition by hash(buyer_id);

主表：

PolarDB-X会定义这样的一个索引结构：

这个索引中，会包含索引的key以及主键两个列，也即order_id与buyer_id。

PolarDB-X在执行select * from orders where buyer_id = ? 的时候，会先根据buyer_id在索引idx_buyer_id上扫描出order_id，再使用order_id到主表上进行回表操作。

听起来好像没有什么问题。

但是，有一点需要考虑。请打开你的订单列表，看一下，你有多少订单：

呃...，我有126页订单，数了下，每页15个，也就是大约1800个订单。

淘宝的订单表的分区数大约是数千这个量级，你会发现，这1800个订单的回表，要覆盖相当比例的分区，似乎跟全表扫描的代价没有什么太大的差异了。

怎么办？

我们为什么要回表？其是是因为，我们的查询是SELECT *，需要这个表所有的列，而我们的索引里只包含了索引key和主键，因此需要到主表中找到剩下的列。

所以为了不回表，我们想到的一个办法，是在索引表中冗余主表的所有列，用更多的空间来换取时间。

所以，一个合格的分布式数据库，不仅需要有全局索引，还需要有聚簇的（clustered）全局索引。

Clustered index就是PolarDB-X中的概念，它相对于普通的全局索引的区别就是，它包含了表的所有列，可以避免回表的代价。

6.PolarDB-X中的CO_HASH

如果如上文所说，订单ID的后四位与买家ID的后四位相同，如何使用PolarDB-X实现此类路由逻辑呢。

PolarDB-X提供了名为CO_HASH的分区算法，可以完成这个功能：

jcreate database ms1 mode=auto;
use ms1;
create table orders(
    order_id varchar(128) primary key,
    buyer_id varchar(128),
    seller_id varchar(128),
    index idx_buyer_id(buyer_id),
    index idx_seller_id(seller_id)
)partition by co_hash(right(order_id,4), right(buyer_id,4));

create clustered index gsi_seller_id on orders (seller_id) partition by hash(seller_id);

select * from orders where buyer_id=?   //主表
select * from orders where order_id=?   //主表
select * from orders where seller_id=?   //gsi_seller_id

通过使用CO_HASH，可以省略掉buyer_id上的全局索引。

CO_HASH的更多用法参考：如何使用DDL语句创建分区表

CO_HASH的核心理念是：

有些信息来源用户的输入，例如用户系统的手机号、邮箱，订单系统中的buyer_id、seller_id；
有些信息是由“业务系统”生成的，例如用户系统中的user_id，订单系统中的order_id。

我们有时可以通过控制“业务系统”的生成逻辑，将其生成的内容与用户的输入关联起来，来达到降维的目的。

例如：

user_id中可以携带手机号的某几位，或者携带邮箱的hash值的某几位；
order_id可以携带seller_id，或者buyer_id的某几位。

CO_HASH是一种非常有用的小技巧，合理使用可以有效的减少GSI的数目。

但CO_HASH也不是万能的，它只能减少两种存在关联的维度中的一维，如果完全不存在关联，就必须使用GSI了。

7.小结

OK，总结几条这个例子告诉我们的PolarDB-X的最佳实践：

1、使用全局索引来解决类似买卖家问题的多维度查询的问题
2、当索引与主表是一对多的关系的时候，考虑使用clustered index来消灭回表的代价
3、对订单ID等做巧妙的设计，结合CO_HASH，可以省略部分全局索引。

怎么样，PolarDB-X用起来是不是非常简单，欢迎持续关注我们。

原文链接

本文为阿里云原创内容，未经允许不得转载。

M2Doc：文档版面分析的可插拔多模态融合方法

2024-03-25T16:25:44+08:00

一、文章介绍

文档版面分析任务是文档智能的一个关键任务。然而，现有的很多文档版面分析研究方法都基于通用目标检测方法，忽视了文档的文本特征而仅仅只关注于视觉特征。近年来，基于预训练的文档智能模型在很多文档下游任务中都取得了成功，然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此，本文设计了可插拔的多模态融合方法M2Doc，可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块，Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征，Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构，它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升，值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。

二、出发点

版面分析任务与目标检测任务最大的不同在于它们面向的场景不同，版面分析任务的检测目标大多都是文本区域，也即天然就具有视觉和文本两个属性，故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。
版面分析任务的多数实例都具有语义的连接关系，例如存在上下文联系的两个实例大概率属于同一个类别，故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。
现有的文档版面分析方法大多都是基于通用目标检测器改进的，它们在相对简单的物理版面分析数据集上能取得不错的成绩，但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少，且也存在效果不好参数量过大等问题。

基于上述三点，本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc，从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。

三、M2Doc框架

M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段：文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的，可以轻松应用到其他的单模态目标检测器中。

（1）文本Grid表征阶段：给定一张文档的图片，文档图片中包含多个单词，我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示，我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框，将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致，只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式，同时又使得两种模态的输入能够在像素级别上对齐，方便后面的特征融合。

（2）特征提取阶段：因为在前面我们提到两种模态的输入其实在像素级别上是对齐的，于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络，经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。

（3）Early-Fusion阶段：在传统的单模态网络中，主干网络提取出的特征需要被用来生成候选框，以及作为候选框的视觉特征表达，所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法，使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后，考虑到在第一个阶段中没有文本的地方表征为0，于是我们使用LayerNorm去归一化融合后的特征。

（4）Late-Fusion阶段：我们把第一次融合后的特征送入到候选框生成模块之后，得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。

四、实验

a) 主实验

从三个版面分析数据集的结果来看，Cascade Mask R-CNN和DINO加上M2Doc在DocLayNet、M6Doc数据集上都取得了SOTA的结果，证明了其有效性。
M2Doc相比于原有Baseline取得了很大的提升，并且VSR作为唯一一个多模态方法，它依然在DocLayNet数据集上和我们的方法相差较大，证明了M2Doc作为一个可插拔方法的有效性。
PubLayNet是一个比较简单的物理版面分析数据集，并且只区分五个和文本内容关系不大的基本元素，所以一个好的单模态检测器就已经能够在此数据集就已经能够取得不错的效果。并且和我们对比的方法大多都是用更大的主干网络(ViT、X101等)，我们也在主干网络不占优的情况下达到了一个Comparable的结果。

b) 可插拔实验

可以看到，无论是在两阶段还是端到端的检测器上，我们的方法都能够很好地提升它们在复杂版面分析数据集上的表现，证明了M2Doc优秀的泛化能力和可插拔能力。

c) 消融实验

五、总结与展望

总的来说，本文面向复杂逻辑版面分析场景提出了一个可插拔的多模态融合方法，很好地从多模态的视角出发，提升了现有的单模态目标检测器在版面分析任务上的表现。我们认为还有以下工作值得未来进行探索：

如何设计统一高效的多模态模型能够更好结合文档的视觉和文本特征是值得后续探索的。
针对M2Doc，如何设计更有效的多模态融合策略也是值得进一步探索的。
现有的关于文档的密集文本的表征方式相当复杂，如何能够进一步简化得到文本特征的步骤也值得研究。

● 论文标题：

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

● 论文作者：

张宁、郑晓怡、陈佳禹、江宗源、黄俊、薛洋、金连文

原文链接

本文为阿里云原创内容，未经允许不得转载。

叫好不叫座？Arm、英特尔、AMD 等 5 位技术大咖畅聊机密计算技术

2024-03-25T14:55:13+08:00

众所周知，我们身处一个信息爆炸的时代，数据成为了新的石油，推动了整个数字经济的发展，那么随之而来的是对数字安全性和隐私保护的日益增长关注。机密计算作为一项新兴技术，为我们如何安全处理和计算敏感数据提供了新的视角和解决方案。

在2023 龙蜥操作系统大会全面建设安全生态分论坛上，圆桌讨论环节邀请到了 Intel 安全软件与服务部首席工程师王立刚、AMD 中国区数据中心市场及业务发展总监曲大健、Arm 公司代表杨喜乐、海光安全副总裁应志伟、龙蜥社区机密计算 SIG owner 张佳等 5 位重量级大咖，机密容器（CoCo）社区Maintainer 马丁担任主持人，通过他们的经验分享和洞见对话，期待能共同绘制出一幅机密计算未来的蓝图。以下为本次圆桌讨论原文：

$$ （图/自左到右-CoCo 社区Maintainer 马丁、Intel 安全软件与服务部首席工程师王立刚、AMD 中国区数据中心市场及业务发展总监曲大健、Arm 公司代表杨喜乐、海光安全副总裁应志伟、龙蜥社区机密计算 SIG owner 张佳） $$

主持人：各位所在企业都在推动机密计算领域发展做了非常多的工作和贡献，那么首先邀请各位专家分享一下关于自己公司的机密计算路线选择和技术方向。

王立刚：非常开心和大家聊一聊英特尔对机密计算路线的想法。首先我从一个更加宏观的角度去理一理英特尔在安全领域的整体思路。英特尔在和用户的合作实践中，逐步认识到，在一个系统中不管软件实现有多么安全，总有其他一层可能会出现问题。如果想从根本上解决这个问题，只能从硬件入手，因此英特尔就有了基于硬件的各种安全技术。

英特尔安全战略分为两个主要方向，一个是保障平台的安全，另一个是保障数据的安全。保障平台安全有 Boot Guard、PFR 等技术，保障数据安全分为三个方面：存储安全、传输安全、运行时安全，而英特尔推出的 SGX 和 TDX 两种机密计算TEE 技术就是用来保障运行时的数据安全技术。

SGX 和TDX 有各自的优势，可以互为补充：SGX 更适用于对安全性要求更高、代码更易于改动或从头构建的应用 TDX 更适用于大型的成熟应用，用户可以根据使用场景选择更适合自己的技术。最后再强调一点，SGX 和 TDX 在英特尔平台上都会长期共存。

主持人：在王总分享的过程中，我听到了英特尔对于数据安全和平台安全的坚持，以及提供了 SGX 和 TDX 两种不同场景的解决方案。现在 AMD 在第三代的 EPYC 服务器处理器中也已经支持了最新的 SEV-SNP 机密计算特性，请曲大健博士分享一下 AMD 在机密计算中的设计理念、思路以及想法。

曲大健：AMD 对机密计算非常重视并且身体力行。AMD 在 2017 年已经在处理器上Enable SEV 的功能，后来加上了 SEV-ES，第三代把 SEV-SNP 全都加上。那么这三者之间都有什么区分？

SEV 只加密内存，但是没有完整性保护，外人可以改，改了就不运行了，文件或者程序改了就不保证一致性。

SEV-ES 可以把 cache 和 register 的数据再加密，加密过了从外面读不了，从里面也读不了，中间运行过程之中不会泄露。

SEV-SNP 支持防篡改，把内存中的数据加密，加密了别人改了以后就被发现，报 illegal 或者不执行。AMD 尽管经过了几代产品发展，但还是逐渐把机密计算的基本功能全都 enable，在合作的操作系统的伙伴也都把 SEV-SNP 全都 enable，云服务商在云实例上已经发了带 SEV-SNP，也就是加密的虚拟机。

未来，AMD 会逐渐和合作伙伴，包括操作系统的提供商以及其他的第三方把 SEV-SNP 功能以及其它的有关机密计算的功能全都 enable 在一起，变成一个端到端的解决方案。AMD 也会逐渐打通国内 confidential 的虚拟机，我们持续不断地朝着这个方向努力，和合作伙伴一起让用户更好地用起这个功能。

主持人：AMD 最开始从机密计算保护数据的机密性，到保护它的完整性，一直到后面的生态建设以及对 AI 等等新兴领域的知识描绘了一幅 AMD 相关硬件的发展蓝图。接下来作为全球领先的半导体设计及软件平台公司，Arm 在机密计算领域推出了相应的 Arm 机密计算架构 (Confidential Compute Architecture, CCA)，请杨喜乐分享一下 Arm CCA 在机密计算领域的一些设计哲学。

杨喜乐：Arm 在几年前发布了新一代的架构—Armv9，其中 Arm CCA 作为其中非常重要的架构特性之一，通过在 Arm 架构中引入了一个 realm 领地的安全世界，来保护用户数据在计算中的安全，包含内存加密、寄存器加密、CPU TEE 等安全执行环境。Arm 在设计 CCA 过程有三点考量：第一个是要实现机密计算技术的普惠性，我们知道之前的 TEE 技术需要开发者对应用程序进行拆解，重构成安全和非安全的部分，对一般的应用开发者来讲还是有比较高的使用门槛，CCA 真正实现了机密计算对于开发者的 lift and shift 的体验，开发者无需对应用程序作出任何改动，就可以直接将其运行在基于CCA的可信执行环境中，实现数据在计算中的安全。第二点是可扩展性，我们都知道 Arm 技术的使用场景涵盖了从数据中心到边缘计算和 IoT, 从手机桌面终端到汽车消费电子，全球有 70% 的人在使用基于 Arm 技术的产品，因此在设计 CCA 的时候，我们要考虑的一个重要问题就是如何让 CCA 真正的可扩展，实现各个场景下端到端的机密计算安全。第三个是开放和透明，大家在谈到机密计算时经常会提到 TEE（Trust Execution Environment）这个名词，其中的关键词就是 Trust，那么信任来自于什么？我们认为信任源自于开放和透明，Arm 从 CCA 发布之初，就计划将相关的 Firmware、 Kernel 和 Hypervisor，以及 CCA 中非常重要一部分远程证明方案 Veraison 开源、开放，实现机密计算技术对于整个软件栈端到端的可审计、可追溯。

主持人：Arm 其实在强调三点，就是保证生态的开放，对开发者友好和整个架构，不管是对服务器端还是移动端的，都要有可扩展性。接下来，作为国产机密计算的先行者，海光 CSV 其实也已经有了长足的发展，有请应志伟分享一下海光对机密计算解决方案的一些想法和思考。

应志伟：海光今天可能是这里唯一的国产 CPU 厂商。安全对 CPU 厂商特别重要，第一个是供应链的安全，第二个是 CPU 本身的安全性。海光这两年无论在密码技术、可信计算、机密计算都投入了很大的人力和精力。时代在变化，数据安全变得越来越重要。海光在机密计算上做了很大投入，当初面临选型的时候，一个要保证数据安全，第二个是怎么让新技术快速被接受。

最终海光选了把整个虚拟机加密这样一个机密虚拟化的路径，最近推出的海光 CSV3.0 上做了很多创新，如过去只做内存加密，而在海光CSV3.0 中不仅做了内存加密，也做了隔离。我们也通过各种各样的手段提升机密虚拟机本身的安全性，前面提到的数据安全越来越重要，将来的大模型，人工智能的数据，而机密计算扮演一个非常重要的角色，所以我们也会坚定投入下去。

主持人：海光作为国产机密计算的先行者对安全方面有极高的追求，侧信道攻击等都是非常细致的考虑，非常乐见海光 CSV 以后有更好的发展。最后一个问题留给龙蜥社区的张佳，作为云厂商，面临这么多硬件 TEE 技术路线的选择下，面向用户的产品应该怎么发展？

张佳：龙蜥作为一个中立化的社区，又是一个开源组织，非常希望在机密计算上先行试水来帮助中国的研发人员了解、掌握机密计算的一些先进技术，主要原因是机密计算真正有助于通过数据流动性，解决数据孤岛问题，是能进一步释放数据的社会、经济价值的一种突破性技术。关于多 TEE 平台，做软件的人都有一个梗，没有什么问题是不能通过在软件 stack 中再加一层解决的，所以龙蜥社区把四家知名厂商的机密计算技术引进来，在社区软件层提供一个良好的抽象。龙蜥社区最初专注于开发机密容器技术，与机密虚拟机相比，机密容器能够自然地减轻用户的工作负载，同时减少用户对操作系统或硬件知识的依赖，实现快速部署和易于掌握。因此，以机密容器为基础，在龙蜥社区内形成了针对不同 TEE 平台的多种解决方案，后来社区又做远程证明，这项将新技术是一个基于融合新技术的服务，能够让用户确信他们的工作负载和数据是在真正受 TEE 保护的安全环境下运行的。毫无疑问，远程证明服务一定也是不偏不倚的，支持所有的 TEE 平台。现在的远程证明服务已经基本上覆盖了所有的主流 CPU 的 TEE 技术。目前也正在对接和支持 Nvidia 的机密 GPU。未来更多的 TEE 硬件平台都会均衡、公平地支持 TEE 平台，为广大用户提供龙蜥方案，解决各自场景的通用远程证明问题。

主持人：从刚才的对话中，我们从几位专家这里，对硬件厂商和软件厂商对自己的产品设计思想以及背后的理念有了新的认识。接下来进入一些比较有趣的问题，进一步探讨一下当前面临的实际情况，机密计算这个方向是叫好不叫座，具体来说各位认为当前机密计算领域存在哪些主要的挑战。

张佳：关于机密计算叫好不叫座的问题，本质还是机密计算技术现在尚处于早期。我做机密计算已经有四、五年了，但是对于用户来说，他们对机密计算技术还很陌生。另外，这个问题还涉及到很多其它的原因，在这里我就列举个人切身体感，或者我认为最重要的原因，就是是在数据合规机密计算是一种安全可信技术，大家在使用安全技术时，用户的需求有点被动。机密计算做得比较好的，比如金融领域，确实正在如火如荼地快速推进展开。但是，机密计算作为一种通用可编程 TEE，属于通用计算基础设施的一部分，从这个观点来说，机密计算未来应该成为继虚拟化技术之后的通用云计算基础设施的一部分。为什么目前还没有达到这个阶段？主要原因是公有云场景下数据合规问题，俗称数据出域问题。如果机密计算在合规角度缺乏对数据出域的解释，在公有云场景下，机密计算进度一定是缓慢的。不过好消息是，现在信安标委会已经提出了一个国家的机密计算标准，目前这个标准还在草案编写中，是一个整体的技术架构标准。在具备数据合规可解释性的事情完备之前，作为技术人员，我们还是应该有一个技术判断，相信技术合规的问题一定会给一个倾向性的正确评估。在此前提下，可以提前打造和构建机密计算软件生态，做技术先行，而不必等着合规完备了才去做。

应志伟：我个人理解，除了机密计算本身的技术外，较大的问题硬件厂商、软件厂商都已经解得差不多了，但是现在机密计算距离大规模推广还有三个问题，第一个是生态上的问题，从主流的社区拉代码或者从龙蜥社区拉代码，如海光 CPU 或者其他 CPU 能不能变成默认的选项。第二个是最终客户的培育问题，目前行业中能理解机密计算到底是什么，但对于金融、运维、运营商的客户很难真正理解 TEE 是什么技术。第三点是标准问题，国内的生态和国外不太一样，比如金融企业或者运营商要用到机密计算技术，首先得证明安全，得有国家检测的标准，不是技术人员说安全他就认为安全。行业中有行业主管机构认可，能够解决某些问题。前面提到机密计算的标准还在制定中，假以时日，等到检测标准、行业规则落地后，基本会有一个爆发式的发展。

杨喜乐：刚才的嘉宾分别从合规方面，应用场景和标准等方面谈了机密计算目前存在的挑战。我这边从开发者的角度谈一下，因为我们知道一个技术的落地，最终需要开发者能将其非常容易地使用起来。现在主流的机密计算技术，可以实现开发者无需修改应用程序本身，但这里面有个问题是，如何解决远程证明问题？首先，开发者的应用程序怎么无缝的和现有的远程证明流程结合在一起。其次，现在不同架构都有各自的 TEE 实现，那么对开发者来说怎么应对这种复杂度，让应用可以更加容易的适配不同的 TEE 技术，这里面就需要很多相关的标准化工作。Arm 作为机密计算联盟(Confidential Computing Consortium)的重要成员持续和合作伙伴一起推动相关标准的建立(如 EAT, EAR 等)，我们也期待和业界同仁在这方面进行更多交流。

曲大健：刚才各位专家都从技术、开发、产品上做出了很多阐述。我个人觉得机密计算停留在开发者、产品的研发者层面上比较多。随着 AI 技术和各种各样的数字技术开发越来越广泛，在终端用户侧，很多人对技术一无所知，但是慢慢对自己的私密信息的泄露，私密信息被别人滥用方面的忧虑越来越强烈。另一方面，除了积极开发产品，积极使能机密计算的应用时，也要开始积极同步终端用户，让其知道机密计算到底是什么流程，通俗来说就是能带来什么好处。若通过龙蜥社区的open source平台，用户来买虚拟机或者实例时，询问支持机密计算吗，feature是不是都能 enable 起来，能达到以上目的，机密计算下一步的推动扫除了绝大部分障碍，就是机密计算平台大发展的分水岭。

王立刚：首先我从技术方面来聊一聊。技术方面的第一个挑战就是 CPU TEE 和外设协同机密计算能力，这个能力现在比较薄弱，外设包括 GPU、网络设备、其他的加速引擎，CPU TEE 和外设协同起来做机密计算，整个系统的机密计算能力才会更加强大。现在我们可以看到业界已经在做这方面的工作，比如 Nvidia 推出了拥有 TEE 能力的 GPU，H100、H800。第二个来自于技术方面的挑战是对于机密计算应用的开发和部署的平民化、易用化：让开发、部署机密计算应用变得更简单。这需要多方的努力，包括 TEE 的提供商、OS 提供商、独立软件的开发商。第三个技术挑战是机密计算应用开发部署的规范性。针对一些典型的应用场景，如公有云租户对于机密虚拟机的构建和部署，远程认证在几个经典应用场景的需求，应该深刻理解场景各方的需求，共同锤炼出一些能够被各方接受的、规范化的、经典的开发部署方式。技术方面的挑战算是机密计算市场的供给端，那我再介绍一下需求端。需求端从合规方面、终端用户方面，我非常认同以上嘉宾的分享观点。虽然近几年用户对机密计算认识也提高了很多，但是仍然不够，需要投入比较大的力量推广机密计算，尤其是终端用户。让数据安全的意识植根于终端用户的思维中，让他们充分认识到机密计算的作用，只有达到这样的效果，整个生态链、产业链才会活跃起来。

主持人：非常感谢几位专家分享自己对机密计算挑战的一些看法和见解，大概有三个方面的内容：首先是用户市场方面，整个机密计算市场的用户还缺少心智，可能还不太清楚机密计算能够做什么。第二方面是产品和技术研发方面。第三个是法律合规方面。在整个过程中，我听到一个很关键的信任问题，那就是用户为什么相信机密计算技术，它为什么能保护自己的信息。那行业也有人说通过开源的方式就能解决信任问题，邀请各位专家分享一下自己关于开源技术和机密计算之间的关系有什么看法。

王立刚：开源是机密计算成功的前提，也是必由之路。为什么这么说？用户在用机密计算时，忍受了一些成本损失，比如性能的损失，开发部署的不方便。那为什么大家还要用机密计算？机密计算带来了额外的价值，就是机密可信，这个可信依赖于机密计算软硬件实现的可信。这就需要整个机密计算软件模块、各个层面都需要开源，包括底层 TEE 的实现、操作系统、上层应用。只有代码开源了，别人才会信任。英特尔在机密计算开源方面一直在身体力行，比如在开发 SGX 和 TDX 时，软件模块都是开源的，包括核心的 TDX Module、SGX 的 architectural enclave。SGX 的 architectural enclave 在最初设计中放到硬件中实现，最终还是决定以开源软件的形式实现。在这里非常感谢龙蜥提供一个开源平台推广机密计算，英特尔最初也投入了比较大的资源和社区合作很多项目。SGX 和 TDX 底层软件系统软件对龙蜥适配，中间层的机密容器和容器适配，更上层的应用场景的参考方案。针对一些典型的场景，推出的解决方案，比如 PPML，也是和龙蜥合作的。今后也希望和龙蜥社区保持紧密合作，推进机密计算的开源工作。

曲大健：开源分两部分来看。第一部分是加密原理和加密流程是开源的。现在所有的 confidential computing，不管用什么加密原理都是公共的数学加密原理。第二个是通过开源社区建立生态环境时，所有的加密原理和加密流程都是开源的。让大家都可以来利用加密原理和加密流程 API 建立起自己的加密计算环境。这一点至少在开发者层面建立信任，通过难以破解的加密算法实现。从各个层面建立可信性，对加密流程和加密算法的信任，再进一步推广。接触的开发者都知道，加密原理、算法比较绕，再一步推广是让最终的用户充分理解加密是怎么实现的，这也非常重要。龙蜥社区是一个很好的平台，建议龙蜥社区做一个 Demo，不管在哔哩哔哩上或者在其他平台上做一个 Demo，社区应该想个办法做一个直观的东西提供教育场景，对机密计算的整个原理和流程产生信任感。

主持人：龙蜥社区如果能有这样一个 Demo，对于如何培养用户心智非常有帮助。

杨喜乐：前面的嘉宾从开源软件，加密方式的开源谈了很多，我这边接着刚才谈一下信任和开源。最好的信任是开放和透明，开源是实现开放和透明的一个非常好的方式，比如我刚才提到的 Arm 从底层固件到上层软件栈的开源。另外，我们也针对机密计算相关的开源项目(如机密容器)和阿里等合作伙伴也开展了很多社区层面的深入合作，最终将开源贡献输出或者落地到龙蜥社区中。

开源作为一种协作方式，提供了不同厂家开放合作的机会。开发者需要面临很多不同架构、不同 TEE 技术的差异，各个架构厂商可以通过开源社区进行合作来屏蔽不同技术的复杂度。最近在 Linux Kernel 社区中，已经实现了不同架构下统一获取 attestation token 的机制，这是一个非常好的开始。希望在开源社区中能看到更多类似的事情，给开发者提供更多统一的接口。

应志伟：前面几位专家讲得特别好，我完全同意。安全不能用黑盒子或者模糊性来代表，这是两码事。无论是加密的算法、原理、流程、架构本身都需要开源，和大家把所有东西讲清楚，最后把密钥掌握在手中，保证安全才是真正的安全，才能经得起考验。

说到海光，过去两年和开源社区打了很多交道，去年给整个开源社区大概贡献了 30 万行代码支撑海光所有的安全技术，相信通过开源的方案能把机密计算社区建立起来，总有一天在开源社区下载代码、一键使能，机密生态才可能通过拥抱开源生态的方式真正发展起来。

张佳：前面的嘉宾解释了开源软件对机密计算的必要性。龙蜥社区也正在开源社区，尤其上游社区筹备，通过技术手段把开源软件和软件供应链安全问题协同，一并解决运行在 TEE 内的开源软件的用户信任问题。

这一部分会在龙蜥以及开源社区有后续动作，我们会身体力行地应用技术手段，以自动化的方式把这个问题解决掉。

主持人：最近成立了国家数据局，国内外也制定了一系列的数据安全法。从法律法规的角度来看，机密计算作为一个底层技术来支持商业化落地等各种场景都成为了一个发展路径，请各位嘉宾用一些比较简短的话畅谈一下机密计算的未来。

张佳：机密计算未来肯定是前途无量。最关键的点还是人的问题，目前仅靠我们以及我们身后的人是不够的，关键因素是大家对技术的认知，它能解决的问题，以及是否有真正能触达终端用户的案例、方案、开源代码等等。这些问题其实是一个开源软件或者机密计算系统新兴技术都要面对的。

作为龙蜥社区机密计算 SIG Owner，我采取的策略更多的还是通过身体力行地以 engineering 的方式，从代码、开源解决方案、用户体感几个方面上，为用户提供一个入门级的开源机密计算解决方案，帮助用户快速部署和使用机密计算，并且在这个框架上继续适配迭代，形成符合自己业务落地的方案。也欢迎大家携手，能把所有的国内相关机密计算的开发资源汇总统一，在各个层面做到不内卷、不内耗、不重复造轮子，以统一标准的方式协同共建，以最小的代价快速把国产机密计算推到高峰。

应志伟：最后我讲两个故事。第一个故事是前面介绍机密计算都谈到数据安全，但事实上我在和某些国内的开发者讨论，国内的软件行业大概发生发展 20 多年，发展得并不好。国内盗版问题盛行，但是我们现在发现机密计算技术能帮助解决软件盗版问题。

国内有很多非常有才华的开发者一定能用好工具，能在各方面提供安全性，产业更好地发展。第二个故事，过去上网所有的都是上 http、比如新浪、百度网络传输都不加密，但是现在上的网站都是支持 https，如果网站不支持 https，浏览器会显示网站是不安全的，它会提示是不是还要继续点进去。

最终用户可能未必知道二者的区别，但是通过整个社区产业界的合作，把过去不安全的方法淘汰了。机密计算、隐私计算、国家数据局的成立都需要把数据流动起来，随着大家的努力，一定能看到类似的场景。比如虚拟机起来如果没有加密，标记一下这个信息不安全，这样机密计算生态就可以成了。

杨喜乐：最近半年多以 GPT 为应用的浪潮，感觉进入了 AI 时代。AI 时代中如何保证 AI从数据的产生、模型的训练、部署、推理，如何保证整个端到端的安全。

我相信机密计算应该会成为接下来整个 AI 时代非常重要的安全底座，我也希望国内的龙蜥社区能成为机密计算落地的前沿阵地。

曲大健：关于 AI 的事情，但是 AI 的现在所有的模型都是数据驱动的模型。模型可能没有太大的秘密，training 得好与不好取决于数据怎么样。AI 的三要素，算力、算法、数据。

未来，数据的交易和数据可能会变得越来越重要，尤其是做AI 应用的时候，怎么样利用加密计算保护数据，更有效地利用数据资产是一个非常重要的方面。我希望通过开源设计技术、工程师、开源社区的努力，让机密计算的应用更快更好地走向大众。

王立刚：我简单分享一下我对机密计算未来的一个愿景，希望不久的将来，每一台计算设备，不管是个人设备还是云端的服务器，都具备机密计算的能力。

机密计算服务唾手可得，数据共享，安全通畅，各位用户不再担心自己的隐私被窃取，企业用户不再为数据泄露而烦恼。

原文链接

本文为阿里云原创内容，未经允许不得转载。

SysOM 的可观测和智能监控实践

2024-03-22T17:26:45+08:00

编者按：龙蜥社区系统运维 SIG Contributor 刘馨蔚在 2023 龙蜥操作系统大会上分享了随着云原生的发展，给运维带来了极大挑战，并提到了现有运维产品的现状和不足。为了解决这些痛点，实现“零”运维，提出了两点解决方案。以下为本次分享全文：

$$ （图/龙蜥社区系统运维 SIG Contributor 刘馨蔚） $$

01 当前运维的趋势和挑战

随着云原生不断的发展，给用户带来了非常多的便利，开发会变得更简单。同时大家不用再去感知机器、容器甚至系统底层的信息。相反，用户体验的提升也带来一些挑战和机遇。

应用的运维功能上移，系统运行的情况无法深入感知，导致系统运维无所适从。基于此，龙蜥社区系统运维 SIG 打造了一站式操作系统运维平台，融入了 SIG 成员的成功商用运维实践经验，能够帮助用户在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理 SysOM（ System Operation&Maintenance）。SysOM 从两个方向去解决类似的问题，一是 SysOM 的应用观测方案，从应用视角主动观测、通过垂直往下的剖析，分析问题根因，针对 MySQL、应用调用关系追踪、Java 场景的观测方案；第二是针对大规模集群的智能监控方案，其中从容器角度、节点角度去评估集群的健康状态，并结合 AI 指标关联分析、智能化深度诊断，分析问题根因。

上图是目前运维产品的现状和挑战。比如有些配置型的部署，可能有比较多的指标，看着这些指标只知其然，不知所以然。对于系统监控，有比较熟悉的 Grafana，也有比较多的指标数据、指标大盘。但有一个问题，大家在看到这些大盘之后，并不能清楚接下来需要做什么操作动作，也不知道这些指标带来的告警意义。同样的，大家可以在用户态通过 perf 等工具进行问题的定位，而这个就需要专业级别的系统运维人员，同时通过大量的工具组合的应用，这个也可以说是难知所以然。

上图中出现的内核问题案例，由进程 B 引发了这样的申请内存并访问，进而引发了一些内存访问延时或者是内存不足的警告。但是大家可能无法立即看到它是由进程 A 不断的频繁读写文件造成大量的 page Cache 而形成的。在日常操作中，不仅是以上案例所阐述的内存问题，可能在操作系统内部网络、IO、内存、文件系统调度都存在大量的类似问题。

02 探索及实现路径

基于运维产品的现状和挑战，带大家回顾一下 Llinux 的跟踪及观测技术。

从内核态到用户态中间，比如有内核的 KO、kprobe，中间一层有 eBPF 及 tracing 的一些功能，到用户态通过 perf 或者是 libbpf 都可以实现跟踪及观测。

SysOM 也希望从底部到顶部，不管是从内核模块或者是 trace，还是 BPF，到更接近客户的应用层的 profiling，再到应用的可观测，我们希望更贴近用户，即使知道可能是比较底层的问题。但是也希望从用户的角度去解决这些问题。

上图是可观测的成熟度模型。通过可靠性和用户的满意度，希望达到最高的业务的可观测性。如最普通的监控，可以监测相关的健康的状态，或者是通过报警的规则去自动触发报警。通过不断的进步，可以从基础的可观测性到因果，到主动的可观测性，最后更加贴近用户，达到业务的可观测性。

接下来分享下 SysOM 在智能监控上的一些措施和演进道路。主要关注四个大的指标，一是延时，比如说在通过系统调用的延时或者中断的延时。第二个就是流量，包括网络的流量，或者是一些系统的吞吐和负载。第三个就是可能遇到的系统错误，包括可能会遇到的宕机、Hungtask 等，可以在系统日志中找到一些错误。第四个就是饱和度，这个是在有限资源的使用情况下，比如说 CPU 或者内存，是否有使用超限的情况。通过以上监控报警指标，结合自动化分析诊断、根因分析，达到自动化修复，快速修复的过程。

值得一提的是，智能监控包含了集群健康度的评估。包括容器、节点到整个集群方面，都有一系列的评估标准，以此来去评估节点、容器、集群是否有健康度。由于在多个指标当中，并不一定能够快速的去定位到当前整个集群的状态，可能某一些指标或者是一些联合的指标都有问题的时候，可以反映出集群是否健康的程度。同时再结合指标关联的根因分析，去实现从众多的指标监控收集上来的信息去自动化的分发诊断，匹配更深层的诊断，得到更好的解决方案。

对于混部场景，龙蜥社区系统运维 SIG 也有一些探索。首先是对整个资源画像去做了算法上的研究。由于在线任务是普遍存在潮汐规律的，所以在混步场景中会对它进行资源画像的训练。同时，还会对相关的水位进行评估。通过训练和评估之后，会给出系统参数的一些配置和调整建议。

综上两个方面，我们是希望从底层去进行监控上的采集指标，结合中心端数据分析，例如指标关联分析、日志分析、异常事件分析，做到轻量级的诊断，能够自动化的进行，或者是提示给用户可以进行更深层次的一些诊断。做到这样的 AI 根因分析和智能诊断，实现应用性能和瓶颈发现、智能监控、异常告警及深入诊断。

03 SysOM 应用观测实践

从应用观测上来说，主要是想深度剖析的问题成因，自顶向下的关联去降低应用运维门槛，可以覆盖典型的包括 Mysql、Java 和 Nginx 这样的应用，包括全局的流量拓扑、数据库可应用的观测、Java 应用的可观测和 HTTP 应用的可观测。

上图就是全局流量拓扑。可以看到如果节点异常的时候会将它标红，同时轻触会有相关的弹出指标，可以跳转到应用的监控大盘或者是异常事件的大盘。通过调转之后，再去进行相应的分析诊断，根因分析。这样的全局流量拓扑，也使得用户能够有更直观的场景，去看到集群或者主机上的应用状态。

上图是 Mysql 的应用实践。可以看到指标监控出现了一些异常的浮动。点击相关的异常，看到下面可以观测到 RT 也高上来，点击图示的一些异常或者 RT 高的事件之后，可以进入相关的分析诊断页面，会给用户提示出相关的诊断信息，或者是否需要进行相关的深入诊断。

对于 Nginx 应用也是类似，会观测到指标的异常或者是数据的抖动，也有相对应的异常事件可以进行点击跳转，去到更加深层次的诊断。

对于Java 的应用，会关注实时 RT 或者是一占用 CPU 高的一些指标，或者是如上图右下角所示的一些抖动。对于Java 运行时的分析，在 SysOM 整个运行页面上，可以点击左上角去进行异常原因的进一步诊断，同时会给出修复的建议。同时结合 Java 调用栈去给出关键的调用栈信息。再比如刚刚上图还有实时 RT，可能也有一些走延时增大这样的现象，也是同样的进入诊断界面可以看到，此时主要时间是消耗在 CPU 上。对于抖动，也可以从左键点入进入指标异常分析，类似的有对于多个指标进行指标关联，指标对比，再去通过指标给出更加详细的异常原因和推荐进一步的诊断和修复建议。

04 SysOM 智能监控实践

上图是对机器上的监控告警，是系统 fd 超过的告警。通过点击告警按钮的详细之后，可以看到目前是怎样的系统情况会报警，同时可以看到节点 fd 使用量的 top10 的进程，可以很快的找出是哪些进程去造成了这一次的异常，进而给出相关的修复建议。

上图是集群健康度的实际实践应用，包括节点、容器、集群，都有一套衡量健康度的体系，不需要关注过多的指标，后台就会将这些指标进行关联根因分析，再去体现集群节点健康度。

指标关联，会去关联后台众多的指标，给出异常原因的分析和接下来可以用到的诊断建议。

上图中的案例是分析 CPU 利用率高的问题。大家在指标异常点中，可以点击异常点，会跳转诊断中心链接，再去用深度诊断的工具，进行 CPU 高的问题分析。

原文链接

本文为阿里云原创内容，未经允许不得转载。

英特尔助力龙蜥加速 AI 应用及 LLM 性能

2024-03-22T15:14:23+08:00

操作系统的发展离不开南北向软硬件生态的扩展和支持，龙蜥社区也离不开各合作伙伴的共创。在 2023 龙蜥操作系统大会全面拥抱智算时代分论坛上，英特尔 AI 软件工程师王华强从两方面分享了英特尔至强处理器平台上的两个重点算力和内存带宽，以及英特尔 xFasterTransformer 开源项目（主要用于 CPU 平台）、xFT 开发软件图、软件架构和特点以及基于 xFT 平台大语言模型对比公开的性能数据。以下为本次分享原文：

$$ （图/英特尔 AI 软件工程师王华强） $$

2023 年 12 月，英特尔发布了第五代至强的服务器平台，在 2023 年初发布了第四代至强服务器平台。服务器发布通常称之为 jtalk，一代 CPU 注重于特性，注重架构的升级，引入很多的特性。这一代 CPU 力度优化，会带来更多的 CPU 核心数，更高的 CPU 频率。刚发布的第五代至强服务器属于密度优化，第四代属于架构升级。

第四代至强可扩展处理器引入的一些新特性，其中一个是内存画面，引入 DDR5 规格的频率支持。第四代 DDR5 频率支持 4800MT 每秒，第五代 CPU 支持 5600MT 每秒，对比第三代 3200MT 每秒，内存带宽几乎翻一倍。另外一个提升来自数据总线，第四代至强开始支持 PCIE5.0 的数据总线，PCIE5.0 速度已经跑到 32GB 每秒，组件带宽的提升为 CPU 引入更多的设备带来了可能。这些设备其中之一就是 CXL，第四代至强支持 CXL1.1 。在这代平台上，开始有一个专门的系列 AMX 系列，支持 HBM 的内存。针对一些细分的业务领域，在芯片上集成了众多的加速器，QAT、IAA，可以加速加解密、压缩解压缩的业务。在对这些业务进行加速的同时，可以节省 CPU 的资源，起到 offload 作用。加速器用于网络负载均衡方面集成了 DLB 加速引擎。对于人工智能 AI，特别引入一个 AR 加速引擎，称之 AMS 加速引擎，AMS 主要做矩阵的运算。

大语言模型算法的基础就是 transform，再往下分可能是 atention、MLP 各种算法。这些算法需要很多变化，要有很多运算。典型算法是向量乘向量的计算，或者是矩阵乘矩阵的运算，大语言模型对算力的要求很高。

接下来回顾英特尔 CPU 尤其是服务器，了解一下算力如何演进。

在了解英特尔算力演进前先了解大语言模型向量乘向量或者矩阵乘矩阵，它们要做的事情都可以往下 breakdown 成 A 乘 B 再加上 C 这样的运算。为了完成乘加的运算，在早期平台比如像第一代 SKYLAKE 平台上需要三条指令去完成这样的运算。在后来的 CPU 上引入了 VNNI，如果数据的精度是 8bit，比较整齐用一条 VNNI 指令就可以完成乘加的运算。第四代引入了 AMX 矩阵运算单元，可以完成一个 A 矩阵乘 B 矩阵得到 C 矩阵。如果运算的 A 矩阵和 B 矩阵数据是 8bit 整形，可以一次性完成 16 行 64 列的 A 矩阵乘 64 行 16 列的矩阵。如果数据精度是 16bit 浮点，可以完成 16 行 32 列乘 32 行 16 列的矩阵相乘。

大语言模型对于硬件资源的另一需求体现在内存带宽上。要进行一次推理需要将所有的模型权重访问一遍，以 LLM 模型为例有 70 个并列参数，这些模型参数通常大于硬件容量，所以模型参数通常放在内存中。每进行一次推理，需要将参数或者模型权重访问一遍，需要很大的内存带宽。

第四代引入了 HBM 支持，但不是第四代所有的芯片都支持，只有 Max 系列的 CPU 上会集成 64GB 的 HBM 内存，再加上系统在 DDR 通道上支持的内存，实现了 1TB 每秒内存带宽的内存区域，兼顾了内存速度和内存容量。

对于内存带宽的扩展，第四代至强 CPU 同时支持 CXL 内存，在分享前先介绍 CXL 总线的一些基础知识。CXL 内存协议分为三个内存子协议：CXLIO、CXL.Cache、CXL.Memory。CXLIO 类似 PCle 总线，CXL.Cache 支持 CXL.Cache 设备，例如 CPU 网卡显卡，只要支持了 CXL.Cache 协议，就可以由硬件来保持网卡 GPU 等之间的一致性。CXL.Memory 类似普通内存。CXL 协议是由众多厂家推出的协议，第四代至强服务器已经开始支持 CXL1.1 设备，可以用 CXL1.1 所支持的 CXL.Memory 进行内存扩展。原有 8 个 DDR 通道可以用 CXL 再扩展 4 个通道，结合 CXL 内存可以将内存带宽做 50% 的提升。

FasterTransformer 项目用于 GPU 推理，xFasterTransformer 主要注重 CPU 平台例如 Llama、ChatGLM 平台大语言模型推理的优化。xFasterTransformer 关注英特尔硬件的加速特性，对于英特尔平台尤其至强平台有特别优化。该项目遵循了 Apache 开源协议，欢迎大家下载试用。

xFasterTransformer 在 2023 年 3 月份开源，开源初就支持 ChatGLM 系列以及 Llama 小模型。数据精度除了 Float 外还支持 BF16、INT8 等混合精度。它支持分布式推理，如果一台服务器算力不够，可以搭建小型集群进行分布式推理。在第四季度对该项目做了更新，支持百度百窗系列的模型推理，支持 Llama2 模型推理，该模型在分布式小集群上进行推理，支持了 8bit 转型的数据精度。在 2024 年 Q1 会做一些优化例如使用 FP16 数据精度、使用 AMX 做优化，也会对 batching 做进一步优化。

xFT 整个软件架构建立的硬件是英特尔各种各样的 xeon 平台，也可能是支持 HBM 的 xeon 等，不同的硬件平台有不同的硬件特性。例如第四代第五代支持 AMX，但是在第一代并不支持 AMX 加速引擎，硬件的适配工作由软件架构的最底层的库进行适配。上图右边 OneCCL 做分布式通讯框架，OeDNN 做计算，IG 库还没有开源，专门针对大语言模型集中运算的特点所作的库。xFT 针对 Transformer 的算法做了一些封装，包括 atention、MLP 等。值得一提的是，这些算法都支持分布式计算，如果使用 atention 算力时间过长，可以使用集群方式将计算分布到多个机器上。xFT 从接口上支持 C++ 和 Python 接口。

xFT有三个特点，上面提到第一个特点是分布式计算，另外 xFT 集成开发基于 C++，保证推理框架的高性能。除此之外 xFT 也有其他的一些优化特点：实现了 Flash Attention 优化，CPU 版本通过 Flash Attention 可以减少内存带宽。多进程通信实现了内存零拷贝的算法，基于 GEMV 算法实现了零拷贝需求。针对 Attention、Normlous 算法，针对模型特点做了一些融合。

上图展示最近公开的性能数据。性能测试平台是在支持 HBM 第四代的 MAX CPU 上进行测试的，衡量性能指标采用 Next Token，推理出的模型首次词的平均时间。两个模型分别是 Llama 2 7B 模型和 Llama 2 13B 模型，从比较常用的 1024 Input token 参数来看，选用 Llama 2 7B 模型的平均 latency 是 59 毫秒，Llama 2 13B 模型输入 1024 尺寸产生的 latency 是 94 毫秒。

原文链接

本文为阿里云原创内容，未经允许不得转载。

重新审视 CXL 时代下的分布式内存

2024-03-21T16:21:56+08:00

消息传递与分布式共享内存

随着摩尔定律增长的逐渐减缓，系统规模的水平扩展已经成为提升系统性能的关键策略。然而，这种扩展依赖于分布式系统架构的支持，而分布式编程的固有复杂性给构建高效、可靠及弹性的系统带来了严峻挑战。因此，简化分布式编程依旧是分布式编程框架追求的核心目标。

如图所示，在分布式编程领域，目前主流的编程范式主要分为两类：消息传递（Message Passing，MP）和分布式共享内存（Distributed Shared Memory，DSM）。DSM 范式因其提供一致的内存空间视图和抽象化的数据通信复杂性而更易于使用，这样的设计让分布式应用程序的能够直接编程就像在单机上进行多线程编程一样简单。然而，在实际应用中，较为直接但不太直观的 MP 模型却更为普遍。开发者对 MP 的偏好很大程度上基于这样一个假设：远程通信的高昂开销显著影响了 DSM 系统的性能。

但是随着网络和互联技术的飞速发展，研究者在逐渐改变对于该领域的看法，特别是随着 Compute Express Link（CXL）技术的推出，我们站在了一个重新思考传统分布式编程范式的新起点。这个技术突破促使我们必须重新评估 DSM 在现代分布式系统中的应用潜力。

从以太网到 RDMA 再到 CXL

从工业界将重心从以太网转移到远程直接内存访问（RDMA），再到当前对Compute Express Link（CXL）的关注，这一连串变迁标志着互连技术领域的一系列重大突破。RDMA 的广泛采用极大地革新了现代数据中心的构架，并对众多流行的分布式系统设计产生了深远影响，其中包括许多影响深远的数据库和存储项目。通过利用 RDMA，我们能够将远程数据访问的延迟从 100 多毫秒显著降低到微秒量级，同时提供类似本机内存的读/写接口，极大地减少了远程操作的成本。作为最前沿的互联协议，CXL 旨在提供高速且具备缓存一致性的跨物理节点数据传输。例如，DirectCXL[1] 将主机处理器与远程内存资源连接，支持加载/存储指令，其远程 CXL内存访问的延迟大约为 300 纳秒，与访问远程 NUMA 节点的延迟相媲美。CXL 2.0 的一个关键进步在于引入了内存池化功能，该功能可以构建全局内存资源池，以此优化内存的总体利用率。内存池化可以通过 CXL 交换机和内存控制器实现，便于内存资源的动态分配与回收。Pond 作为第一个满足云服务提供商需求的全栈内存池[2]，其基于 CXL 的内存池系统已在 Microsoft Azure 云平台上进行了小范围部署。至今，大部分主流云服务提供商都相继宣布了支持并研发基于 CXL 内存池的计划。

进一步地，已公布的 CXL 3.0/3.1 等规范版本，承诺将支持内存共享功能[3]。共享内存允许在多台机器间映射同一内存区域，在这样的配置下，硬件会自动管理不同机器并发访问产生的缓存一致性问题，从本质上实现了基于硬件的分布式共享内存模型。这一革命性的新功能为分布式计算的未来奠定了充满无限可能性的基石。

重温 CXL 时代 DSM 范式下的分布式应用

尽管 Compute Express Link（CXL）的规范版本已经发展至 3.1，实际的硬件实现却远未跟上规范的快速进步。但这正是一个在即将来临的 CXL 时代背景下，对消息传递（MP）和分布式共享内存（DSM）之间区别重新审视的绝佳时机，关键在于理解它们的差异性，并识别最适合它们的应用场景。这两种范式的主要区别在于它们所采用的接口：MP 依靠传统的发送/接收接口，而 CXL 通过提供更细粒度的远程 LOAD/STORE 指令集与 DSM 实现更紧密的一致性。然而，我们认为计算与内存关系的根本假设才是更关键的考量因素。

首先，消息传递范式倾向于采取紧密耦合的架构，每个节点仅能访问其本地内存。而支持 CXL 的 DSM 系统则自然倾向于解耦架构，将计算和内存资源分散到不同的资源池中[4]，这样做能够实现资源的更灵活、更高效利用。其次，就数据通信而言，消息传递通常涉及将数据有效负载从一个节点复制到另一个节点，这是一种按值传递（pass-by-value）的方法。另一方面 DSM 使用了引用传递的方法，只需要交换对于对象的引用使用了引用传递（pass-by-reference）方法。这有助于仅访问必要的数据部分，并实现就地更新，为一些特性的场景带来显著的性能提升。例如，我们开发了一个基于 CXL 的 RPC 系统POC，用于验证引用传递的优势。它避免了数据复制和网络栈的开销，因此吞吐量比传统的基于 RDMA 的 RPC 系统高出 4 倍以上。

最后，DSM 提供了全局内存空间的可访问性，这意味着所有数据和状态都是共享的。这一特性有利于工作负载的快速迁移。例如，在“share-nothing”架构中解决负载不均衡问题通常需要数据的大量重新分区，而在“share-everything”模式下，只需交换代表数据分区所有权的元数据即可。

总而言之，在那些需要高度灵活性的应用场景中，基于 CXL 的 DSM 表现出色。CXL 架构自然支持这种灵活性，它提供了动态且高效的方式来分配和访问远程内存资源，这对于需要能够快速、高效扩展的系统来说至关重要。

基于 CXL 的 DSM 面临的挑战

然而，过渡到基于 CXL 的 DSM 范式不仅仅只是享受硬件进步的红利。DSM 范式通过使用同一地址内存空间来维护共享状态，从而实现更快的数据传输和迁移，同时将计算与内存解耦以增强可扩展性。然而，考虑到并发访问的情况以及可能出现的部分故障（partial failure），管理这些共享状态会比传统的 share-nothing 架构更加复杂。

本质上，我们面临的挑战源于共享分布式对象和引用它们的客户端分别有单独的故障域。具有这种单独的故障域，能够允许客户端在执行任务期间自由加入、离开系统甚至宕机，因为它们创建、释放和交换对远程内存的引用。虽然这种灵活性是用户友好的，但它给内存管理带来了巨大的挑战。我们将其称为部分故障弹性 DSM (RDSM)，以将其与所有客户端同时失败的情况区分开来。我们认为，有效处理部分故障对于扩大 DSM 的使用至关重要。

为了应对这些挑战，我们在 SOSP 23 上的论文“Partial Failure Resilient Memory Management System for (CXL-based) Distributed Shared Memory”[5] 提出了一种采用引用计数来减少回收远程内存所涉及的手动工作量的方法。然而，标准引用计数系统对于系统故障而言鲁棒性并不强。我们将维护自动引用计数的过程分为两个不同的操作。当客户端想要创建引用时，第一步是增加引用计数。接下来，我们通过将引用的值赋为被引用空间的地址来链接该引用。而回收引用是一个类似的两步过程：递减引用计数，然后将引用设置为 NULL。虽然只有两个简单的步骤，但它们的顺序至关重要。如果这两个步骤之间发生系统崩溃，就会出现问题。

例如，如果我们增加引用计数但由于崩溃而未能设置引用，则可能会导致内存泄漏。一个简单的解决方案是使用锁来确保引用计数的修改是幂等的，并记录此更改以用于后续出现错误之后的恢复。然而这种方法仅在所有客户端同时失败的情况下才有效。在部分失败的情况下，客户端可能在获取锁后崩溃，这可能会导致我们方案进一步的复杂化。为了解决这个问题，我们改变了原始算法中使用锁的方式，转而使用了分布式矢量时钟来做非阻塞更新。这一调整使我们能够保持全局一致的时间表，而不需要锁机制。有关该方法的更多详细信息请参见论文。

未来方向：基于 CXL 的 DSM 商业化策略

除了探究基于 CXL 的部分故障容错 DSM 架构的技术细节，我们还发现这种范式与云计算的发展方向不谋而合；云计算本质上追求的是极致的弹性。云基础架构的演进带来了更细腻的计费模式，促使用户和提供方都能实现更高层次的资源使用效率。然而，由于传统应用程序固有的缺乏弹性，尤其是它们对内存状态的本地化处理，常常未能充分利用这些技术进步带来的潜在优势。突破这一局限，将是 CXL 研究领域面临的重要机会和挑战。

后记

受到 ACM SIGOPS（美国计算机协会操作系统兴趣组）邀请，本文英文版发表在该协会的博客上（https://www.sigops.org/2024/revisiting-distributed-memory-in-...）。本文的相关工作 CXL-SHM 则发表在操作系统顶级会议 SOSP 23 上。

作者：阿里巴巴技术专家马腾、清华大学助理教授章明星

引用

[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. 2022. Direct Access High-Performance Memory Disaggregation with DirectCXL. In 2022 USENIX Annual Technical Conference (USENIX ATC 22). 287–294.
[2] LI, H., BERGER, D. S., HSU, L., ERNST, D., ZARDOSHTI, P., NOVAKOVIC, S., SHAH, M., RAJADNYA, S.,LEE, S., AGARWAL, I., ET AL. Pond: Cxl-based memory pooling systems for cloud platforms. In Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2 (2023), pp. 574–587.
[3] 2022. Compute Express Link 3.0. https://www.computeexpresslink.org/_files/ugd/0c1418_a8713008...
[4] 2022. Compute Express Link CXL 3.0 is the Exciting Building Block for Disaggregation. https://www.servethehome.com/compute-expresslink-cxl-3-0-is-t...
[5] ZHANG, M., MA, T., HUA, J., LIU, Z., CHEN, K., DING, N., DU, F., JIANG, J., MA, T., AND WU, Y. Partial failure resilient memory management system for (cxl-based) distributed shared memory. In Proceedings of the 29th Symposium on Operating Systems Principles (2023), pp. 658–674.

原文链接

本文为阿里云原创内容，未经允许不得转载。

解锁深度表格学习（Deep Tabular Learning）的关键：算术特征交互

2024-03-21T14:30:08+08:00

近日，阿里云人工智能平台PAI与浙江大学吴健、应豪超老师团队合作论文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在国际人工智能顶会AAAI-2024上发表。本项工作聚焦于深度表格学习中的一个核心问题：在处理结构化表格数据（tabular data）时，深度模型是否拥有有效的归纳偏差（inductive bias）。我们提出算术特征交互（arithmetic feature interaction）对深度表格学习是至关重要的假设，并通过创建合成数据集以及设计实现一种支持上述交互的AMFormer架构（一种修改的Transformer架构）来验证这一假设。实验结果表明，AMFormer在合成数据集表现出显著更优的细粒度表格数据建模、训练样本效率和泛化能力，并在真实数据的对比上超过一众基准方法，成为深度表格学习新的SOTA（state-of-the-art）模型。

背景

$$ 图1：结构化表格数据示例，引用自[Borisov et al.] $$

结构化表格数据——这些数据往往以表（Table）的形式存储于数据库或数仓中——作为一种在金融、市场营销、医学科学和推荐系统等多个领域广泛使用的重要数据格式，其分析一直是机器学习研究的热点。表格数据（图1）通常同时包含数值型（numerical）特征和类目型（categorical）特征，并往往伴随有特征缺失、噪声、类别不平衡（class imblanance）等数据质量问题，且缺少时序性、局部性等有效的先验归纳偏差，极大地带来了分析上的挑战。传统的树集成模型（如，XGBoost、LightGBM、CatBoost）因在处理数据质量问题上的鲁棒性，依然是工业界实际建模的主流选择，但其效果很大程度依赖于特征工程产出的原始特征质量。

随着深度学习的流行，研究者试图引入深度学习端到端建模，从而减少在处理表格数据时对特征工程的依赖。相关的研究工作至少可以可以分成四大类：（1）在传统建模方法中叠加深度学习模块（通常是多层感知机MLP），如Wide&Deep、DeepFMs；（2）形状函数（shape function）采用深度学习建模的广义加性模型（generalized additive model），如 NAM、NBM、SIAN；（3）树结构启发的深度模型，如NODE、Net-DNF；（4）基于Transformer架构的模型，如AutoInt、DCAP、FT-Transformer。尽管如此，深度学习在表格数据上相比树模型的提升并不显著且持续，其有效性仍然存在疑问，表格数据因此被视为深度学习尚未征服的最后堡垒。

算术特征交互在深度表格学习的“必要性”

我们认为现有的深度表格学习方法效果不尽如人意的关键症结在于没有找到有效的建模归纳偏差，并进一步提出算术特征交互对深度表格学习是至关重要的假设。本节介绍我们通过创建一个合成数据集，并对比引入算数特征交互前后的模型效果，来验证该假设。

合成数据集的构造方法如下：我们设计了一个包含八个特征（）的合成数据集。

$$ 图2：合成数据集上的结果对比。图中+x%表示AMFormer相比Transformer的相对提升。 $$

在上述数据中，我们将引入了算数特征交互的AMFormer架构与经典的XGBoost和Transformer架构对比。实验结果显示：

以上结果共同证实了算术特征交互在深度表格学习中的显著意义。

算法架构

$$ 图3：AMFormer架构，其中L表示模型层数。 $$

本节介绍AMFormer架构（图3），并重点介绍算数特征交互的引入。AMFormer架构借鉴了经典的Transformer框架，并引入了Arithmetic Block来增强模型的算术特征交互能力。在AMFormer中，我们首先将原始特征转换为具有代表性的嵌入向量，对于数值特征，我们使用一个1输入d输出的线性层；对于类别特征，则使用一个d维的嵌入查询表。之后，这些初始嵌入通过L个顺序层进行处理，这些层增强了嵌入向量中的上下文和交互元素。每一层中的算术模块采用了并行的加法和乘法注意力机制，以刻意促进算术特征之间的交互。为了促进梯度流动和增强特征表示，我们保留了残差连接和前馈网络。最终，依据这些丰富的嵌入向量，AMFormer使用分类或回归头部生成最终输出。

算术模块的关键组件包括并行注意力机制和提示标记。为了补偿需要算术特征交互的特征，我们在AMFormer中配置了并行注意力机制，这些机制负责提取有意义的加法和乘法交互候选者。这些交互候选随着会沿着候选维度被串联（concatenate）起来，并通过一个下采样的线性层进行融合，使得AMFormer的每一层都能有效捕捉算术特征交互，即特征上的四则算法运算。为了防止由特征冗余引起的过拟合并提升模型在超大规模特征数据集上的伸缩，我们放弃了原始Transformer架构中平方复杂度的自注意力机制，而是使用两组提示向量（prompt token vectors）作为加法和乘法查询。这种方法为AMFormer提供了有限的特征交互自由度，并且作为一个附带效果，优化了内存占用和训练效率。

以上是AMFormer在架构层引入的主要创新，关于模型更详细的实现细节可以参考原文以及我们的开源实现。

进一步实验结果

$$ 表1：真实数据集统计以及评估指标。 $$

为了进一步展示AMFormer的效果，我们挑选了四个真实数据集进行实验。被挑选数据集覆盖了二分类、多分类以及回归任务，数据集统计如表1所示。

$$ 表2：AMFormer以及基准方法的性能对比，其中括号内的数字表示该方法在当前数据集上表现的排名，最优以及次优的结果分别以加粗以及下划线突出。 $$

我们一共测试了包含传统树模型（XGBoost）、树架构深度学习方法（NODE）、高阶特征交互（DCN-V2、DCAP）以及Transformer派生架构（AutoInt、FT-Trans）在内的六个基准算法以及两个AMFormer实现（分别选择AutoInt、FT-Trans做基础架构，即AMF-A和AMF-F），结果汇总在表2中。

在一系列对比实验中，AMFormer表现更突出。结果显示，基于MLP的深度学习方法如DCN-V2在表格数据上的性能不尽如人意，而基于Transformer架构的模型显示出更大的潜力，但未能始终超过树模型XGBoost。我们的AMFormer在四个不同的数据集上，与所有六个基准模型相比，表现一致更优：在分类任务中，它将AutoInt和FT-transformer的准确率或AUC提升至少0.5%，最高达到1.23%（EP）和4.96%（CO）；在回归任务中，它也显著减少了平均平方误差。相比其它深度表格学习方法，AMFormer具有更好的鲁棒和稳定性，这使得在性能排序中AMFormer断层式优于其它基准算法，这些实验结果充分证明了AMFormer在深度表格学习中的必要性和优越性。

结论

本工作研究了深度模型在表格数据上的有效归纳偏置。我们提出，算术特征交互对于表格深度学习是必要的，并将这一理念融入Transformer架构中，创建了AMFormer。我们在合成数据和真实世界数据上验证了AMFormer的有效性。合成数据的结果展示了其在精细表格数据建模、训练数据效率以及泛化方面的优越能力。此外，对真实世界数据的广泛实验进一步确认了其一致的有效性。因此，我们相信AMFormer为深度表格学习设定了强有力的归纳偏置。

进一步阅读

● 论文标题：

Arithmetic Feature Interaction is Necessary for Deep Tabular Learning

● 论文作者：

程奕、胡仁君、应豪超、施兴、吴健、林伟

● 论文PDF链接：https://arxiv.org/abs/2402.02334

● 代码链接：https://github.com/aigc-apps/AMFormer

原文链接

本文为阿里云原创内容，未经允许不得转载。

eBPF动手实践系列三：基于原生libbpf库的eBPF编程改进方案

2024-03-20T16:53:33+08:00

一、欲穷千里目，更上一层楼

在上一篇文章《eBPF动手实践系列二：构建基于纯C语言的eBPF项目》中，我们初步实现了脱离内核源码进行纯C语言eBPF项目的构建。libbpf库在早期和内核源码结合的比较紧密，如今的libbpf库更加成熟，已经完全脱离内核源码独立发展。

为了更加具体的理解linux内核版本演进和libbpf版本演进的关系，本文在“附录A”中总结了各个内核版本源码示例中所依赖的libbpf库的对应版本信息。

大部分版本的内核获取libbpf版本的方法如下，从libbpf库目录的libbpf.map文件中提取最大的版本号信息。这里的"source"为内核源码所在目录。

$ cat ./source/tools/lib/bpf/libbpf.map | grep -oE '^LIBBPF_([0-9.]+)' | sort -rV | head -n1 | cut -d'_' -f2

较早版本的内核在./tools/lib/bpf/Makefile文件中直接定义了libbpf的版本信息。

$ cat ./source/tools/lib/bpf/Makefile
BPF_VERSION = 0
BPF_PATCHLEVEL = 0
BPF_EXTRAVERSION = 2

二、eBPF编程方案简介

为了简化 eBPF程序的开发流程，降低开发者在使用 libbpf 库时的入门难度，libbpf-bootstrap 框架应运而生。基于libbpf-bootstrap框架的编程方案是目前网络上看到的最主流编程方案。此外，网络上也偶见比较古老的仅依赖一个bpf_load.c文件的C语言编程方案，这个方案并不需要依赖libbpf库的支持。

主流的C语言实现的eBPF编程方案，大体上就是以下三种，笔者总共将其归纳为3代。

除了经典的C语言编程方案，一些编程框架还选择使用Python语言，Go语言，或者Rust语言作为用户态加载的实现语言。

尽管libbpf-bootstrap骨架C语言方案、基于libbpfgo库的go语言方案等已经被大家广泛使用和接受。但笔者认为基于原生libbpf库的eBPF编程方案仍然具备很多独特的优势。以下是原生libbpf库eBPF编程方案的一些独特优势：

更深的控制和灵活性：直接使用原生libbpf 库的方案意味着可以与更底层交互，实现更多的控制，定制加载和管理 eBPF 程序和 maps 过程，满足更复杂的需求。
更好的学习和理解：libbpf-bootstrap封装抽象屏蔽了很多细节，直接使用原生libbpf可以对 eBPF 子系统有更深入的理解，有利于开发者对 eBPF 内部工作原理的理解。
更细粒度的依赖管理：直接使用原生libbpf库能够指定依赖的 libbpf 库版本和功能，进而更精细化地管理项目依赖关系。
更好的低版本内核适应性：基于原生libbpf库的方案，在低版本操作系统发行版和低版本内核上可以有更好的兼容性。

本文将由浅入深介绍第 2 代原生libbpf库的eBPF编程方案，并提出一种改进思路。

三、准备eBPF开发的基础环境

主流的linux发行版大多是基于rpm包或deb包的包管理系统。不同的包管理系统，初始化eBPF开发环境时所依赖的包，也略有差别。本文将分别进行介绍。

3.1、rpm包基础环境初始化

在RPM包发行版环境，需要安装一些编译过程的基础包、编译工具包、库依赖包和头文件依赖包等。我们推荐使用如下一些发行版及其兼容环境：Anolis 8.8、Kylin V10、CentOS 8.5、和 Fedora 39 等。

详细安装步骤如下：

$  yum install git make                               # 基础包
$  yum install kernel-headers-$(uname -r)             # 头文件依赖包
$  yum install clang llvm elfutils-libelf-devel       # 编译工具和依赖库包

## 依次选择如下命令之一，安装bpftool工具
$  yum install bpftool-$(uname -r)
$  yum install bpftool

3.2、deb包基础环境初始化

在 DEB 包发行版环境，需要安装一些编译过程的基础包、编译工具包、库依赖包和头文件依赖包等。推荐使用Ubuntu 22.04 或Debian 12 等发行版及其兼容环境。

详细安装步骤如下：

$  apt-get update                                     # 更新apt源信息
$  apt install git make                               # 基础包 
$  apt install linux-libc-dev                         # 头文件依赖包
$  apt install clang llvm libelf-dev                  # 编译工具和依赖库包

## 依次选择如下命令之一，安装bpftool工具
$  apt install linux-tools-common linux-tools-$(uname -r)
$  apt install linux-tools-common linux-tools-generic
$  apt install linux-tools-$(uname -r) linux-cloud-tools-$(uname -r)
$  apt install bpftool

四、构建基于原生libbpf库的eBPF项目

本文的目的是向大家分享一个以第2代 ebpf 编程方案为基础的改进ebpf编译构建方案。本节先用一些篇幅内容，对第2代方案本身的构建编译过程做一些介绍。

libbpf库具有一定的向下兼容能力，可以选择使用截至目前最新的归档版本libbpf-1.3.0来搭建编程环境。以 libbpf-1.3.0版本libbpf库为基础，下文会提供若干实例代码，来剖析ebpf构建原理。完成了基础环境的初始化，就可以开始搭建我们的eBPF项目。所有的代码示例都可以通过如下git项目获取。为了后面访问方便，这里用一个shell变量NATIVE_LIBBPF用来存储工作目录。

$ cd ~
$ git clone https://github.com/alibaba/sreworks-ext.git
$ NATIVE_LIBBPF=~/sreworks-ext/demos/native_libbpf_guide/

4.1、初步构建基于原生libbpf库的eBPF项目

首先来看一个基于原生libbpf库的第2代eBPF构建实例。ebpf初学者，可以考虑选择跟踪 execve 系统调用产生的事件。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_execve_libbpf130                            # 进入项目目录   
$ make
$ sudo ./trace_execve
trace_execve 15836221 5501 bash 1534 bash 0 /usr/bin/ls
trace_execve 15914126 5502 bash 1534 bash 0 /usr/bin/ps

$ make clean

执行trace_execve命令，对编译结果进行验证，完美验证通过。

4.2、eBPF项目的目录结构解析

介绍下trace_execve_libbpf130的目录结构。

再介绍下本项目trace_execve_libbpf130和libbpf-1.3.0库的对应关系。下载libbpf-1.3.0库解压后，使用diff命令进行目录对比。

目录native_libbpf_guide/trace_execve_libbpf130/tools/lib/bpf/内容，除Makefile内容外都来自目录~/libbpf-1.3.0/src/。
目录native_libbpf_guide/trace_execve_libbpf130/tools/include/来自目录~/libbpf-1.3.0/include/，所有内容都完全一致。
除以上两部分来自libbpf-1.3.0库以外的文件，其余都由本项目原创贡献。

$ cd ~
$ wget http://github.com/libbpf/libbpf/archive/refs/tags/v1.3.0.tar.gz
$ tar -zxvf v1.3.0.tar.gz
$ diff -qr $NATIVE_LIBBPF/trace_execve_libbpf130/tools/lib/bpf/ ~/libbpf-1.3.0/src/
Only in ~/libbpf-1.3.0/src/: .gitignore
Files ~/native_libbpf_guide/trace_execve_libbpf130/tools/lib/bpf/Makefile and ~/libbpf-1.3.0/src/Makefile differ

$ diff -qr $NATIVE_LIBBPF/trace_execve_libbpf130/tools/include/ ~/libbpf-1.3.0/include/

在这个项目中添加ebpf的代码，可以遵循这样的目录结构。用户态加载文件放到根目录下，内核态bpf文件放到progs目录下，用户态和内核态公共的头文件放到include目录下。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_execve_libbpf130                            # 进入项目目录  
$ find . -name "trace_execve*"
./trace_execve.c
./progs/trace_execve.bpf.c
./include/trace_execve.h

4.3、eBPF项目的Makefile解析

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_execve_libbpf130                            # 进入项目目录
$ find . -name Makefile 
./Makefile
./progs/Makefile
./tools/lib/bpf/Makefile
./tools/build/feature/Makefile

trace_execve_libbpf130项目有4个Makefile，分别如下：

./Makefile是主文件，用于生成用户态eBPF程序trace_execve。
./progs/Makefile 用于生成内核态BPF程序trace_execve.bpf.o。
./tools/lib/bpf/Makefile 用于生成libbpf.a静态库。
./tools/build/feature/Makefile 用于一些feature的探测。

在项目空间的根目录运行make命令进行项目构建时，会首先执行Makefile文件。在Makefile文件中会通过make的-C选项间接触发progs/Makefile和tools/lib/bpf/Makefile的执行。

感兴趣的同学可以通过上一章节中提到的make --debug=v,m SHELL="bash -x" 命令逐步debug这些makefile的执行过程。

下文重点分析下编译过程的一些编译参数，让我们加深对eBPF构建过程的理解。

4.4、C语言编译器的目录搜索选项

在开始分析eBPF程序的编译参数之前，先要简单说一下C语言编译器（gcc/clang）的目录搜索选项。C语言的头文件都需要按照目录搜索选项的指引，才能正确找到它所在位置。

除了日常我们熟知的-I选项，clang/gcc的目录搜索选项还有很多，它们优先级的顺序依次如下：

头文件引用方式include "myheader.h"，则在当前文件所在目录查找myheader.h头文件。
头文件引用方式include "myheader.h"，如果有-iquote mydir选项，则在mydir目录查找myheader.h头文件。
头文件引用方式include ，如果有-I mydir选项，则在mydir目录查找myheader.h头文件。
头文件引用方式include ，如果有-isystem mydir选项，则在mydir目录查找myheader.h头文件。
头文件引用方式include ，继续在标准系统目录（Standard system directories）查找myheader.h头文件。标准系统目录是指/usr/lib64/clang/15.0.7/include 、/usr/local/include 和/usr/include。
头文件引用方式include ，如果有-idirafter mydir选项，则在mydir目录查找myheader.h头文件。

4.5、内核态bpf程序编译参数解析

内核态bpf程序trace_execve.bpf.o文件，是由 bpf 文件trace_execve.bpf.c使用clang命令编译产生。trace_execve.bpf.c文件的头文件依赖如下。

$ cat progs/trace_execve.bpf.c
// SPDX-License-Identifier: GPL-2.0
#include <vmlinux.h>
#include <bpf/bpf_helpers.h>
#include <bpf/bpf_tracing.h>

#include "common.h"
#include "trace_execve.h"

从前面项目构建过程中，可以提取出完整的内核态bpf程序的编译命令。

$ clang -iquote ./../include/ -iquote ./../helpers -I./../tools/lib/ -I./../tools/include/uapi -idirafter /usr/lib64/clang/15.0.7/include \
  -idirafter /usr/include -idirafter /usr/include/x86_64-linux-gnu/ -DENABLE_ATOMICS_TESTS -D__KERNEL__ -D__BPF_TRACING__ \
  -D__TARGET_ARCH_x86 -g -Werror -O2 -mlittle-endian -target bpf -mcpu=v3 -c trace_execve.bpf.c -o trace_execve.bpf.o

下面对一些关键环节做一些解析：

头文件vmlinux.h由bpftool工具在编译时动态生成，vmlinux.h包含了绝大多数bpf程序的内核态和用户态(uapi)依赖。通过编译选项-I./../tools/lib/可以搜索到vmlinux.h头文件。
通过-I./../tools/lib/编译选项，可以在./tools/lib/目录下的bpf子目录中查找到bpf_helpers.h和bpf_tracing.h头文件，这些头文件都是对vmlinux.h头文件内核态依赖的补充。
通过-iquote ./../include/编译选项，可以在./include/目录中查找到trace_execve.h和common.h头文件。
在上面这些头文件依赖的预处理过程中，会依赖一些宏变量来决定预处理的展开逻辑。上面编译命令中的宏就是起这些作用，-DENABLE_ATOMICS_TESTS -D__KERNEL__ -D__BPF_TRACING__ -D__TARGET_ARCH_x86。比如在bpf_tracing.h头文件中，就有#if defined(__TARGET_ARCH_x86)的宏判断语句，来决定预处理展开逻辑走x86分支。
编译选项-target bpf，指示Clang将代码生成为针对eBPF目标的目标代码。编译选项-mcpu=v3，指示Clang生成针对v3版本的eBPF处理器的目标代码。编译选项-mlittle-endian：指示Clang生成适用于小端序处理器的目标代码。
通过-I./../tools/include/uapi编译选项，可以在./tools/include/uapi/目录下的linux子目录中查找到bpf.h头文件。同时kernel-headers包引入的/usr/include/linux/目录下也有bpf.h，./tools/include/uapi下的bpf.h优先级会覆盖它。此外，目录./tools/include/uapi/linux下的头文件和vmlinux.h头文件存在一定的重叠，通常情况下同时加载会出现编译冲突。如果在一些简单的 ebpf 使用场景，可以使用替代。

4.6、用户态加载程序编译参数解析

用户态eBPF程序trace_execve文件，是由源文件trace_execve.c文件使用gcc命令编译。trace_execve.c文件的头文件依赖如下。

$ cat trace_execve.c
// from kernel-headers
#include <errno.h>
#include <limits.h>
#include <stdio.h>
#include <unistd.h>
#include <linux/limits.h>
#include <linux/perf_event.h>
#include <sys/resource.h>

// from libbpf
#include <linux/ring_buffer.h>
#include <bpf/libbpf.h>
#include "common.h"
#include "trace_execve.h"

从前面项目构建过程中，也可以提取出完整的用户态程序的编译命令。

gcc -iquote ./helpers/ -iquote ./include/ -I./tools/lib/ -I./tools/include/ -g -c -o trace_execve.o trace_execve.c

通过-I./tools/include/编译选项，可以在./tools/include/目录下的linux子目录中查找到头文件。
通过-I./tools/lib/编译选项，可以在./tools/lib/目录下的bpf子目录中查找到头文件。在一些古老的代码示例中，有这样使用头文件的用法，目前最新的ebpf项目实例，都会将libbpf库的libbpf.h以及同目录的头文件都放到bpf子目录下，因此推荐统一使用的用法。
通过-iquote ./include/编译选项，可以在./include/目录中查找到trace_execve.h和common.h头文件。
其他头文件都可以在由kerne-headers包提供的标准系统目录（Standard system directories）的/usr/include/目录及子目录中查找到。所以，<linux/perf_event.h>最终会在/usr/include/linux/perf_event.h位置被查找到。可以看出同样是形式的头文件，<linux/perf_event.h>和却在两个完全不同的搜索路径查找到。

4.7、libbpf.a静态库编译解析

关于libbpf.a静态库的编译过程，上一篇文章已经有所介绍。这里仅再次强调下，在本项目中，我们完全实现了libbpf库的自主可控，可控源代码，可控编译构建过程。这至少给我们带来如下两方面好处：

对于一些ebpf的资深人士，可以自主修改libbpf库中不尽如人意的地方，实现满足自己业务需求的优化。
对于一些ebpf的初学者，完全可以在libbpf库中任意感兴趣的地方，通过插入printf或其他断点方式，深入学习libbpf库的原理。

五、改进基于原生libbpf库的eBPF项目构建

5.1、传统方案美中不足

在上文中，我们初步实现了基于libbpf库的第 2 代 eBPF项目的构建。但截止到目前，此方案还有一个明显的缺陷。让我们继续上一篇的案例来分析，在搭建完开发环境后执行如下步骤。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_execve_libbpf130                            # 进入项目目录
$ make clean
$ make
$ sudo ./trace_execve
trace_execve 160646349 5503 sa1 1 systemd 0 /usr/lib64/sa/sa1
trace_execve 160646371 5503 sa1 1 systemd 0 /usr/lib64/sa/sadc

$ mv progs/trace_execve.bpf.o progs/trace_execve.bpf.o.bak
$ sudo ./trace_execve
libbpf: elf: failed to open progs/trace_execve.bpf.o: No such file or directory
ERROR: failed to open prog: 'No such file or directory'

$ mv progs/trace_execve.bpf.o.bak progs/trace_execve.bpf.o
$ sudo ./trace_execve
trace_execve 190767474 5566 crond 5565 crond 0 /bin/bash
trace_execve 190767486 5566 bash  5565 crond 0 /bin/run-parts

从实验结果可以看出，当我们把bpf目标文件trace_execve.bpf.o改名为trace_execve.bpf.o.bak后，trace_execve程序执行会报错，提示读取trace_execve.bpf.o文件不存在。而当我们再次将备份后的bpf目标文件trace_execve.bpf.o.bak改回原名trace_execve.bpf.o后，重新执行trace_execve程序又一切正常了。这说明，当前方案构建后，需要将trace_execve程序和bpf目标文件trace_execve.bpf.o这一组文件一起进行分发，才能正常执行。这给我们在工程的实现上带来了很大的挑战。

为了解决上面提到的问题，第 3 代 ebpf 编程方案 libbpf-bootstrap框架发明了skeleton骨架，即使用*.skel.h头文件的方式，将bpf目标文件trace_execve.bpf.o的内容编译进trace_execve程序。这样后续只需分发trace_execve二进制程序文件即可。

如果不依赖libbpf-bootstrap编程框架，继续仅依赖 libbpf 库是否可以做到这一点呢？答案是可以的，本文独辟蹊径，给大家分享一个使用hexdump命令轻松实现*.skel.h头文件的方式。

5.2、使用hexdump生成skel.h头文件

简单归纳一下使用libbpf-bootstrap框架编程过程中的构建步骤。

分析libbpf-bootstrap编程框架的实现原理，可以了解到。在第3步会依靠bpftool工具将trace_execve.bpf.o这个目标文件转换成十六进制格式的文本，并将这个文本内容作为trace_execve.skel.h头文件中的一个变量的值，最后还需要让trace_execve.c用户态加载文件包含这个trace_execve.skel.h头文件。这其中将bpf目标文件转换成十六进制文本并生成skel.h头文件的过程最为关键。

libbpf-bootstrap编程框架非常成熟，但方案使用中必须遵循他的一些规则，比如头文件trace_execve.skel.h的命令必须包含程序的关键词trace_execve，再比如加载函数trace_execve_bpf__load()也必须包含程序的关键词trace_execve。如何能不依赖这个规范，实现一个更加轻量级的编程方案呢？这让我们想到了hexdump命令，可以用它替换bpftool工具，并且生成符合自己期望的头文件。

$ hexdump -v -e '"\\\x" 1/1 "%02x"' trace_execve.bpf.o > trace_execve.hex

5.3、深入构建基于原生libbpf库的eBPF项目

下面我们就尝试依靠hexdump命令实现一个单一可执行文件的解决方案。开始体验我们基于第 2 代编程方案改进的eBPF项目，进入项目代码。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd hexdump_skel_libbpf130                            # 进入项目目录
$ make
$ sudo ./trace_execve
trace_execve bash su 74113 74112 0 /usr/bin/bash
trace_execve bash su 74113 74112 0 /usr/bin/bash

$ sudo ./probe_execve
probe_execve 19076757 5572 0anacron 5570 0anacron 0
probe_execve 19076758 5573 0anacron 5570 0anacron 0

分别执行trace_execve和probe_execve两个命令，对编译结果进行验证，均完美验证通过。这里我们在trace_execve实例基础上又增加了一个probe_execve实例，说明hexdump_skel_libbpf130项目是支持多实例编译的。

下面我们来验证下本文开头的情况，看看没有了bpf目标文件时的情形。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd hexdump_skel_libbpf130                            # 进入项目目录 
$ rm -fr progs/trace_execve.bpf.o progs/probe_execve.bpf.o
$ sudo ./trace_execve
trace_execve 19076759 5574 run-parts 5566 run-parts 0 /bin/basename
trace_execve 19076760 5575 run-parts 5566 run-parts 0 /bin/logger

$ sudo ./probe_execve
probe_execve sh python 78841 78838 0 
probe_execve sh python 78841 78838 0

从运行结果看，虽然删除了两个bpf目标文件trace_execve.bpf.o和probe_execve.bpf.o，仅仅依靠trace_execve和probe_execve两个文件即可成功执行。可以再尝试将trace_execve 可执行文件拷贝到其他目录，结果依然可行。

5.4、改进的eBPF项目Makefile解析

hexdump_skel_libbpf130项目也是同样的4个Makefile，其中将bpf目标文件编译到用户态加载进程中的环节主要在项目的主Makefile中实现。还是老办法获取make构建的详细过程。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd hexdump_skel_libbpf130                            # 进入项目目录 
$ make clean
$ make --debug=v,m SHELL="bash -x" > make.log 2>&1

对于构建日志的分析可以参考前面文章，我们把关键环节提取出来。

$ cat make.log | grep -n "Considering target file"
14:Considering target file 'all'.
16:  Considering target file 'tools/lib/bpf/libbpf.a'.
21:  Considering target file 'helpers/uprobe_helper.o'.
23:    Considering target file 'helpers/uprobe_helper.c'.
31:  Considering target file 'probe_execve'.
33:    Considering target file 'probe_execve.o'.
35:      Considering target file 'probe_execve.c'.
38:      Considering target file 'probe_execve.skel.h'.
40:        Considering target file 'probe_execve.hex'.
42:          Considering target file 'progs/probe_execve.bpf.o'.
44:            Considering target file 'progs/probe_execve.bpf.c'.
145:  Considering target file 'trace_execve'.
147:    Considering target file 'trace_execve.o'.
149:      Considering target file 'trace_execve.c'.
152:      Considering target file 'trace_execve.skel.h'.
154:        Considering target file 'trace_execve.hex'.
156:          Considering target file 'progs/trace_execve.bpf.o'.
158:            Considering target file 'progs/trace_execve.bpf.c'.

从关键构建步骤中，我们可以了解到：

probe_execve和trace_execve两个target都是all目标的下级目标，并且probe_execve和trace_execve是串行的。这个里隐含的一个意思是，当trace_execve开始构建的时候，probe_execve已经完全构建完毕，probe_execve这个最终可执行文件已经生成完毕。此时，probe_execve构建过程中所依赖的所有中间文件都不再需要了。所以，probe_execve和trace_execve构建过程中依赖的中间文件是可以重名的。
tools/lib/bpf/libbpf.a和helpers/uprobe_helper.o已经提前编译好了，就不再做过多的说明了。最终的用户态可执行加载程序的主要依赖链条如下。

trace_execve
├── trace_execve.o
│   ├── trace_execve.c
│   ├── trace_execve.skel.h
│   │   ├── trace_execve.hex
│   │   │   ├──progs/trace_execve.bpf.o
│   │   │   │   └── progs/trace_execve.bpf.c

再看一下主Makefile的源码，为了实现以上的目标依赖，我们连用了5个静态模式规则（Static Pattern Rules）。

$(HELPER_OBJECTS): %.o:%.c

$(BPF_OBJECT):./progs/%.bpf.o:./progs/%.bpf.c

$(HEX_OBJECT):%.hex:./progs/%.bpf.o

$(SKEL_OBJECT):%.skel.h:%.hex

$(USER_OBJECT):%.o:%.c %.skel.h

$(LOADER_OBJECT): %:%.o

其中任何一个静态模式规则的目标集合，都是通过项目根目录下*.c文件的集合，进行局部字符串替换获得。

SOURCES := $(wildcard *.c)
HELPER_OBJECTS := $(patsubst %.c,%.o,$(wildcard $(HELPERS_PATH)/*.c))
LOADER_OBJECT  := $(patsubst %.c,%,$(SOURCES))
USER_OBJECT    := $(patsubst %.c,%.o,$(SOURCES))
SKEL_OBJECT    := $(patsubst %.c,%.skel.h,$(SOURCES))
HEX_OBJECT     := $(patsubst %.c,%.hex,$(SOURCES))
BPF_OBJECT     := $(patsubst %.c,./progs/%.bpf.o,$(SOURCES))

5.5、从file到memory实现读取elf的转变

本方案的主要逻辑是在主Makefile中实现，但也需要c代码中做一些调整。bpf文件trace_execve.bpf.c并不需要任何修改，只需要在用户态加载程序trace_execve.c做一些调整。

传统的读取bpf目标文件方式，相关代码如下：

char filename[256] = "progs/trace_execve.bpf.o";
struct bpf_object * bpf_obj = bpf_object__open_file(filename, NULL);

改进后的读取memory方式，相关代码如下：

#include "skeleton.skel.h"

struct bpf_object * bpf_obj = bpf_object__open_mem(obj_buf, obj_buf_sz, NULL);

很明显libbpf库提供了bpf_object__open_file（bpf_object__open）和bpf_object__open_mem两个函数用于读取elf格式的bpf目标文件trace_execve.bpf.o。区别是bpf_object__open_file是在trace_execve运行时，再去读取trace_execve.bpf.o文件内容，而bpf_object__open_mem是在编译时，已经把elf内容编译进trace_execve程序。至于bpf_object__open函数在libbpf库的libbpf.c文件中是对bpf_object__open_file函数的封装。

这两个libbpf库函数，最终都是调用elf标准库函数实现了相关功能，具体代码实现是在libbpf库的libbpf.c文件中的bpf_object__elf_init函数中，代码如下：

static int bpf_object__elf_init(struct bpf_object *obj){
        ......
        if (obj->efile.obj_buf_sz > 0) {
                elf = elf_memory((char *)obj->efile.obj_buf, obj->efile.obj_buf_sz);
        } else {
                obj->efile.fd = open(obj->path, O_RDONLY | O_CLOEXEC);
                ...... 
                elf = elf_begin(obj->efile.fd, ELF_C_READ_MMAP, NULL);
        }
        ......
}

可以看出，bpf_object__open_mem函数的最终实现是elf的elf_memory函数，bpf_object__open_file函数的最终实现是elf的elf_begin函数。

5.6、原生libbpf库与libbpf-bootstrap的若干区别

相比较第3代的 libbpf-bootstrap框架方案和第2代的传统libbpf库方案，使用hexdump命令的原生libbpf库第 2 代改进方案方案在实现方法上，有一些独特的优势。

这里将这三种方案的主要区别归纳总结如下：

这里补充下，trace_execve_bpf__open()函数的实现，也是间接通过libbpf库的bpf_object__open_skeleton()函数，最终也调用了bpf_object__open_mem()函数。

5.7、使用attach_tracepoint替代attach

在ebpf用户态程序的加载过程中，有一个attach的步骤。细心的读者应该已经发现了，在trace_execve_libbpf130项目中，我们使用的是bpf_program__attach()函数实现的静态探针点的attach。而在hexdump_skel_libbpf130项目中，我们使用的却是bpf_program__attach_tracepoint()函数实现的静态探针点的attach。区别是bpf_program__attach_tracepoint函数的参数中会指定静态探针点的具体信息，而bpf_program__attach不用指定静态探针点的信息。进一步阅读bpf_program__attach函数的源代码可以了解到，它是依靠内核态的bpf目标文件中SEC的节名称信息来获取和确定静态探针点的信息的。总结这两种方法如下：

很明显，在trace_execve.c和trace_execve.bpf.c的代码中，只要有一处设置静态探针点即可。如果两处都设置，而且两处设置的静态探针点信息冲突的情况下，会以用户态的bpf_program__attach_tracepoint函数设置的信息为准。

libbpf库中的bpf_link__destroy()函数是负责对attach函数生成的link进行销毁的函数。attach和destroy的过程实际上就是对内核静态探针点开启和关闭的过程。

在这里特别推荐使用方案B中的bpf_program__attach_tracepoint替代方案A中的bpf_program__attach方法，这样方便我们在用户态代码中灵活的开关ebpf的采集。除了专门用于静态探针点的bpf_program__attach_tracepoint()函数，还有适用于其他类型的专用的attach函数，例如bpf_program__attach_kprobe()、bpf_program__attach_kprobe()、bpf_program__attach_uprobe()和bpf_program__attach_usdt()等。

5.8、使用by_name替代by_title

在稍早一些libbpf库中提供2个函数用于获取bpf progam 类型数据，分别是bpf_object__find_program_by_name()函数和bpf_object__find_program_by_title()函数。以trace_execve_libbpf130项目的 bpf代码为例。

SEC("tracepoint/syscalls/sys_enter_execve")
int trace_execve_enter(struct syscalls_enter_execve_args *ctx){
    ......
}

其中tracepoint/syscalls/sys_enter_execve这个字符串就称为title，trace_execve_enter这个函数名就称为name。结合上文的结论，后续推荐bpf内核态代码中都使用SEC("tracepoint")的语法格式，那么使用by_title函数将不再能做出区分。因此这里特别推荐大家今后使用by_name的函数替代by_titile的函数。而且，在最新版的libbpf库中，也彻底移除了bpf_object__find_program_by_title()函数。

六、基于原生libbpf库改进方案构建USDT和Uprobe项目

基于hexdump命令的改进型原生libbpf库编程方案不但在内核态跟踪诊断上表现完美，在用户态应用进程的跟踪诊断上依然可以表现得非常出色。本节内容将在上文的基础上，继续分析如何使用原生libbpf库开发和构建USDT和Uprobe项目。

6.1、用户态模拟程序

用户态应用程序的ebpf，还需要准备一个模拟程序。尤其是针对USDT类型，还需要在模拟程序中进行静态打点。本小节将提供一个如何打USDT跟踪点的实例。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd mark_usdt_uprobe                                  # 进入项目目录
$ make
$ sudo cp umark /usr/bin/
$ sudo umark >/dev/null 2>/dev/null &
$ make clean

执行完以上步骤，就启动了用户态模拟程序umark，后续即可通过USDT和Uprobe方式，追踪umark进程的运行情况。

下面初步对umark模拟程序的代码做一些介绍。

$ ls 
Makefile  README.md  sdt.h  umark.c

$ cat umark.c 
#include <unistd.h>
#include <stdio.h>
//#include <sys/sdt.h>
#include "sdt.h"

unsigned long long int func_uprobe1(unsigned long long int x){
    return x + 1;
}
unsigned long long int func_uprobe2(unsigned long long int x, unsigned long long int y){
    return x + y;
}
int main(int argc, char const *argv[]) {
    unsigned long long int i;
    int var1 = 10, var2 = 20, var3 = 30;
    for (i = 0; i < 86400000; i++) {
        sleep(1);
        DTRACE_PROBE1(groupa, probe1, var1);
        DTRACE_PROBE2(groupb, probe2, var2, var3);
        printf("hit uprobe1 %llu\n", func_uprobe1(i));
        printf("hit uprobe2 %llu\n", func_uprobe2(i + 3, i + 8));
    }
    return 0;
}

其中func_uprobe1和func_uprobe2是两个C语言函数用于下文的uprobe跟踪实例的追踪。DTRACE_PROBE1和DTRACE_PROBE2是两个宏函数，用于在umark.c程序中打USDT的静态跟踪点。最多支持传入12个跟踪点参数，即DTRACE_PROBE1、DTRACE_PROBE2，一直到DTRACE_PROBE12。probe1和probe2是这个静态跟踪点的name，groupa和groupb是跟踪点name的分组名，可以省略。

DTRACE_PROBE1宏函数定义在std.h头文件内，需要提前安装头文件所在包。

在rpm包环境，sdt.h头文件属于systemtap-sdt-devel这个rpm包。

$ find /usr/include/ -name sdt.h
/usr/include/sys/sdt.h

$ rpm -qf /usr/include/sys/sdt.h
systemtap-sdt-devel-4.8-2.0.2.al8.x86_64

在deb包环境，sdt.h头文件属于systemtap-sdt-dev这个deb包。

$ find /usr/include/ -name sdt.h
/usr/include/x86_64-linux-gnu/sys/sdt.h

$ dpkg -S /usr/include/x86_64-linux-gnu/sys/sdt.h
systemtap-sdt-dev:amd64: /usr/include/x86_64-linux-gnu/sys/sdt.h

令人欣慰的是，这个sdt.h头文件并无太多额外依赖，简单修改后，可以独立维护。于是，我们可以将其拷贝到本项目根目录。并将的头文件引用方式改为"sdt.h"。

6.2、构建基于libbpf库的USDT和Uprobe项目

下面我们就进一步介绍下使用第 2 代改进编程方案的ebpf跟踪用户态进程的解决方案。开始体验我们的eBPF项目trace_user_libbpf130，进入项目代码。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_user_libbpf130                              # 进入项目目录
$ make
$ sudo ./uprobe_test
func_uprobe1 2374242 4604 umark 1534 bash 0 23368 23373
func_uprobe2 2374242 4604 umark 1534 bash 0 23371 23376

$ sudo ./usdt_test
func_usdt1 2375442 4604 umark 1534 bash 0 10 17
func_usdt2 2375442 4604 umark 1534 bash 0 20 30

分别执行uprobe_test和usdt_test两个命令，对编译结果进行验证，均完美验证通过。

trace_user_libbpf130项目的构建和编译过程与前面项目hexdump_skel_libbpf130无太多差异，不再做过多赘述。下文将着重对本项目中USDT和Uprobe的相关C语言源码进行解析。

6.3、USDT代码解析

trace_user_libbpf130项目中的USDT部分，开启了2个usdt静态探针点的跟踪，这2个静态探针点分别是probe1和probe2。

第一个静态探针点实例，选择在attach时，通过bpf_program__attach_usdt函数的参数指定静态探针点的相关信息。包括跟踪的进程信息"/usr/bin/umark"，usdt组名信息"groupa"，usdt名称信息"probe1"等，代码如下：

bpf_program__attach_usdt(bpf_prog1, -1, "/usr/bin/umark", "groupa", "probe1", NULL);

第二个静态探针点实例，选择在bpf目标文件中，通过SEC宏的方式指定静态探针点的相关信息。包括跟踪的进程信息"/usr/bin/umark"，usdt组名信息"groupb"，usdt名称信息"probe2"等，代码如下：

SEC("usdt//usr/bin/umark:groupb:probe2")

6.4、BPF_USDT宏函数解析

目前主流的USDT类型的ebpf代码实例，在bpf目标文件中都使用BPF_USDT宏函数来定义ebpf的处理函数，例如本项目实例中。

int BPF_USDT(usdt_probe1, int x)

在这里，宏函数BPF_USDT的第1个参数"usdt_probe1"才是真正的函数名，也就是前文所述by_name的name信息。宏函数的第2个参数"int x"才是usdt_probe1函数的第一个参数，依次类推。

各种USDT类型的ebpf代码实例中，很少见到对这个宏函数BPF_USDT原理的分析。此处，我们借助第二个USDT静态探针点在bpf目标文件中的使用来解析它。代码实例的关键部分如下：

int usdt_probe2(struct pt_regs *ctx);

static inline __attribute__((always_inline)) typeof(usdt_probe2(0)) ____usdt_probe2(struct pt_regs *ctx, int x, int y);

typeof(usdt_probe2(0)) usdt_probe2(struct pt_regs *ctx) {
    return ____usdt_probe2(ctx, ({ long _x; bpf_usdt_arg(ctx, 0, &_x); (void *)_x; }), ({ long _x; bpf_usdt_arg(ctx, 1, &_x); (void *)_x; }));
}

static inline __attribute__((always_inline)) typeof(usdt_probe2(0)) ____usdt_probe2(struct pt_regs *ctx, int x, int y)
{
    ......
}

这4行代码，前两行是函数声明，后两行是函数定义。usdt_probe2函数内部调用了____usdt_probe2函数。一些代码解读：

always_inline，意味着无论优化设置如何，编译器都应该始终将这个函数内联到任何调用它的地方。
typeof(usdt_probe2(0)) 用于确定 usdt_probe2 的返回类型，从而确保 ____usdt_probe2 与 usdt_probe2 有相同的返回类型。
({ long _x; bpf_usdt_arg(ctx, 0, &_x); (void *)_x; }) 这个复合语句用于获取USDT探针的参数值。
使用 bpf_usdt_arg 辅助函数来获取探针的第一个参数，并将其存储到局部变量 _x 中。再将 _x 强制转换为 void * 类型并传递给 ____usdt_probe2 函数。同样的操作也对第二个参数 y 进行。

特别强调一下bpf_usdt_arg辅助函数来自于usdt.bpf.h头文件，但本项目有2个usdt.bpf.h头文件，其中一个在libbpf库中，另外一个在./helpers/目录下，helpers 目录下的是经过本项目改造过的。此示例中生效的是./helpers/目录下的。

$ cd $NATIVE_LIBBPF                                    # 返回工作目录
$ cd trace_user_libbpf130                              # 进入项目目录
$ find . -name usdt.bpf.h
./tools/lib/bpf/usdt.bpf.h
./helpers/usdt.bpf.h6.5、Uprobe代码解析

trace_user_libbpf130项目中的Uprobe部分，开启了2个uprobe类型探针点的跟踪，这2个uprobe探针点分别是probe1和probe2。

第一个uprobe探针点实例，选择在attach时，通过bpf_program__attach_uprobe函数的参数指定uprobe探针点的相关信息。包括uprobe的类型（0表示函数进入时，1表示函数返回时），跟踪的进程信息"/usr/bin/umark"，被跟踪的函数在进程中的偏移量 func_off1等。需要提前通过get_elf_func_offset()函数计算出这个偏移量，此函数定义在了helpers/uprobe_helper.c文件内。相关代码如下：

func_off1 = get_elf_func_offset("/usr/bin/umark", "func_uprobe1");
bpf_program__attach_uprobe(bpf_prog1, 0, -1, "/usr/bin/umark", func_off1);

第二个uprobe探针点实例，选择在bpf目标文件中，通过SEC宏的方式指定uprobe探针点的相关信息。包括跟踪的进程信息"/usr/bin/umark"，被跟踪的应用进程中的函数"func_uprobe2"等。此种情况，libbpf库会自动计算这个偏移量。代码如下：

SEC("uprobe//usr/bin/umark:func_uprobe2")

6.6、BPF_KPROBE宏函数解析

目前主流的Uprobe类型的ebpf代码实例，在bpf目标文件中都使用BPF_KPROBE宏函数来定义ebpf的处理函数，例如本项目实例中。

int BPF_KPROBE(user_probe1, unsigned long long int x)

在这里，宏函数BPF_KPROBE的第1个参数"user_probe1"才是真正的函数名，也就是前文所述by_name的name信息。宏函数的第2个参数"unsigned long long int x"才是user_probe1函数的第一个参数，依次类推。

各种Uprobe类型的ebpf代码实例中，也同样很少见到对这个宏函数BPF_KPROBE原理的分析。此处，我们借助第二个Uprobe探针点在bpf目标文件中的使用来解析它。关键的代码实例如下：

long user_probe2(struct pt_regs *ctx);

inline typeof(user_probe2(0)) ____user_probe2(struct pt_regs *ctx, unsigned long long int x, unsigned long long int y);

inline typeof(user_probe2(0)) ____user_probe2(struct pt_regs *ctx, unsigned long long int x, unsigned long long int y)
{
    ......
}

typeof(user_probe2(0)) user_probe2(struct pt_regs *ctx) {
    return ____user_probe2(ctx, (unsigned long long int)PT_REGS_PARM1(ctx), (unsigned long long int)PT_REGS_PARM2(ctx));
}

这4行代码，前两行是函数声明，后两行是函数定义。user_probe2函数内部调用了____user_probe2函数。一些代码解读：

inline typeof(user_probe2(0)) ____user_probe2(struct pt_regs *ctx, unsigned long long int x, unsigned long long int y); 这是内联函数____user_probe2的声明。
typeof(user_probe2(0))用于确定____user_probe2函数的返回类型，保证与user_probe2函数的返回类型一致。
typeof(user_probe2(0)) user_probe2(struct pt_regs *ctx) { return ____user_probe2(ctx, (unsigned long long int)PT_REGS_PARM1(ctx), (unsigned long long int)PT_REGS_PARM2(ctx)); } 这是user_probe2函数的定义。它使用PT_REGS_PARM1(ctx)和PT_REGS_PARM2(ctx)宏来获取用户空间探针传递给eBPF程序的前两个参数。

如果对于以上的代码解读如果还有不明白的地方，可以尝试问问GPT。

作者：闻茂泉

原文链接

本文为阿里云原创内容，未经允许不得转载。

MuLTI：高效视频与语言理解

2024-03-19T16:31:38+08:00

一、背景

1.1 多模态的发展

多模态理解模型具有广泛的应用，比如多标签分类（Classification）、视频问答（videoQA）和文本视频检索（Retrieval）等。现有的方法已经在视频和语言理解方面取得了重大进展，然而，他们仍然面临两个巨大的挑战：

1、在处理长序列时平衡计算效率和模型性能。

2、减少预训练和下游任务之间的领域差距。

多模态理解模型一般由三个模块组成：文本编码器（Text Encoder）、视频编码器（VIdeo Encoder）和特征融合模块（Feature Fusion）。后两者通常会导致较高的计算成本。

对于特征融合模块，很难做到既高效又有效。以前的一些工作，比如VIOLET和Clover，它们直接连接视频和文本编码器的输出，然后由Transformer的Encoder进行特征融合，此时模型的计算复杂度和显存消耗与级联序列长度的平方成正比，当长文本与长视频输入到这些模型中时，特征融合所消耗的显存消耗会大幅度上升。为了减轻计算负担，一些工作如ALPRO，FrozenBiLM，CLIPBert在特征融合之前通过均值池化或Class Token的方式压缩视频特征，然而，在多模态融合之前将所有信息压缩到一个向量中可能会丢失重要的细节。一些工作如Flamingo采用Sampler和随机查询来进行有效的视频特征压缩，这种方法是次优的，可能会损害视频特征的完整性。基于上述分析，我们面临了一个难题：如果去压缩特征，容易导致特征的细节丢失；如果不压缩处理特征，特征融合的显存占用过大。此时，如何平衡模型的计算量和准确性是特征融合模块的挑战。

$$ 图1 $$

如何将预训练与下游任务相结合也是一项挑战。以前的预训练框架通常应用四个典型的预训练任务：用于视频编码器优化的掩码帧建模（MVM）任务，用于文本编码器优化的掩码语言建模（MLM）任务，用于视频和文本编码器的联合优化的视频文本匹配（VTM）和视频文本比较（VTC）任务。在大规模视频文本数据集上进行预训练可以显著提高视频文本模型的性能。然而，现有的预训练任务和下游任务之间仍然存在领域差距，特别是在视频QA中。将videoQA引入预训练任务的困难在于构建合适的问答对。

1.2 模型的提出

为了应对这些挑战，我们像图1（d）一样设计 MuLTI。它具有用于序列压缩和多模态融合的文本引导多路采样器（Text-Guided MultiWay-Sampler）。现有的方法如Flamingo，通常使用可学习的查询向量（Query）通过采样器对视频特征进行采样。随机初始化的查询向量可能会丢弃重要的原始特征信息，从而导致性能下降。我们在文本引导多路采样器中设计了一种轻量级的自适应池方法，通过计算每个序列块的重要性来获得压缩特征。然后，我们将压缩特征添加到采样特征中，并使用短文本特征对长视频特征进行采样和融合。我们共享了采样器与特征融合模块的注意力权重，并为采样器中的不同模态保留不同的前馈网络。

图1显示，以前的模型（a）和（b）通过其冗长的级联特征融合消耗了大量的GPU内存。（b）和（c）都压缩视频特征，这是一种常见的选择，因为与文本相比，它们的长度更大。然而，由于视频特征中的信息丰富，过度压缩可能会损害性能。相反，我们设计了类似于（d）的MuLTI，并引入了文本引导的多路采样器来有效地压缩文本特征以进行融合。由于文本更简洁准确，我们使用精简的文本来指导视频特征采样，从而提高了性能。

为了减少视频QA中预训练任务和下游任务之间的领域差距，我们引入了一种新的预训练任务——多选建模（Multiple Choice Modeling，MCM）并基于WebVid2M与CC3M数据集进行了预训练。MCM可以通过在大规模视频文本数据集上构建多项选择题回答任务来弥合预训练任务和下游任务之间的任务差距。它要求模型从随机构建的集合中找到与视频最匹配的文本描述，这增强了视频和文本编码器的表示能力以及视频和文本特征之间的对齐。

我们提出了MuLTI，这是一个高度准确和内存高效的视频和语言框架，它通过特征采样和注意力模块实现了高效和有效的特征融合。
我们提出了一种文本引导多路采样器（Text-Guided MultiWay-Sampler）来对长序列特征进行采样，并促进视频和文本特征之间的交互，从而降低内存成本并提高性能。
我们设计了一种新的预训练任务，称为多选建模（MCM），以建好预训练和下游任务之间的任务差距。在七个英语任务和一个汉语多标签分类任务上的实验结果证明了MuLTI的有效性。

二、模型结构

2.1 视觉与文本编码器

2.2 特征融合模块

$$ 图2 $$

多模态融合模块的核心是Text-Guided MultiWay-Sampler，如图2（b）所示。多路采样器由Transformer的Decoder修改而来。具体而言，我们设计多路采样器模块来有效地压缩文本特征并融合不同的模态特征。

2.3 不同型号的MuLTI

在本节中，我们考虑在有足够资源的情况下实现更高的性能。我们首先将视频编码器从VIT-B/16替换为VIT-L/14，并将文本编码器从Bert-Base替换为Bert-Large。然后，我们得到MuLTI-L。此外，为了满足有限资源的训练要求，我们将视频编码器从VIT-B/16替换为VIT-B/32，并将文本编码器从12层减少到6层。不同模型的浮点运算（FLOPs）、参数（Params）和每秒帧数（FPS）显示在表1。

$$ 表1 $$

三、模型的预训练

我们使用四个目标对 MuLTI 进行预训练，包括三个经典的目标：Masked Language Modeling （MLM），Video Text Matching（VTM），and Video Text Comparison（VTC）。在本节中，我们重点介绍我们提出的一种新技术：Multiple Choice Modeling（MCM）。

尽管MLM、VTC、VTM已经证明了它们在学习视频和文本表示方面的有效性，但预训练任务和下游任务（如视频问答）之间仍然存在很大的领域差距。将视频问答引入预训练任务的难点在于如何构建合适的问答对。选择题是视频问答的常见形式。受多项选择题的启发，我们发现原始配对视频文本描述是自然正确的答案。在这个基础上，我们引入了Multiple Choice Modeling（MCM），这是一种新的预训练任务，提高了模型对视频问答题的敏感性。具体来说，它的结构如下，这是一个四选择题。

"[CLS]<Question> ? [SEP] Option 1: <Answer 1>. [SEP] Option 2: <Answer 2>. [SEP] Option 3: <Answer 3>. [SEP] Option 4: <Answer 4>."

我们将正确的描述随机放入

中，并通过文本语料库获取正确描述以外的答案。问题也有多种选择，如"What does this picture describe?"，"What does this video describe?"，"What can we learn from the video?"等。 MCM 不需要大量额外的手动注释或大量的数据预处理，这是一种高效且可扩展的解决方案。 MCM 的动机是加强模型对 videoQA 任务的敏感性。由于 MCM 可以提高模型从文本中提取视频相关内容的能力，这也提高了模型在文本视频检索任务上的性能。

考虑到 MLM、VTM 和 VTC的有效性，我们还采用它们进行预训练。MLM 以 15% 的概率随机屏蔽输入标记，并用 [MASK] 替换它们，之后根据视频和文本预测屏蔽的文本标记。VTC 将匹配的视频文本对视为正对，将批次中的其他视频文本对视为负对。VTM 与 VTC 非常相似，它预测视频和文本描述是否相互匹配。 VTM需要通过特征融合模块来融合特征，基于交叉熵损失而不是对比损失来训练分类任务。MuLTI 的整体预训练目标是：

四、实验

4.1 实现细节

i、预训练数据集

ii、下游任务与数据集

在视频问答方向，MuLTI模型在五个广泛使用的开放视频QA任务上进行了评估：

MSRVTT-QA基于MSRVTT的视频和字幕。该数据集有10k个视频，其中有243k个问答对，该数据集中有1.5k个候选答案。
MSVD-QA基于MSVD的视频和文本描述。该数据集有1970个视频，其中有50k个问答对，该数据集中有2423个候选答案。
TGIF-QA要求模型了解GIF视频的细节，以回答有关它们的问题。在TGIF-QA中，TGIF Action和TGIF Transition是多项选择任务，而TGIF Frame是一项开放式视频QA任务。

在文本视频检索方向，MuLTI模型在两个广泛使用Retrieval任务上进行了评估：

MSRVTT包含来自YouTube的10K个视频和200K个注释。我们遵循VIOLET，使用9k视频进行培训，使用1k视频进行测试。
DiDeMo包含来自Flickr的10K个视频，其中有40K个注释。我们遵循CLIPBERT并将同一视频中的所有注释连接到标题中。

还有一个中文的多标签分类数据集：

视频标签是在线广告排名模型所需的重要特征，我们构建了一个大规模的内部多标签短视频数据集，其中包含486k个短视频，486k个文本字幕和21696个标签。每个视频文本对有多个标签。标签由来自短视频推荐平台的多位专业编辑进行交叉检查。我们还应用了一个在icdar挑战中具有最高性能的端到端文本检测仪，为每一帧生成OCR。每帧OCR拼接后截断为512。

4.2 建议方法的性能比较

$$ 表2 MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA $$

表2比较了MuLTI与现有方法在七个常用的公共数据集上的表现。

在视频问答任务中，MuLTI在MSRVTT-QA、MSVD-QA、TGIF-Action、TGIF-Transition和TGIF-Frames等数据集上超过了所有已经发表的基线模型。表格中FrozenBILM的结果是没有使用Speech的。总的来说，MuLTI在各种QA任务中实现了最先进的性能。

在文本-视频检索任务中，最有竞争力的文本-视频检索方法是基于CLIP的Vision Transformer和BERT在400M文本-图像对上的预训练。然而，尽管使用较少的预训练数据，MuLTI在两个基准任务上仍然具有很强的竞争力。值得注意的是，在使用DSL进行后处理后，MuLTI的性能优于CAMoE、QB-Norm和TS2-Net。

$$ 表3 $$

表3比较了MuLTI与现有方法在多标签数据集上的表现。

对于多标签分类，我们将multi与VIOLET和ALPRO进行了比较，但排除了FrozenBiLM，因为其尺寸不适合在线部署。VIOLET和ALPRO不使用OCR，因为它们会导致V100 GPU内存不足。为了进行公平的比较，我们还在表3中报告了MuLTI的无OCR的性能；MuLTI显著超过VIOLET和ALPRO。

$$ 图3 $$

如图所示，当训练期间帧计数增加时，MuLTI保持的视频内存成本不到ALPRO和VIOLET的一半，因为其高效的融合模块最大限度地减少了内存成本的增加。

$$ 表4 TGMS代表Text-Guided MultiWay-Sampler，PB代表Pretraining Baseline，MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA，MSRR代表MSRVTT-Ret $$

最后，我们在表4中评估了我们的主要技术贡献。与基线模型相比，我们的主要技术贡献提高了所有数据集的性能。文本引导多路采样器增强了MuLTI的多模式融合能力，精确定位多余视频功能中的关键细节。MCM提高了模型的对齐能力，缩小了预训练和下游任务之间的差距。

4.3 消融实验：

i、文本引导多路采样器的重要性

$$ 表5 MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA $$

$$ 图4 F代表Flatten，E代表Encoder，D代表Decoder，S代表Sampler $$

我们在表5中比较了不同聚合方法的性能。结果表明，Flatten优于其他聚合方法，但需要大量的视频内存。在模型结构的分析中，我们得知部分解码器在长序列中使用的内存比编码器少。虽然它可以很好地处理像MSRVTT-QA这样的数据集。然而，但在处理长文本和视频时，成本仍然很高。具体内存成本如图4所示。

$$ 表6 CV代表压缩视频特征，CT代表压缩文本特征，SS代表Shared-Sampler，AP代表Adapt- Pooling $$

Flamingo使用基于解码器的采样器浓缩视频特征，这是次优的。文本特征更密集、更语义。通过使用文本查询来过滤冗余，语言指导对于从视频表示中提取有用信息是必要的。表6比较了不同的压缩方法，显示了文本压缩的优越性。

采样器和特征融合模块使用相同的解码器结构，可以在不影响性能的情况下共享权重，简化了模型优化。我们共享采样器和解码器的自注意力权重，但为每个模态保留单独的FFN，在保持性能的同时减少参数。与Flatten方法相比，Shared-Sampler在MSRVTT-QA和MSVD-QA上的精度分别提高了0.32%和1.45%。

如表6所示，采样器在压缩文本和视频特征时会导致较差的性能。采样器的随机查询向量具有丢失原始关键特征的风险；我们设计了一个轻量级的聚合模块Adapt-Pooling，以保留原有的功能。如表6所示，Adapt-Pooling提高了MSRVTT-QA和MSVD-QA的准确性。此外，我们探索了各种组合方法（添加、连接和相乘）都只有轻微的性能差异，在MSRVTT-QA上使用连接和相乘分别获得了45.51%和45.45%的准确率。

为了验证这些技术的鲁棒性，我们将其Shared-Sampler和Adapt-Pooling应用于压缩视频特征，这也提高了性能。

ii、Multiple Choice Modeling的重要性

$$ 表7 PB代表Pretraining Baseline，MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA，MSRR代表MSRVTT-Ret $$

MCM旨在通过将视频QA集成到预训练中来弥合预训练和下游任务之间的差距，增强模型对视频和句子主题的关注，以更好地提取多模式特征。

我们使用经典的MLM、VTM和VTC任务来预训练模型作为基线。由于MVM会导致视频内容损坏，与其他任务发生冲突，在我们最初尝试将MVM包括在预训练中时，我们观察到性能下降，如表7所示。因此，我们决定不使用MVM进行预训练。为了证实MCM的鲁棒性，我们还在使用MVM的基础上添加了MCM进行预训练。结果表明，MCM仍然显著提高了模型的性能。与用基线预训练的模型相比，MCM通过缩小预训练和下游任务之间的任务差距，显着提高了模型在视频QA任务上的性能。MCM对多模态特征对齐的促进提高了模型的检索任务性能。如表7所示，用MCM预训练的模型在视频QA和检索任务中都优于基线，证明了其有效性。

五、未来工作

1、在Audio上进行探索，引入音频信息提升性能。

2、进一步降低模型中的计算量最大的VIT的FLOPs与显存占用。

3、优化蒸馏模型模型，保证性能不损失的情况下降低VIT的FLOPs与显存占用。

● 论文标题：

MuLTI: Efficient Video-and-Language Understanding

● 论文作者：

刘波、陈云阔、程孟力、徐家琪、施兴

● 论文PDF链接：

https://arxiv.org/abs/2303.05707

原文链接

本文为阿里云原创内容，未经允许不得转载。

AI加速引擎PAI-TorchAcc：OLMo训练加速最佳实践

2024-03-18T15:23:19+08:00

1.PAI-TorchAcc 简介

PAI-TorchAcc(Torch Accelerator)是阿里云机器学习平台开发的Pytorch上的大模型训练加速框架。

PAI-TorchAcc借助社区PyTorch/XLA，通过 GraphCapture 技术将 Pytorch 动态图转换为静态计算图，基于计算图进行分布式优化、计算优化、显存优化等，为包括大语言模型在内的Pytorch上的模型提供高效训练支持。相比于社区Pytorch/XLA，PAI-TorchAcc具有更好的易用性、更高的性能和更丰富的功能。更详细的介绍可以见文章：AI加速引擎PAI-TorchAcc：整体介绍与性能概述。

2.完全开源的 OLMo 模型

OLMo (Open Language Model) 是由艾伦人工智能研究所等机构发表的完全开源的大语言模型。OLMo 模型提供了完整的训练数据集、代码、checkpoint 等，几乎完全开源了一个大语言模型从零开始训练所需的代码和数据。不仅如此，OLMo 模型在多项核心指标上接近而且部分超过 LLAMA2 模型。

3.如何使用 PAI-TorchAcc 加速 OLMo 模型训练？

通过 PAI-TorchAcc 加速模型训练一般需要三个步骤：

定义 torchacc.Config，并指定加速选项。
调用 torchacc.accelerate，并传入model和config，完成加速训练的准备。
通过 torchacc.AsyncLoader对 torch dataset_loader 进行封装，加速数据加载。

# 定义 model 和 dataloader
model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-1B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-1B", use_fast=False, trust_remote_code=True)
train_loader = get_dataloader(tokenizer)

# 定义 TorchAcc Config
config = torchacc.Config()
config.compute.bf16 = True # 开启 bf16
config.compute.acc_scaled_dot_attn = True # 自动替换 Torch ScaledDot 为torchacc flash attn 版本
config.dist.fsdp.size = torchacc.dist.world_size() # 开启 FSDP，设置 FSDP 数目
config.dist.fsdp.wrap_layer_cls = {"OlmoSequentialBlock"} # 将OLMo模型的decoder layer进行FSDP封装

# 一行代码加速模型
model = torchacc.accelerate(model, config)

# 异步加速数据加载
train_loader = torchacc.AsyncLoader(train_loader, model.device)

# training loop
...

阿里云 DSW Gallery 现在有更完整的 OLMo 模型加速示例：https://pai.console.aliyun.com/?regionId=cn-wulanchabu#/dsw-g...

4.PAI-TorchAcc 的性能表现

以单机 8 卡 A100 为例，在 OLMo 1B 上，PAI-TorchAcc 相比 PyTorch FSDP 加速比为 1.64X；在 OLMo 7B 上，PAI-TorchAcc 相比 PyTorch FSDP 加速比为 1.52X。

$$ 图 1: PAI-TorchAcc 相比 PyTorch FSDP 在 OLMo 模型上的性能提升 $$

5.PAI-TorchAcc 为何这么快？

在 OLMo 模型的性能对比中，PAI-TorchAcc和 PyTorch 都采用相同的分布式策略 FSDP(ZeRO-3)。PAI-TorchAcc 通过计算优化、通信优化、显存优化等，在 OLMo 7B 上相比 PyTorch 达到了 1.52X 的加速比。下面我们以 OLMo 7B 为例分析 PAI-TorchAcc 的性能收益来源。

计算优化&通信优化

为了方便对比，我们将 PAI-TorchAcc和 PyTorch 的 micro batch size都设置为 2 进行对比。

从图 2 中可以看出，通过计算优化，PAI-TorchAcc 将访存密集型算子的时间优化为 PyTorch 对应算子时间的 45.56%，整体的加速比约为 1.25X。通过通信优化，PAI-TorchAcc 能够将计算和通信更好进行 overlap，将没有 overlap 的通信占整体时间的占比从 8.19%降低到 2.43%。

通过计算优化&通信优化，PAI-TorchAcc 相比PyTorch达到了 1.32X 的加速比。

$$ 图 2: micro batch size=2 时，PAI-TorchAcc 相比 PyTorch FSDP 在 OLMo 7B 上的性能提升 $$

显存优化

在 PAI-TorchAcc 中，由于 PyTorch 模型已经转换为静态计算图，所以可以使用比较多的显存优化方法。例如，通过对算子的执行顺序进行调整，可以得到更小的显存峰值；通过更优的显存分配算法，可以让显存碎片更少，减少显存使用；通过 patten match 等方式将 attention 替换为使用显存更少的 flash attention 等等。

通过显存优化，PAI-TorchAcc 的最大 micro batch size 能够达到 4，而 PyTorch 的最大 micro batch size 只能达到 2，这使得PAI-TorchAcc 能够获得更高的性能加速比，这一部分的性能收益主要来自于计算密集型算子。

如图 3 所示，PAI-TorchAcc micro batch size=4 相比 micro batch size=2 的吞吐加速比为 1.15X，这使得PAI-TorchAcc 相比 PyTorch 最终达到了 1.52X 的加速比。

$$ 图 3: 在不同 micro batch size 下，PAI-TorchAcc 相比 PyTorch FSDP 在 OLMo 7B 上的性能提升 $$

6.总结

本文介绍了如何使用 PAI-TorchAcc 加速 OLMo 模型训练，分析了PAI-TorchAcc 的性能收益来源。实际上，PAI-TorchAcc可以通过并行化策略、显存优化、计算优化和调度优化等方法来加速更多的大语言模型训练，目前已接入常见的开源大模型，包括LLaMA、LLaMA-2、BaiChuan、ChatGLM、QWen等。除了大语言模型之外，PAI-TorchAcc也易于接入视觉类、语音类模型，并大幅度提升训练性能。欢迎在阿里云上使用该产品。

作者：黄奕桐、沈雯婷、艾宝乐、王昂、李永

原文链接

本文为阿里云原创内容，未经允许不得转载。

SegmentFault 阿里云栖号最新的文章

基于对比稀疏扰动技术的时间序列解释框架 ContraLSP

开篇

背景

挑战

破局

应用

Spring AI 抢先体验，5 分钟玩转 Java AI 应用开发

Spring AI 简介

Spring Cloud Alibaba AI 简介

体验第一个 Spring AI 应用开发

开发聊天对话应用

验证应用效果

申请通义API-KEY

未来规划

无需重新学习，使用 Kibana 查询/可视化 SLS 数据

1.场景

2.使用方法

部署架构

3.部署过程

使用 docker-compose 部署

4.访问 Kibana

4.1 配置 Index Pattern

4.2 查询 Logstore

4.3 可视化图表

4.4 FAQ

5.小结

大数据基础工程技术团队4篇论文入选ICLR，ICDE，WWW

Pathformer：基于Pathways架构的自适应多尺度时间序列预测模型

ContraLSP：基于对比稀疏扰动技术的时间序列解释框架

MACE：多正常模式感知的频域异常检测算法

LARA：轻量数据依赖的异常检测重训练方法

论文链接

1.论文标题：Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting

2.论文标题：Explaining Time Series via Contrastive and Locally Sparse Perturbations

3.论文标题：Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection

4.论文标题：LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection

PolarDB-X V2.4 列存引擎开源正式发布

架构简介

版本说明

01 列存索引

相关语法

原理简介

性能体验

02 兼容MySQL 8.0.32

标准版架构

性能体验

03 全球数据库 GDN

常见容灾架构

PolarDB-X的容灾能力

使用体验

04 开源生态完善

快速运维部署能力

标准版生态

Apache RocketMQ ACL 2.0 全新升级

引言

升级的背景

ACL 1.0 痛点问题

特性与原理

ACL 2.0 新特性

访问控制模型

认证（Authentication）

主体模型

认证流程

授权（Authorization）

核心概念

权限模型

授权流程

授权参数的解析

权限策略优先级

认证授权策略

插件化机制

审计日志

认证日志

授权日志

配置与使用

部署架构

存算一体架构

存算分离架构

集群配置