阿里云栖号 - SegmentFault 思否

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

阿里云云栖号

4 月 15 日

阅读 6 分钟

阿里云向量检索 Milvus 版是一款 Serverless 全托管服务，确保了与开源 Milvus 的完全兼容性，并支持无缝迁移。它在开源版本的基础上增强了可扩展性，能提供大规模 AI 向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警，Milvus 云服务成为多样化 AI 应用场景的理想选择，包括多模态搜索...

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

阿里云云栖号

4 月 15 日

阅读 11 分钟

随着当前数据处理业务场景日趋复杂，对于大数据处理平台基础架构的能力要求也越来越高，既要求数据湖的大存储能力，也要求具备海量数据高效批处理能力，同时还可能对延时敏感的近实时链路有强需求，本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供近实时增全量一体的数据存储...

运维人少，如何批量管理上百个微服务、上千条流水线?

阿里云云栖号

4 月 11 日

阅读 3 分钟

随着微服务和云原生技术的发展，一个业务系统往往由多个微服务应用组成，多个业务方向涉及几十上百应用。每个应用研发过程又划分为测试、预发、生产多条流水线，也即成百上千条流水线。而一个企业下通常只有 1～2 个运维或架构师负责这些应用的配置管理工作。该场景下你是否会遇到以下苦恼：

云原生最佳实践系列2：基于 MSE 云原生网关同城多活

阿里云云栖号

4 月 10 日

阅读 3 分钟

方案概述分布在同城多个机房内的应用同时对外提供服务。同城机房物理距离较小，一般小于 50 公里。同城多活架构的难点有三个：当某机房出现故障，能不能做到机房级的快速切换？如何实现非对等部署下的全局的流量负载均衡？对流量的精细化管控？常见的同城多活实现方式（如下图），在这个架构里。DNS 本身存在缓存，DNS ...

RocketMQ 流存储解析：面向流场景的关键特性与典型案例

阿里云云栖号

4 月 9 日

阅读 6 分钟

从初代开源消息队列崛起，到 PC 互联网、移动互联网爆发式发展，再到如今 IoT、云计算、云原生引领了新的技术趋势，消息中间件的发展已经走过了 30 多个年头。

全新架构！日志服务 SLS 自研免登录方案发布

阿里云云栖号

4 月 8 日

阅读 3 分钟

很多用户在使用日志服务 SLS 时，采用 STS 这种免登的方式，能够快速将日志服务的页面集成到三方的系统中。STS 模式是非常经典且成熟的免登方案，它的优点非常多，例如：能够充分利用阿里云账号 RAM 体系、能够通用地集成支持 STS 模式的所有云产品、支持客户自定义访问权限等。

爆款游戏如何借助 RocketMQ Serverless，打造流畅体验并节省 98% 成本？

阿里云云栖号

4 月 7 日

阅读 2 分钟

一款游戏作品之所以能在市场上引爆热潮，铸就爆款传奇，除了独树一帜的创新设计理念、引人入胜的故事情节和丰富多样的玩法机制之外，最核心的要素就是为玩家提供极致流畅且无与伦比的游戏体验。这种体验涵盖了从游戏载入速度、画面帧率稳定性、操作响应灵敏度到网络环境的优化等多个维度，每一环节都对游戏最终能否赢得...

一键开启 GPU 闲置模式，基于函数计算低成本部署 Google Gemma 模型服务

阿里云云栖号

4 月 7 日

阅读 5 分钟

Google 在 2024 年 02 月 21 日正式推出了自家的首个开源模型族 Gemma ，并同时上架了四个大型语言模型，提供了 2B 和 7B 两种参数规模的版本，每种都包含了预训练版本（base 模型）和指令微调版本（chat 模型）[1]。根据 Google 的技术报告，本次开源的 Gemma 在问题回答、合理性、数学、代码等方面的性能均超越同参数...

一键生成视频！用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流

阿里云云栖号

4 月 3 日

阅读 3 分钟

Stable Video Diffusion（以下简称 SVD），是一个图像到视频模型模型，能够以每秒 3 到 30 帧的可自定义的帧率生成 14 帧和 25 帧的视频。去年 11 月，Stability.AI 发布了它的 1.0 版本。

一文看懂如何做好 SQL 质量监控

阿里云云栖号

4 月 2 日

阅读 4 分钟

在 SLS 中，用户可以通过 SQL 对日志数据（结构化、半结构化、无结构化）进行查询和分析。随着用户对 SQL 使用程度的不断加深，越来越多的用户希望了解自己使用 SQL 分析时的服务反馈（如请求量、成功率、数据量等等），以便对数据和分析行为进行精细管理或优化治理。

使用 SPL 高效实现 Flink SLS Connector 下推

阿里云云栖号

4 月 1 日

阅读 7 分钟

日志服务 SLS 是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务，基于日志服务的便捷的数据接入能力，可以将系统日志、业务日志等接入 SLS 进行存储、分析；阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台，在实时数据分析、风控检测等场景应用广泛。阿里云 F...

TorchAcc：基于 TorchXLA 的分布式训练框架

阿里云云栖号

4 月 1 日

阅读 7 分钟

过去十年 AI 领域的显著进步，关键在于训练技术的革新和模型规模的快速攀升。尽管大模型展现了堪比人类的理解力，但其训练却对算力提出了极高的要求。唯有配备充足的计算资源，方能在海量数据上有效训练大模型，确保其在有限时间内实现优质收敛。

PolarDB-X最佳实践系列（五）：使用通义千问和存储过程快速生成测试数据

阿里云云栖号

3 月 28 日

阅读 3 分钟

PolarDB-X目前是少有的支持存储过程的分布式数据库，结合大模型，我们可以非常简单的来制造测试数据：存储过程的原理和使用方法通义官网

从4小时到15分钟，一次分布式数据库的丝滑体验

阿里云云栖号

3 月 27 日

阅读 3 分钟

识货APP致力于为广大用户提供专业的网购决策指导，为喜欢追求性价比的网购朋友带来及时劲爆的运动、潮流、生活、时尚等网购优惠资讯，产品覆盖国内外主流购物商城。它提供了全球范围内的时尚品牌、潮流单品的信息，帮助用户发现和购买最新、最热、最具性价比的时尚商品。近年来，各大电商平台上的商品信息持续增加，海量...

PolarDB-X 的 XPlan 索引选择

阿里云云栖号

3 月 27 日

阅读 6 分钟

对于数据库来说，正确的选择索引是基本的要求，选错索引轻则导致查询缓慢，重则导致数据库整体不可用。PolarDB-X存在多种不同的索引，局部索引、全局索引、列存索引、归档表索引。

选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化

阿里云云栖号

3 月 26 日

阅读 6 分钟

1月17日，在阿里云PolarDB开发者大会上，阿里云PolarDB分布式产品部负责人黄贵发表了《分布式的PolarDB：分布式的能力，一体化的体验》主题演讲。

PolarDB-X 最佳实践：如何设计一张订单表

阿里云云栖号

3 月 26 日

阅读 5 分钟

本文主要内容是如何使用全局索引与CO_HASH分区算法（CO_HASH），实现高效的多维度查询。1.淘宝订单号中的秘密有一个很有趣的事情。打开你的淘宝客户端或者PC端的淘宝，点开订单列表，打开几个订单，查看他们的订单号，你会发现什么？比如这是我最近的3个订单，和10年前的3个订单。其订单号分别是：124951106536441481012...

M2Doc：文档版面分析的可插拔多模态融合方法

阿里云云栖号

3 月 25 日

阅读 3 分钟

文档版面分析任务是文档智能的一个关键任务。然而，现有的很多文档版面分析研究方法都基于通用目标检测方法，忽视了文档的文本特征而仅仅只关注于视觉特征。近年来，基于预训练的文档智能模型在很多文档下游任务中都取得了成功，然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中...

叫好不叫座？Arm、英特尔、AMD 等 5 位技术大咖畅聊机密计算技术

阿里云云栖号

3 月 25 日

阅读 8 分钟

众所周知，我们身处一个信息爆炸的时代，数据成为了新的石油，推动了整个数字经济的发展，那么随之而来的是对数字安全性和隐私保护的日益增长关注。机密计算作为一项新兴技术，为我们如何安全处理和计算敏感数据提供了新的视角和解决方案。

SysOM 的可观测和智能监控实践

阿里云云栖号

3 月 22 日

阅读 5 分钟

编者按：龙蜥社区系统运维 SIG Contributor 刘馨蔚在 2023 龙蜥操作系统大会上分享了随着云原生的发展，给运维带来了极大挑战，并提到了现有运维产品的现状和不足。为了解决这些痛点，实现“零”运维，提出了两点解决方案。以下为本次分享全文：

英特尔助力龙蜥加速 AI 应用及 LLM 性能

阿里云云栖号

3 月 22 日

阅读 4 分钟

操作系统的发展离不开南北向软硬件生态的扩展和支持，龙蜥社区也离不开各合作伙伴的共创。在 2023 龙蜥操作系统大会全面拥抱智算时代分论坛上，英特尔 AI 软件工程师王华强从两方面分享了英特尔至强处理器平台上的两个重点算力和内存带宽，以及英特尔 xFasterTransformer 开源项目（主要用于 CPU 平台）、xFT 开发软件图...

重新审视 CXL 时代下的分布式内存

阿里云云栖号

3 月 21 日

阅读 5 分钟

随着摩尔定律增长的逐渐减缓，系统规模的水平扩展已经成为提升系统性能的关键策略。然而，这种扩展依赖于分布式系统架构的支持，而分布式编程的固有复杂性给构建高效、可靠及弹性的系统带来了严峻挑战。因此，简化分布式编程依旧是分布式编程框架追求的核心目标。

解锁深度表格学习（Deep Tabular Learning）的关键：算术特征交互

阿里云云栖号

3 月 21 日

阅读 4 分钟

近日，阿里云人工智能平台PAI与浙江大学吴健、应豪超老师团队合作论文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在国际人工智能顶会AAAI-2024上发表。本项工作聚焦于深度表格学习中的一个核心问题：在处理结构化表格数据（tabular data）时，深度模型是否拥有有效的归纳偏差（indu...

eBPF动手实践系列三：基于原生libbpf库的eBPF编程改进方案

阿里云云栖号

3 月 20 日

阅读 21 分钟

在上一篇文章《eBPF动手实践系列二：构建基于纯C语言的eBPF项目》中，我们初步实现了脱离内核源码进行纯C语言eBPF项目的构建。libbpf库在早期和内核源码结合的比较紧密，如今的libbpf库更加成熟，已经完全脱离内核源码独立发展。

MuLTI：高效视频与语言理解

阿里云云栖号

3 月 19 日

阅读 8 分钟

多模态理解模型具有广泛的应用，比如多标签分类（Classification）、视频问答（videoQA）和文本视频检索（Retrieval）等。现有的方法已经在视频和语言理解方面取得了重大进展，然而，他们仍然面临两个巨大的挑战：

AI加速引擎PAI-TorchAcc：OLMo训练加速最佳实践

阿里云云栖号

3 月 18 日

阅读 3 分钟

PAI-TorchAcc借助社区PyTorch/XLA，通过 GraphCapture 技术将 Pytorch 动态图转换为静态计算图，基于计算图进行分布式优化、计算优化、显存优化等，为包括大语言模型在内的Pytorch上的模型提供高效训练支持。相比于社区Pytorch/XLA，PAI-TorchAcc具有更好的易用性、更高的性能和更丰富的功能。更详细的介绍可以见文章：A...

通义千问1.5(Qwen1.5)大语言模型在 PAI-QuickStart 的微调与部署实践

阿里云云栖号

3 月 18 日

阅读 4 分钟

Qwen1.5（通义千问1.5）是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版，该模型推出了多个规模，从0.5B到72B，满足不同的计算需求。此外，该系列模型还包括了Base和Chat等多个版本的开源模型，为全球的开发者社区提供了空前的便捷性。阿里云的人工智能平台PAI，作为一站式的机器学习和深度学习...

AI加速引擎 PAI-TorchAcc：整体介绍与性能概述

阿里云云栖号

3 月 15 日

阅读 5 分钟

PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口，无需进行模型转换就可以无缝地接入HuggingFace上的模型，并用多种分布式策略进行训练加速。

PTS 3.0：开启智能化的压测瓶颈分析

阿里云云栖号

3 月 13 日

阅读 4 分钟

性能测试 PTS（Performance Testing Service）是阿里云上一款简单易用，具备强大的分布式压测能力的 SaaS 压测平台。PTS 可以模拟复杂的业务场景，并快速精准地调度不同规模的流量，同时提供压测过程中多维度的监控指标和日志记录。用户无需准备资源，即可按需发起压测任务，监控压测指标，获取压测报告，进而能够高效率...

弱结构化日志 Flink SQL 怎么写？SLS SPL 来帮忙

阿里云云栖号

3 月 12 日

阅读 8 分钟

日志服务 SLS 是云原生观测与分析平台，为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务，基于日志服务的便捷的数据接入能力，可以将系统日志、业务日志等接入 SLS 进行存储、分析；阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台，在实时数据分析、风控检测等场景应用广泛。阿里云 F...

1

1