阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践

1 月 18 日
阅读 6 分钟
众所周知,随着时间的推移,算力成为了 AI 行业演进一个不可或缺的因素。在数据量日益庞大、模型体量不断增加的今天,企业对分布式算力和模型训练效率的需求成为了首要的任务。如何更好的、更高效率的以及更具性价比的利用算力,使用更低的成本来训练不断的迭代 AI 模型,变成了迫切需要解决的问题。而分布式训练的演进...

分布式锁实现原理与最佳实践

2023-12-05
阅读 25 分钟
一、超卖问题复现1.1 现象存在如下的几张表:商品表订单表订单item表商品的库存为1,但是并发高的时候有多笔订单。错误案例一:数据库update相互覆盖直接在内存中判断是否有库存,计算扣减之后的值更新数据库,并发的情况下会导致相互覆盖发生: {代码...} 错误案例二:扣减串行执行,但是库存被扣减为负数在 SQL 中加入...

存储成本最高降至原来的5%,PolarDB分布式冷数据归档的业务实践

2023-11-28
阅读 6 分钟
国内某家兼具投资理财、文化旅游、票务为一体的大型综合型集团公司,2015年成立至今,由于业务高速发展,业务数据增长非常快,数据库系统屡次不堪重负。该公司数据库运维总监介绍,他们目前业务压力比较大的是票务和订单系统,他们的平台每天新增几千万的订单数据,订单的数据来自于各个终端,近几年每个月以300G的数据...

分布式数据库,基于 Paxos 多副本的两地三中心架构

2023-11-27
阅读 10 分钟
2023年10月份的杭州云栖大会,围绕PolarDB-X分布式数据库,面向大型金融机构核心系统数据库改造实践做了一次技术分享《2023云栖大会-聚合话题:数智金融 数字金融核心技术硬核实践》,介绍了PolarDB-X分布式数据库在大型银行、股份制银行、证券系统、保险业务等场景落地的总结。

Seata:打造行业首个分布式事务产品

2023-11-14
阅读 8 分钟
在 2019 年,我们基于 Dubbo Ecosystem Meetup,收集了 2000 多份关于“在微服务架构,哪些核心问题是开发者最关注的痛点?”的调研问卷。最终分布式事务问题在调研中占比最大,约占 54%。

重磅更新:PolarDB-X V2.3 集中式和分布式一体化开源发布

2023-11-06
阅读 14 分钟
计算节点(CN, Compute Node) 计算节点是系统的入口,采用无状态设计,包括 SQL 解析器、优化器、执行器等模块。负责数据分布式路由、计算及动态调度,负责分布式事务 2PC 协调、全局二级索引维护等,同时提供 SQL 限流、三权分立等企业级特性。

DeepSpeed + Kubernetes 如何轻松落地大规模分布式训练

2023-07-03
阅读 6 分钟
随着 ChatGPT 的广泛应用,各种大规模语言模型层出不穷,其中包括 EleutherAI 推出的 200 亿参数的 GPT-NeoX-20B 和 BigScience 发布的 1760 亿参数的 Bloom 模型。

揭秘大语言模型实践:分布式推理的工程化落地才是关键!

2023-06-27
阅读 8 分钟
随着 3 月 15 日 OpenAI 重磅发布了 GPT4,其在司法考试、程序编程上的惊艳表现,将大家对大模型的热情推向了顶点,人们纷纷讨论是否我们已经进入到通用人工智能的时代。与此同时,基于大语言模型的应用也如雨后春笋出现在大家面前,其在协同办公、客服对话、语言翻译、内容生成等方面的使用均来带了前所未有的畅快体验。

分布式数据库,挂掉两台机器会发生什么

2023-05-10
阅读 5 分钟
对于早期的单机数据库,一般使用主备架构。主备架构有很多的缺陷,并且这些缺陷是无解的。穿过主备架构里各种“优化”的名词,最后也无非是选择一碗毒药而已,这几个毒药包括:

Seata:连接数据与应用

2023-04-17
阅读 6 分钟
Seata 是一款开源的分布式事务解决方案,旨在为现代化微服务架构下的分布式事务提供解决方案。Seata 提供了完整的分布式事务解决方案,包括 AT、TCC、Saga 和 XA 事务模式,可支持多种编程语言和数据存储方案。Seata 还提供了简便易用的 API,以及丰富的文档和示例,方便企业在应用 Seata 时进行快速开发和部署。

RocketMQ x OpenTelemetry 分布式全链路追踪最佳实践

2023-03-31
阅读 8 分钟
在分布式系统中,多个服务之间的交互涉及到复杂的网络通信和数据传输,其中每个服务可能由不同的团队或组织负责维护和开发。因此,在这样的环境下,当一个请求被发出并经过多个服务的处理后,如果出现了问题或错误,很难快速定位到根因。分布式全链路追踪技术则可以帮助我们解决这个问题,它能够跟踪和记录请求在系统中...

基础篇丨链路追踪(Tracing)其实很简单

2023-03-24
阅读 9 分钟
当周末躺在被窝里,点外卖时;双 11 的零点,疯狂提交订单时;假期和基友激情开黑,五杀超神…在这个精彩纷呈的互联网世界里,这些应用背后又隐藏着什么?每一次点击行为在 IT 世界里会流经哪些节点,调用哪些服务,带来哪些变化?这一切庞杂且精密,超出了人力探索的边界,而分布式链路追踪就是追溯请求在 IT 系统间流转...

适用场景全新升级!扩展 Dragonfly2 作为分布式缓存系统架构

2022-12-07
阅读 5 分钟
Dragonfly 作为龙蜥社区的镜像加速标准解决方案,是一款基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。

一文看懂分布式链路监控系统

2022-11-29
阅读 25 分钟
传统的大型单体系统随着业务体量的增大已经很难满足市场对技术的需求,通过对将整块业务系统拆分为多个互联依赖的子系统并针对子系统进行独立优化,能够有效提升整个系统的吞吐量。在进行系统拆分之后,完整的业务事务逻辑所对应的功能会部署在多个子系统上,此时用户的一次点击请求会触发若干子系统之间的相互功能调用...

RocketMQ 5.0: 存储计算分离新思路

2022-05-30
阅读 6 分钟
简介:尽管消息中间件 RocketMQ 在阿里巴巴和开源社区已经走过了十多个年头,但在云原生浩浩荡荡的浪潮下,我们开始对 RocketMQ 的架构有了一些新的思考。本文我们将对其展开详细的讲解。
封面图

消息队列Kafka「检索组件」重磅上线!

2022-05-10
阅读 5 分钟
简介:本文对消息队列 Kafka「检索组件」进行详细介绍,首先通过对消息队列使用过程中的痛点问题进行介绍,然后针对痛点问题提出相应的解决办法,并对关键技术技术进行解读,旨在帮助大家对消息队列 Kafka「检索组件」的特点及使用方式更加熟悉,以期可以帮助大家更有效的解决在消息排查过程中遇到的痛点问题。
封面图

阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)

2022-03-17
阅读 7 分钟
最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。同时,做到了业内极致的低碳高效,使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比之前发布的大模型GPT-3,M6实现同等...
封面图

EventBridge消息路由|高效构建消息路由能力

2022-03-16
阅读 7 分钟
简介:企业数字化转型过程中,天然会遇到消息路由,异地多活,协议适配,消息备份等场景。本篇主要通过 EventBridge 消息路由的应用场景和应用实验介绍,帮助大家了解如何通过 EventBridge 的消息路由高效构建消息路由能力。
封面图

Dubbo-go 优雅上下线设计与实践

2022-02-18
阅读 7 分钟
简介:在分布式场景下,微服务进程都是以容器的形式存在,在容器调度系统例如 k8s 的支持下运行,容器组 Pod 是 K8S 的最小资源单位。随着服务的迭代和更新,当新版本上线后,需要针对线上正在运行的服务进行替换,从而发布新版本。
封面图

SchedulerX 如何帮助用户解决分布式任务调度难题?

2022-02-17
阅读 4 分钟
简介:本文分别对任务调度平台的资源定义、可视化管控能力、分布式批处理能力进行了简述,并基于 SchedulerX 的能力结合实际业务场景提供了一些基础参考案例。希望通过上述内容能让大家方便地熟悉任务调度平台接入使用概况,对于现有用户也可结合自身团队特点进行平台资源管控隔离,以及在产品业务量增长后通过分布式批...
封面图

平安保险基于 SPI 机制的 RocketMQ 定制化应用

2022-02-17
阅读 5 分钟
首先跟大家聊聊我们为什么会选用 RocketMQ,在做技术选型的过程中,应用场景应该是最先考虑清楚的,只有确定好了应用场景在做技术选型的过程中才有明确的目标和衡量的标准。像异步、解耦、削峰填谷这些消息中间件共有的特性就不一一介绍了,这些特性是决定你的场景需不需要使用消息中间件,这里主要讲述下在确定使用消息...
封面图

KubeDL HostNetwork:加速分布式训练通信效率

2022-02-16
阅读 6 分钟
简介:ubeDL 为分布式训练作业带来了 HostNetwork 网络模式,支持计算节点之间通过宿主机网络相互通信以提升网络性能,同时适应 RDMA/SCC 等新型高性能数据中心架构的网络环境,此外,KubeDL 针对 HostNetwork 模式带来的 FailOver 后新端口互相感知等问题也带来了新的解决思路。
封面图

全链路灰度之 RocketMQ 灰度

2022-02-16
阅读 15 分钟
之前的系列文章中,我们已经通过全链路金丝雀发布这个功能来介绍了 MSE 对于全链路流量控制的场景,我们已经了解了 Spring Cloud 和 Dubbo 这一类 RPC 调用的全链路灰度应该如何实现,但是没有涉及到消息这类异步场景下的流量控制,今天我们将以上次介绍过的《如何用 20 分钟就能获得同款企业级全链路灰度能力?》中的场...
封面图

7*24 小时业务不中断!菜鸟乡村应用多活落地实践

2022-02-15
阅读 3 分钟
简介:从前期调研、方案评估、多活建设到最终核心物流业务的改造上线,仅仅只用了 2 个多月,菜鸟乡村就完成了核心业务同城多活容灾的目标,实现业务的 7*24 小时不间断服务,最大程度保障了业务稳定性及连续性。
封面图

如何构建一个流量无损的在线应用架构 | 专题尾篇

2022-02-07
阅读 3 分钟
简介:我们将这些年在每一个环节中的相应解决方案,以产品化的方式沉淀到企业级分布式应用服务(EDAS)中。EDAS 致力于解决在线应用的全流程流量无损,经过 6 年的精细打磨,已经在流量接入与流量服务两个关键位置为我们的客户提供了流量无损的关键能力,我们接下来的主要目标也是将这一能力贯穿应用的全流程,让您的应...
封面图

Datastream 开发打包问题

2022-01-28
阅读 8 分钟
简介:Datastream作业开发时往往会遇到一些jar包冲突等问题,本文主要讲解作业开发时需要引入哪些依赖以及哪些需要被打包进作业的jar中,从而避免不必要的依赖被打入了作业jar中以及可能产生的依赖冲突。
封面图

混合云应用双活容灾最佳实践

2022-01-20
阅读 6 分钟
简介:本文会通过一个业务 Demo 案例,介绍混合云容灾建设的难点,以及如何基于 MSHA 来快速搭建应用双活架构并具备分钟级业务恢复能力。
封面图

RocketMQ 端云一体化设计与实践

2022-01-20
阅读 7 分钟
我们都知道以 RocketMQ 为代表的消息(队列)起源于不同应用服务之间的异步解耦通信,与以 Dubbo 为代表的 RPC 类服务通信一同承载了分布式系统(服务)之间的通信场景,所以服务间的消息分发是消息的基础诉求。然而我们看到,在消息(队列)这个领域,近些年我们业界有个很重要的趋势,就是基于消息这份数据可以扩展到...
封面图

iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)

2022-01-10
阅读 7 分钟
简介:iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)阿里已经正式开源了可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。​
封面图

企业如何从 0 到 1 构建整套全链路追踪体系

2022-01-05
阅读 9 分钟
简介:本文将分享 ARMS 在全链路追踪领域的最佳实践,分享主要分为四部分。首先,是对分布式链路追踪的整体简介。其次,是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后,介绍如何从 0 到 1 构建整套全链路追踪体系。最后,介绍一些最佳实践案例。
封面图