SF
阿里云栖号
阿里云栖号
注册登录
关注博客
注册登录
主页
关于
RSS
分布式锁实现原理与最佳实践
阿里云云栖号
2023-12-05
阅读 25 分钟
一、超卖问题复现1.1 现象存在如下的几张表:商品表订单表订单item表商品的库存为1,但是并发高的时候有多笔订单。错误案例一:数据库update相互覆盖直接在内存中判断是否有库存,计算扣减之后的值更新数据库,并发的情况下会导致相互覆盖发生: {代码...} 错误案例二:扣减串行执行,但是库存被扣减为负数在 SQL 中加入...
DeepSpeed + Kubernetes 如何轻松落地大规模分布式训练
阿里云云栖号
2023-07-03
阅读 6 分钟
随着 ChatGPT 的广泛应用,各种大规模语言模型层出不穷,其中包括 EleutherAI 推出的 200 亿参数的 GPT-NeoX-20B 和 BigScience 发布的 1760 亿参数的 Bloom 模型。
揭秘大语言模型实践:分布式推理的工程化落地才是关键!
阿里云云栖号
2023-06-27
阅读 8 分钟
随着 3 月 15 日 OpenAI 重磅发布了 GPT4,其在司法考试、程序编程上的惊艳表现,将大家对大模型的热情推向了顶点,人们纷纷讨论是否我们已经进入到通用人工智能的时代。与此同时,基于大语言模型的应用也如雨后春笋出现在大家面前,其在协同办公、客服对话、语言翻译、内容生成等方面的使用均来带了前所未有的畅快体验。
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
阿里云云栖号
2023-04-27
阅读 6 分钟
一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。毫无疑问,大模型的训练需要巨大的算力,这对分布式并行框架是一项考验。现如今,业界越来越多的团队纷纷转向分布式框架的研究与开发之中,既有针对特定场景特定模型的极致手工优化,也包括面向通用模型通用...
RocketMQ x OpenTelemetry 分布式全链路追踪最佳实践
阿里云云栖号
2023-03-31
阅读 8 分钟
在分布式系统中,多个服务之间的交互涉及到复杂的网络通信和数据传输,其中每个服务可能由不同的团队或组织负责维护和开发。因此,在这样的环境下,当一个请求被发出并经过多个服务的处理后,如果出现了问题或错误,很难快速定位到根因。分布式全链路追踪技术则可以帮助我们解决这个问题,它能够跟踪和记录请求在系统中...
适用场景全新升级!扩展 Dragonfly2 作为分布式缓存系统架构
阿里云云栖号
2022-12-07
阅读 5 分钟
Dragonfly 作为龙蜥社区的镜像加速标准解决方案,是一款基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。
一文看懂分布式链路监控系统
阿里云云栖号
2022-11-29
阅读 25 分钟
传统的大型单体系统随着业务体量的增大已经很难满足市场对技术的需求,通过对将整块业务系统拆分为多个互联依赖的子系统并针对子系统进行独立优化,能够有效提升整个系统的吞吐量。在进行系统拆分之后,完整的业务事务逻辑所对应的功能会部署在多个子系统上,此时用户的一次点击请求会触发若干子系统之间的相互功能调用...
从零开始入门 K8s | 手把手带你理解 etcd
阿里云云栖号
2019-12-11
阅读 8 分钟
导读:etcd 是用于共享配置和服务发现的分布式、一致性的 KV 存储系统。本文从 etcd 项目发展所经历的几个重要时刻开始,为大家介绍了 etcd 的总体架构及其设计中的基本原理。希望能够帮助大家更好的理解和使用 etcd。
基于 Tracing 数据的拓扑关系生成原理
阿里云云栖号
2019-11-20
阅读 5 分钟
随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持...
初创公司5大Java服务困局,阿里工程师如何打破?
阿里云云栖号
2019-11-06
阅读 15 分钟
阿里妹导读:初创公司遇到的每一个问题都可能攸关生死。创业之初更应该总结行业的常见问题,对比方案寻找最优解。阿里巴巴地图技术专家常意在技术圈摸爬滚打数年,接触了各式各样的Java服务端架构。服务端问题见得多了,也就更能分辨出各种方案的优劣。今天,常意总结了5大初创公司存在的Java服务端难题,并尝试性地给出...
从 SOA 到微服务,企业分布式应用架构在云原生时代如何重塑?
阿里云云栖号
2019-10-08
阅读 7 分钟
阿里妹导读:从十余年前的各种分布式系统研发到现在的容器云,从支撑原有业务到孵化各个新业务,企业的发展离不开统一的、与时俱进的技术架构。本篇文章从企业分布式应用架构层面介绍了云原生计算架构带来的变化,希望能够帮助更多企业的 IT 转型,利用云计算技术推动其成为市场竞争中的敏捷力量。
云原生时代|分布式系统设计知识图谱(内含22个知识点)
阿里云云栖号
2019-09-27
阅读 4 分钟
我们身处于一个充斥着分布式系统解决方案的计算机时代,无论是支付宝、微信这样顶级流量产品、还是区块链、IOT等热门概念、抑或如火如荼的容器生态技术如Kubernetes,其背后的技术架构核心都离不开分布式系统。
【从入门到放弃-ZooKeeper】ZooKeeper实战-分布式队列
阿里云云栖号
2019-09-18
阅读 4 分钟
上文【从入门到放弃-ZooKeeper】ZooKeeper入门中,我们学习了ZooKeeper的简单安装和cli使用。接下来我们开始基于java API的实战编程。本文先来写一个分布式队列的代码实现。
Nacos: Namespace 和 Endpoint 在生产环境下的最佳实践
阿里云云栖号
2019-05-28
阅读 4 分钟
随着使用 Nacos 的企业越来越多,遇到的最频繁的两个问题就是:如何在我的生产环境正确的来使用 namespace 以及 endpoint。这篇文章主要就是针对这两个问题来聊聊使用 nacos 过程中关于这两个参数配置的最佳实践方式。
分布式系统:一致性模型
阿里云云栖号
2019-03-13
阅读 4 分钟
分布式系统中一个重要的问题就是数据复制,数据复制一般是为了增强系统的可用性或提高性能。而实现数据复制的一个主要难题就是保持各个副本的一致性。本文首先讨论数据复制的场景中一致性模型如此重要的原因,然后讨论一致性模型的含义,最后分析常用的一致性模型。
一致性协议浅析:从逻辑时钟到Raft
阿里云云栖号
2019-02-19
阅读 10 分钟
春节在家闲着没事看了几篇论文,把一致性协议的几篇论文都过了一遍。在看这些论文之前,我一直有一些疑惑,比如同样是有Leader和两阶段提交,Zookeeper的ZAB协议和Raft有什么不同,Paxos协议到底要怎样才能用在实际工程中,这些问题我都在这些论文中找到了答案。接下来,我将尝试以自己的语言给大家讲讲这些协议,使大家...
分布式事务中间件 Fescar—RM 模块源码解读
阿里云云栖号
2019-02-14
阅读 8 分钟
前言在SOA、微服务架构流行的年代,许多复杂业务上需要支持多资源占用场景,而在分布式系统中因为某个资源不足而导致其它资源占用回滚的系统设计一直是个难点。我所在的团队也遇到了这个问题,为解决这个问题上,团队采用的是阿里开源的分布式中间件Fescar的解决方案,并详细了解了Fescar内部的工作原理,解决在使用Fesc...
鲜为人知的混沌工程,到底哪里好?
阿里云云栖号
2019-01-29
阅读 4 分钟
阿里妹导读:混沌工程属于一门新兴的技术学科,行业认知和实践积累比较少,大多数IT团队对它的理解还没有上升到一个领域概念。阿里电商域在2010年左右开始尝试故障注入测试的工作,希望解决微服务架构带来的强弱依赖问题。通过本文,你将了解到:为什么需要混沌工程,阿里巴巴在该领域的实践和思考、未来的计划。