政企云平台“一云多芯”路线全景图

2023-07-31
阅读 5 分钟
近年来,“一云多芯”成为云计算领域的一个热词,不仅代表着云平台向着开放化标准化发展,也反应出政企守护“IT安全生命线”的刚性要求。狭义的“一云多芯”是指在一个云平台内可同时采用多种异构CPU等类型的国产芯片,而广义的“一云多芯”要求提供从CPU扩展到GPU、网络设备,以及各类行业生态应用、客户自建应用的全域兼容能力...

Koordinator 最佳实践系列:精细化 CPU 编排

2023-06-12
阅读 7 分钟
在云原生环境中,集群提供者常常将不同类型的工作负载部署在同一个集群中,利用不同业务的不同峰值效果,实现资源分时复用,避免资源浪费。然而,不同类型负载之间混合部署常常会导致资源竞争和相互干扰。最为典型的场景便是在线和离线负载的混合部署。当离线较多的占用计算资源时,在线负载的响应时间就会受到影响;当...

助力 Koordinator 云原生单机混部,龙蜥混部技术提升CPU利用率达60%

2023-03-03
阅读 4 分钟
CPU 混部是指将不同类型的业务部署到同一台机器上运行,让它们共享机器上的 CPU 资源以提升 CPU 利用率,从而降低机器的采购和运营成本。但是,对于有些类型的任务来说,它们对延时非常的敏感,比如电商、搜索或 web 服务等,这类任务的实时性很高,但是通常对资源的消耗却不是很多,我们称之为在线任务;还有一类任务,...

“不服跑个分?” 是噱头还是实力?

2021-08-17
阅读 5 分钟
“不服跑个分”已经沦为手机行业的调侃用语,但是实话实说,在操作系统领域“跑分”确实是最重要的评价方式之一。比如 Linux 内核社区常常以跑分软件得分,来评价一个优化补丁的价值。甚至还有 phoronix 这样专注于 Linux 跑分的媒体。而且今天我还想说一点,让软件跑分高,这是实力的体现,是建立在对内核的深刻理解基础上...
封面图

干掉讨厌的 CPU 限流,让容器跑得更快

2021-08-11
阅读 3 分钟
简介: 让人讨厌的 CPU 限流影响容器运行,有时人们不得不牺牲容器部署密度来避免 CPU 限流出现。本文介绍的 CPU Burst 技术可以帮助您既能保证容器运行服务质量,又不降低容器部署密度。文章分为上下两篇,该文为上篇,下篇将剖析使用 CPU Burst 和其他避免限流手段的区别,以及如何配置 CPU Burst 功能以达到最佳效果。
封面图

CPU静默数据错误:存储系统数据不丢不错的设计思考

2021-07-05
阅读 7 分钟
简介: 对于数据存储系统来说,保障数据不丢不错是底线,也是数据存储系统最难的部分。据统计,丢失数据中心10天的企业,93%会在1年内破产。那么如果想要做到数据不丢不错,我们可以采取怎样的措施呢?
封面图

何为真正的 FaaS ?阿里舜天平台做了四大创新

2020-01-06
阅读 6 分钟
导读:数据中心和云计算的超高增速,AI、视频、基因测序等应用对于算力的无尽渴求和摩尔定律发展事实上已经停滞的现实,均给异构加速带来了巨大的应用潜力和商机。但 Faas 解决方案仍有较高的门槛,今天,我们一起了解 Faas 的难度在哪里?以及在阿里,我们如何做到真正的 Faas?

神龙架构没那么难理解—图解世界领先的阿里云神龙架构(二)神龙出世

2019-12-16
阅读 2 分钟
第2章中指出只要采用虚拟化和弹性计算,就代表100个劳动力必须选择1个管理人员,实际上只能有99个劳动力进行搬砖。而神龙想做到的目标就是既然100个工人搬砖,就要全部搬砖,但同时也需要有手段来管理和控制我家和邻居家不同时间搬砖的工人数。以上图为例就是让黄色的那个被抽出来负责管理工作的工人回去仍然搬砖去。

神龙架构没那么难理解—图解世界领先的阿里云神龙架构(一)缘起

2019-12-16
阅读 3 分钟
同时拥有云服务器的资源弹性和保留了物理机体验的特点容易让用户在需要深入了解神龙架构时产生一个疑问:神龙架构到底是虚的还是实的,如果虚实融合又怎么来理解什么是虚实融合?通过什么手段做到的?

拼不过 GO?阿里如何重塑云上的 Java

2019-12-11
阅读 5 分钟
阿里妹导读:Java 诞生于20年前,拥有大量优秀的企业级框架,践行 OOP 理念,更多体现的是严谨以及在长时间运行条件下的稳定性和高性能。反观如今,在要求快速迭代交付的云场景下,语言的简单性似乎成了首要的要求,而传统的 Java 语言显得有一些过于重量了。今天,阿里 JVM 团队技术专家郁磊(花名:梁希)分享 JVM 团...

如何回答性能优化的问题,才能打动阿里面试官?

2019-11-21
阅读 11 分钟
阿里妹导读:日常工作中,我们多少都会遇到应用的性能问题。在阿里面试中,性能优化也是常被问到的题目,用来考察是否有实际的线上问题处理经验。面对这类问题,阿里工程师齐光给出了详细流程。来阿里面试前,先看看这篇文章哦。

平头哥广发英雄帖,公开首款CPU“玄铁”仿真代码

2019-07-31
阅读 3 分钟
7月25日,阿里云峰会上海站,压轴出场的平头哥,交出了时隔10月的首份答卷:玄铁910(XuanTie910),目前业界性能最强的RISC-V处理器。

MongoDB sharding 集合不分片性能更高?

2019-07-11
阅读 1 分钟
最近云上用户用户遇到一个 sharding 集群性能问题的疑惑,比较有代表性,简单分享一下 测试配置 mongos x 2、shard x 3 测试1:集合不开启分片,批量 insert 导入数据,每个 batch 100 个文档 测试2:集合开启分片,随机生成 shardKey,chunk 已提前 split 好,能确保写入均分到3个shard 测试结果 测试1:单个 shard cpu...

时延敏感业务低概率超时问题分析

2019-06-18
阅读 5 分钟
作为阿里云底层提供的基础设施,内部的物理网络和许多网络产品在数据平面给客户的可操作性并不高,从一定程度上来说是个黑盒。当然,在传统的IDC环境,业务和物理网络之间也存在同样的隔阂。所以在遇到业务卡顿、延迟、不通等问题的时候,很容易怀疑到网络。因此如何抽丝拨茧,找到正确的方向对症下药才能够真正的解决问...

何为真正的 FaaS ?阿里舜天平台做了四大创新

2019-06-03
阅读 6 分钟
阿里妹导读:数据中心和云计算的超高增速,AI、视频、基因测序等应用对于算力的无尽渴求和摩尔定律发展事实上已经停滞的现实,均给异构加速带来了巨大的应用潜力和商机。但 Faas 解决方案仍有较高的门槛,今天,我们一起了解 Faas 的难度在哪里?以及在阿里,我们如何做到真正的 Faas?

开源性能可视化工具——FlameScope模式识别

2019-05-29
阅读 4 分钟
FlameScope是一个新的开源性能可视化工具,它使用次秒级偏移热图和火焰图来分析周期活动、方差、扰动。我们在Netflix TechBlog上面,发表了技术文章Netflix FlameScope,以及工具的源代码。火焰图很好理解,次秒级偏移热图理解起来要困难些(我最近发明的它)。FlameScope可以该帮助你理解后者。

5分钟了解阿里时序时空数据库

2019-05-27
阅读 5 分钟
时序时空数据库(Time Series & Spatial Temporal Database,简称 TSDB)是一种高性能、低成本、稳定可靠的在线时序时空数据库服务,提供高效读写、高压缩比存储、时序数据插值及聚合计算等服务,广泛应用于物联网(IoT)设备监控系统、企业能源管理系统(EMS)、生产安全监控系统和电力检测系统等行业场景;除此以...

Node.js 应用故障排查手册 —— 类死循环导致进程阻塞

2019-04-15
阅读 6 分钟
在实践篇一中我们看到了两个表象都是和 CPU 相关的生产问题,它们基本也是我们在线上可能遇到的这一类问题的典型案例,而实际上这两个案例也存在一个共同点:我们可以通过 Node.js 性能平台 导出进程对应的 CPU Profile 信息来进行分析定位问题,但是实际在线上的一些极端情况下,我们遇到的故障是没有办法通过轻量的 V8...

不可错过的CMS学习笔记

2019-04-10
阅读 8 分钟
带着问题去学习一个东西,才会有目标感,我先把一直以来自己对CMS的一些疑惑罗列了下,希望这篇学习笔记能解决掉这些疑惑,希望也能对你有所帮助。

Node.js 应用故障排查手册 —— 综合性 GC 问题和优化

2019-04-09
阅读 5 分钟
本章前面两节生产案例分别侧重于单一的 CPU 高和单一的内存问题,我们也给大家详细展示了问题的定位排查过程,那么实际上还有一类相对更复杂的场景——它本质上是 V8 引擎的 GC 引发的问题。

Node.js 应用故障排查手册 —— 正确打开 Chrome devtools

2019-04-04
阅读 6 分钟
前面的预备章节中我们大致了解了如何在服务器上的 Node.js 应用出现问题时,从常规的错误日志、系统/进程指标以及兜底的核心转储这些角度来排查问题。这样就引出了下一个问题:我们知道进程的 CPU/Memory 高,或者拿到了进程 Crash 后的核心转储,要如何去进行分析定位到具体的 JavaScript 代码段。

Dubbo Mesh 在闲鱼生产环境中的落地实践

2019-03-11
阅读 7 分钟
本文作者至简曾在 2018 QCon 上海站以《Service Mesh 的本质、价值和应用探索》为题做了一次分享,其中谈到了 Dubbo Mesh 的整体发展思路是“借力开源、反哺开源”,也讲到了 Service Mesh 在阿里巴巴的发路径将经历以下三大阶段: