摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台

2022-04-24
阅读 14 分钟
云原生(Cloud Native)[1]是云计算领域过去 5 年发展最快、关注度最高的方向之一。CNCF(Cloud Native Computing Foundation,云原生计算基金会)2021年度调查报告[2]显示,全球已经有超过 680 万的云原生技术开发者。同一时期,人工智能 AI 领域也在“深度学习算法+GPU 大算力+海量数据”的推动下持续蓬勃发展。有趣的是...
封面图

深度解密|基于 eBPF 的 Kubernetes 问题排查全景图发布

2022-04-20
阅读 9 分钟
简介:通过 eBPF 无侵入地采集多语言、多网络协议的黄金指标/网络指标/Trace,通过关联 Kubernetes 对象、应用、云服务等各种上下文,同时在需要进一步下钻的时候提供专业化的监测工具(如火焰图),实现了 Kubernetes 环境下的一站式可观测性平台。
封面图

揭秘sealer背后实现整个集群一键交付的奥秘 | 龙蜥技术

2022-04-19
阅读 6 分钟
编者按:集群镜像把整个集群看成一台服务器,把 k8s 看成云操作系统,实现整个集群的镜像化打包和交付,为企业级软件提供一种“开箱即用”的应用封装技术。本文整理自龙蜥大讲堂技术直播第11期,由龙蜥社区集群镜像 SIG 核心成员、sealer项目发起人方海涛分享——通过 sealer 实现整个集群 Build&Share&Run。
封面图

深度解析|基于 eBPF 的 Kubernetes 一站式可观测性系统

2022-04-07
阅读 6 分钟
简介:阿里云 Kubernetes 可观测性是一套针对 Kubernetes 集群开发的一站式可观测性产品。基于 Kubernetes 集群下的指标、应用链路、日志和事件,阿里云 Kubernetes 可观测性旨在为 IT 开发运维人员提供整体的可观测性方案。
封面图

无缝融入 Kubernetes 生态 | 云原生网关支持 Ingress 资源

2022-03-18
阅读 5 分钟
简介:Kubernetes 一贯的作风是通过定义标准来解决同一类问题,在解决集群对外流量管理的问题也不例外。Kubernetes 对集群入口点进行了进一步的统一抽象,提出了 3 种解决方案:NodePort、LoadBalancer 和 Ingress。
封面图

深度揭秘阿里云 Serverless Kubernetes

2022-03-18
阅读 4 分钟
简介:听阿里云技术专家聊聊 Serverless Kubernetes 一路走来的发展史,看看它是如何做到兼容 Kubernetes 使用方式的同时,拥有免运维和极致弹性等特点~
封面图

在阿里巴巴,我们如何先于用户发现和定位 Kubernetes 集群问题?

2022-03-14
阅读 9 分钟
简介:本文整理自阿里云高级研发工程师彭南光(光南) 在 KubeCon China 2021 大会的演讲实录,分享了阿里巴巴是如何通过自研通用链路探测+定向巡检工具 KubeProbe 应对大规模集群的稳定性挑战的。关于阿里云云原生团队在本次 KubeCon 上分享的全部内容沉淀于电子书《云原生与云未来的新可能》当中,可点击文末“阅读原文”...
封面图

服务网格 ASM 年终总结:最终用户如何使用服务网格?

2022-02-17
阅读 7 分钟
简介:本文不打算回顾 Istio 或是阿里云服务网格 ASM 的变化或趋势,我们来聊一聊阿里云 ASM 服务网格,它的最终用户是如何使用服务网格的。
封面图

阿里云容器服务差异化 SLO 混部技术实践

2022-02-16
阅读 7 分钟
简介:阿里巴巴在“差异化 SLO 混合部署”上已经有了多年的实践经验,目前已达到业界领先水平。所谓“差异化 SLO”,就是将不同类型的工作负载混合运行在同一节点,充分利用工作负载对资源 SLO 需求特征的不同,提升资源整体使用效率。本文将重点介绍相关技术细节和使用方法,让用户可以充分享受差异化 SLO 带来的技术红利。
封面图

iLogtail 与Filebeat 性能对比

2022-01-28
阅读 10 分钟
简介:前段时间, iLogtail 阿里千万实例可观测采集器开源,其中介绍了iLogtail采集性能可以达到单核100MB/s,相比开源采集Agent有5-10倍性能优势。很多小伙伴好奇iLogtail具体的性能数据和资源消耗如何,本文将针对目前业界使用度较高且性能相对较优的Agent FileBeat进行对比,测试这两个Agent在不同压力场景下的表现如何。
封面图

简单、有效、全面的Kubernetes监控方案

2022-01-19
阅读 4 分钟
简介:近年来,Kubernetes作为众多公司云原生改造的首选容器化编排平台,越来越多的开发和运维工作都围绕Kubernetes展开,保证Kubernetes的稳定性和可用性是最基础的需求,而这其中最核心的就是如何有效地监控Kubernetes集群,保证整个集群的一个良好的可观察性。本期将为大家介绍Kubernetes的监控方案。
封面图

阿里巴巴超大规模Kubernetes基础设施运维体系揭秘

2021-12-27
阅读 13 分钟
简介:ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施。ASI 基于阿里云公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的Serverless化的基础设施平台。
封面图

KubeDL 0.4.0 - Kubernetes AI 模型版本管理与追踪

2021-12-21
阅读 8 分钟
KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写,希望能够依托阿里巴巴的场景,将大规模机器学习作业调度与管理的经验反哺社区。目前 KubeDL 已经进入 CNCF Sandbox 项目孵化,我们会不断探索云原生 AI 场景中的最佳实践,助力算法科学家们简单高效地实现创新落地。
封面图

如何使用 Kubernetes 监测定位慢调用

2021-12-03
阅读 6 分钟
简介:本次课程主要分为三大部分,首先将介绍慢调用的危害以及常见的原因;其次介绍慢调用的分析方法以及最佳实践;最后将通过几个案例来去演示一下慢调用的分析过程。
封面图

Kubernetes 入门教程

2021-11-23
阅读 16 分钟
简介: 本文是一篇 kubernetes(下文用 k8s 代替)的入门文章,将会涉及 k8s 的架构、集群搭建、一个 Redis 的例子,以及如何使用 operator-sdk 开发 operator 的教程。在文章过程中,会穿插引出 Pod、Deployment、StatefulSet 等 k8s 的概念,这些概念通过例子引出来,更容易理解和实践。
封面图

无处不在的 Kubernetes,难用的问题解决了吗?

2021-11-18
阅读 6 分钟
简介: 从第三方的调研数据看,容器和 Kubernetes 已经成为云原生时代主流的选择,但实际落地的时候,却陷入了困境。我们尝试去总结了一些共通点,以及应对方案,也许能为正在落地容器技术的企业提供一些参考。
封面图

系统架构面临的三大挑战,看 Kubernetes 监控如何解决?

2021-11-08
阅读 4 分钟
简介: 随着 Kubernetes 的不断实践落地,我们经常会遇到负载均衡、集群调度、水平扩展等问题。归根到底,这些问题背后都暴露出流量分布不均的问题。那么,我们该如何发现资源使用,解决流量分布不均问题呢?今天,我们就借助三个具体场景聊聊这一问题以及相应的解决方案。
封面图

如何发现 Kubernetes 中服务和工作负载的异常

2021-10-12
阅读 7 分钟
简介: 本次分享为Kubernetes 监控公开课的第二节内容:如何发现 Kubernetes 中服务和工作负载的异常。 分享由三个部分组成: 一、Kubernetes 异常定位存在痛点; 二、针对这些痛点,Kubernetes 监控如何更快、更准、更全的发现异常; 三、网络性能监控、中间件监控等典型案例解析。
封面图

OpenKruise 如何实现应用的可用性防护?

2021-10-09
阅读 3 分钟
简介: OpenKruise 在 2021.9.6 发布了最新的 v0.10.0 版本新增了弹性拓扑管理和应用安全防护等能力,本文将为大家揭晓 OpenKruise 是如何实现应用的可用性防护能力。
封面图

通过Kubernetes监控探索应用架构,发现预期外的流量

2021-09-22
阅读 4 分钟
简介: Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统,是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可...
封面图

KubeDL 加入 CNCF Sandbox,加速 AI 产业云原生化

2021-08-18
阅读 6 分钟
简介: 2021 年 6 月 23 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 KubeDL 成为 CNCF Sandbox 项目。KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写,希望能够依托阿里巴巴的场景,将大规模机器学习作业调度与管理的经验反哺社区。
封面图

ChaosBlade:从混沌工程实验工具到混沌工程平台

2021-08-16
阅读 7 分钟
简介: ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已加入到 CNCF Sandbox 中。起初包含面向多环境、多语言的混沌工程实验工具 chaosblade,到现在发展到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台支持实验工具托管和工具自动化部署,通过统一用户实验界面,将用户的精力聚焦在通过混沌工...
封面图

当容器应用越发广泛,我们又该如何监测容器?

2021-08-12
阅读 4 分钟
简介: 随着容器技术蓬勃发展与落地推行,越来越多企业的业务运行于容器中。作为主流部署方式之一,容器将团队的任务和关注点分割开,开发团队只需关注应用程序逻辑和依赖项,而运维团队只需关注部署和管理,无需再为特定软件版本和应用程序特定配置等应用程序细节而提心吊胆。这意味着开发团队和运维团队可以花费更少时...
封面图

「应用管理与交付」为什么会成为云原生新的价值聚焦点?

2021-06-24
阅读 4 分钟
简介: 为什么“云原生应用管理与交付”会成为 Kubernetes 之上重要的价值聚焦点?CNCF App Delivery SIG 在推动 Kubernetes 之上应用层技术快速演进的过程中将扮演什么角色?这个领域又将发生哪些值得大家期待的创新?让我们一起了解 App Delivery SIG 新任 Co-chairs 邓洪超有什么看法。
封面图

如何专业化监控一个Kubernetes集群?

2021-06-22
阅读 12 分钟
如何构建全面深入的可观测性架构和体系,是提升系统稳定性的关键之因素一。ACK将可观测性最佳实践进行沉淀,以阿里云产品功能的能力对用户透出,可观测性工具和服务成为基础设施,赋能并帮助用户使用产品功能,提升用户 Kubernetes 集群的稳定性保障和使用体验。
封面图

集群镜像:实现高效的分布式应用交付

2021-06-15
阅读 6 分钟
顾名思义,和操作系统 .iso 镜像或 Docker 镜像类似,集群镜像是用一定的技术手段把整个集群的所有文件以一定格式打成的一个资源包。对比单机和集群会发现一些的有趣现象:
封面图

KubeVela + KEDA:为应用带来“与生俱来”的弹性伸缩能力

2021-05-14
阅读 4 分钟
简介: 在这篇博文中,我们将简要解释需要考虑的领域,KEDA 如何使应用自动伸缩变得简单,以及为什么阿里云企业分布式应用服务(EDAS)在 KEDA 上完全标准化。
封面图

云原生下的灰度体系建设

2021-05-11
阅读 10 分钟
简介: 本篇文章,我们将继续为大家介绍 ASI SRE(ASI,Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施) 是如何探索在 Kubernetes 体系下,建设 ASI 自身基础设施在大规模集群场景下的变更灰度能力的。
封面图

边开飞机边换引擎?我们造了个新功能保障业务流量无损迁移

2021-04-29
阅读 4 分钟
简介: 容器化部署应用可以降低企业成本,提升研发效率,解放运维人员。据 Gartner 预计,到 2022 年,将有 75% 的企业将在生产中运行容器化应用程序。Kubernetes 是企业部署容器化应用的首选框架。由于 Kubernetes 部署及运维的复杂性,越来越多的客户选择将业务从 ECS 或者自建的 Kubernetes 迁移到阿里云托管版 Kube...
封面图

连续三年入围 Gartner 容器竞争格局,阿里云容器服务新布局首次公开

2021-04-27
阅读 4 分钟
简介: 近日,国际知名信息技术咨询机构 Gartner 发布 2021 年容器竞争格局报告,阿里云成为国内唯一连续三年入选的中国企业,产品丰富度与成熟度持续保持全球领先水平。
封面图