Kube Queue:Kubernetes 任务排队的利器

2 月 27 日
阅读 5 分钟
批处理作业(Batch Job)常应用于数据处理、仿真计算、科学计算和人工智能等领域,主要用于执行一次数据处理或模型训练任务。由于这类任务往往需要消耗大量计算资源,因此必须根据任务的优先级和提交者的可用资源情况进行合理排队,才能最大化集群资源的利用效率。

从 Linux Crontab 到 K8s CronJob,定时任务正在经历怎样的变革

2023-11-30
阅读 8 分钟
许多传统企业使用 Linux 自带的 crontab 来做定时任务的方案,该方案非常简单,适合做主机上的运维工作,比如定时清理日志、周期性做健康检查。随着信息化时代的高速发展,业务变得越来越复杂,很多场景都需要定时任务,但是 crontab 方案存在高可用问题,不适合应用在业务应用上。

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战

2023-11-30
阅读 7 分钟
2023 年 7 月,阿里云容器服务 ACK 成为首批通过中国信通院“云服务稳定运行能力-容器集群稳定性”评估的产品, 并荣获“先进级”认证。随着 ACK 在生产环境中的采用率越来越高,稳定性保障已成为基本诉求。本文基于 ACK 稳定性保障实践经验,帮助用户全面理解 ACK 稳定性理论和优化策略,并了解如何使用相应的工具和服务进...

基于 eBPF 构建下一代智能可观测系统

2023-11-28
阅读 9 分钟
在开始之前呢,我先介绍一下我们自己。我是刘恺,花名是千陆,目前是阿里云 ARMS K8s 监控子产品的负责人。这位是我的同事董善东博士,花名梵登,他是阿里云 ARMS 产品 AIOps 领域的负责人。

Hago 的 Spark on ACK 实践

2023-11-16
阅读 3 分钟
Hago 于 2018 年 4 月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago 融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、 3D 虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。

Koordinator 支持 K8s 与 YARN 混部,小红书在离线混部实践分享

2023-11-16
阅读 3 分钟
Koordinator 是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,目前已经支持了 K8s 生态内的在离线混部,然而在 K8s 生态外,仍有相当数量的用户会将大数据任务运行在 Apache Hadoop YARN[1]这类资源管理系统中。虽然目前一些计算引擎提供了 K8s operator,将任务接入到了 K8s 生态,但不可否认的是...

精进云原生 – Dubbo Kubernetes 最佳实践

2023-10-16
阅读 7 分钟
随着云原生的兴起,越来越多的应用选择基于 Kubernetes 进行部署,相关的 DevOps 等工具也应运而生。而 Dubbo 作为微服务体系的主流解决方案,如何开发面向 Kubernetes 部署和运维的微服务应用是很多开发者与架构师要解决的问题。本文将从开发、部署、监控、运维等多维度视角分析,详细的介绍如何基于 Dubbo 在Kubernete...

基于 Kubernetes 的 Serverless PaaS 稳定性建设万字总结

2023-10-08
阅读 11 分钟
数字经济的今天,云计算俨然已经作为基础设施融入到人们的日常生活中,稳定性作为云产品的基本要求,研发人员的技术底线,其不仅仅是文档里承诺的几个九的 SLA 数字,更是与客户切身利益乃至身家性命息息相关,稳定性压倒一切。本文将侧重于实际落地而非方法论,阐述云产品 SAE 业务侧稳定性实际建设过程中的经验和思考。

基于 ACK Fluid 的混合云优化数据访问(四):将第三方存储目录挂载到 Kubernetes,提升效率和标准化

2023-09-21
阅读 6 分钟
前文回顾:本系列将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景,相关文章请参考:《基于 ACK Fluid 的混合云优化数据访问(一):场景与架构》《基于 ACK Fluid 的混合云优化数据访问(二):搭建弹性计算实例与第三方存储的桥梁》《基于 ACK Fluid 的混合云优化数据访问(三):加速第三方存储的读访问,...

云原生网关可观测性综合实践

2023-09-20
阅读 4 分钟
随着系统架构从单体架构到集群架构再到微服务架构的演进,业务越来越庞大,也越来越复杂。云原生时代背景下,随着微服务、Service Mesh、 Serverless 等新技术的出现,业务的复杂度很快就超过了个人的极限,可观测性在现代分布式系统的设计和运维中变得越来越重要。传统的监控和告警方法往往只关注系统的一些基本指标,...

使用 KubeSkoop exporter 监测和定位容器网络抖动问题

2023-09-20
阅读 9 分钟
容器网络抖动问题发生频率低,时间短,是网络问题中最难定位和解决的问题之一。不仅如此,对 Kubernetes 集群内的网络状态进行日常的持续性监测,也是集群运维中很重要的一环。

闲置资源优化,轻松检查集群中的空闲成本

2023-08-08
阅读 2 分钟
Kubernetes 提供了对计算、网络、存储资源的抽象,提升了集群资源管理的效率。然而,由于用户不需要直接管理底层资源,可能导致部分闲置资源未及时发现,造成成本浪费。在企业 IT 成本治理过程中,如何发现并处理这部分资源,是成本优化的重要环节。

本地 IDC 中的 K8s 集群如何以 Serverless 方式使用云上计算资源

2023-07-26
阅读 5 分钟
在前一篇文章《应对突发流量,如何快速为自建 K8s 添加云上弹性能力》中,我们介绍了如何为 IDC 中 K8s 集群添加云上节点,应对业务流量的增长,通过多级弹性调度,灵活使用云上资源,并通过自动弹性伸缩,提高使用率,降低云上成本。

云原生网关部署新范式丨 Higress 发布 1.1 版本,支持脱离 K8s 部署

2023-07-17
阅读 6 分钟
在 K8s 部署模式下,Higress 已经支持基于 Nacos 进行服务发现,可以打通 Spring Cloud/Dubbo 等微服务生态。Nacos 作为微服务生态的集大成者,既可以作为注册中心,又可以作为配置中心,在非 K8s 环境下,如果将路由、插件等配置存入 Nacos 中,用户只需一个 Higress 和一个 Nacos 即可搞定一切:

应对突发流量,如何快速为自建 K8s 添加云上弹性能力

2023-07-11
阅读 5 分钟
为了保证业务持续稳定、用户访问不中断,高可用、高弹性等能力是应用架构设计不变的追求,多集群架构天然具备这样的能力。而只有在 Kubernetes 这层统一且标准的 API 之下,多集群和混合云的能力才开始真正体现价值。

选对方法,K8s 多集群管理没那么难

2023-07-05
阅读 4 分钟
Kubernetes 作为一项核心技术已成为现代应用程序架构的基础,将 Kubernetes 作为容器编排系统已发展为越来越多企业的必然选择。

用这个开源项目,网络小白也能搞定容器网络问题排查

2023-07-04
阅读 5 分钟
Kubernetes 本身比较复杂,使用门槛较高,用户在开始容器化迁移时经常遇到各种各样的问题,由于缺乏故障定位的技能和工具,用户常常产生挫败感,甚至放弃业务容器化。其中网络问题表现尤为突出,Kubernetes 网络虚拟化导致网络问题排查的难度巨大。

DeepSpeed + Kubernetes 如何轻松落地大规模分布式训练

2023-07-03
阅读 6 分钟
随着 ChatGPT 的广泛应用,各种大规模语言模型层出不穷,其中包括 EleutherAI 推出的 200 亿参数的 GPT-NeoX-20B 和 BigScience 发布的 1760 亿参数的 Bloom 模型。

为数据弹性而生,阿里云云原生存储再提速

2023-06-13
阅读 7 分钟
企业在 Kubernetes 上运行 AI、大数据应用已成主流,资源弹性和开发运维效率得到显著提升的同时,计算存储分离架构也带来了挑战:网络延迟高、网络费用贵、存储服务带宽不足等。

假期充电,用阿里云 Serverless K8s + AIGC 搭建私人代码助理

2023-05-05
阅读 9 分钟
AI 技术正在引领科技创新浪潮,随着 ChatGPT 和 Midjourney 的走红,AIGC 技术正在世界范围内掀起一股 AI 技术浪潮。开源领域也涌现了许多类似模型,如 FastGPT、Moss、Stable Diffusion 等。这些模型展现出的惊人效果吸引企业和开发者们投身其中,但是复杂繁琐的部署方式成为了拦路虎。阿里云 ASK 提供 Serverless 化的...

应对网络不可靠挑战,用 OpenYurt 实现边缘业务连续性

2023-03-24
阅读 3 分钟
OpenYurt 项目的使命是将 Kubernetes 在云端强大的管控能力下放到边缘测,把海量的异构边缘资源纳入进一个统一的边缘计算平台中。但边缘场景的一些特点并不符合为在云上运行而设计的 Kubernetes 的预设。这也正是 OpenYurt 需要解决的问题。边缘自治能力就是在这样的背景下诞生的。

OpenYurt v1.2 亮点速览丨云边流量峰值相比原生 K8s 降低 90%

2023-02-21
阅读 4 分钟
北京时间 1 月 30 号发布的 OpenYurt v1.2.0 版本,社区呼声最高的几大特性终于落地,OpenYurt 的特点更加鲜明,主要特点包括:Kubernetes 无侵入,云边端全协同,可编程的资源访问控制,以及声明式云原生设备管理。

基于 Kubernetes 的企业级大数据平台,EMR on ACK 技术初探

2023-02-14
阅读 2 分钟
当前,大数据与机器学习领域颇为关注存储与计算分离架构,逐渐向云原生演进。以Spark 为例,云下或自有服务器可以选择 Hadoop 调度支持 Spark,云上的 Spark 则会考虑如何充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark on Kubernetes 的优秀实践。

解读 K8s Pod 的13种典型异常

2022-12-27
阅读 9 分钟
在K8s中,Pod作为工作负载的运行载体,是最为核心的一个资源对象。Pod具有复杂的生命周期,在其生命周期的每一个阶段,可能发生多种不同的异常情况。K8s作为一个复杂系统,异常诊断往往要求强大的知识和经验储备。结合实战经历以及EDAS用户真实场景的归纳,我们总结了K8s Pod的13种常见异常场景,给出各个场景的常见错误...

K8s有损发布问题探究

2022-12-26
阅读 7 分钟
流量有损是在应用发布时的常见问题,其现象通常会反馈到流量监控上,如下图所示,发布过程中服务RT突然升高,造成部分业务响应变慢,给用户的最直观体验就是卡顿;或是请求的500错误数突增,在用户侧可能感受到服务降级或服务不可用,从而影响用户体验。

Kubernetes HPA 的三个误区与避坑指南

2022-12-26
阅读 4 分钟
云计算带来的优势之一便是弹性能力,云原生场景下Kubernetes提供了水平弹性扩容能力(HPA),让应用可以随着实时指标进行扩/缩。然而HPA的实际工作情况可能和我们直观预想的情况是不一样的,这里面存在一些认知误区。本文总结了一下 EDAS 用户在使用 HPA 时常遇到的三个认知误区,具体如下:

微服务应用视角解读如何选择K8S的弹性策略

2022-12-22
阅读 4 分钟
微服务架构的出现,拆分了庞大的单体应用,让业务之间的开发与协作变得更加灵活。当面临业务流量增加的场景时,往往需要对一些应用组件进行扩容。K8S在应用层面提供了HPA,围绕HPA开源社区延伸出了KEDA这样的弹性组件,为微服务应用以业务指标执行弹性策略提供了实现的可能性。但HPA正常工作的一个大前提是需要保证集群...

甩掉容量规划炸弹:用 AHPA 实现 Kubernetes 智能弹性伸缩

2022-11-24
阅读 7 分钟
Kubernetes 中应用实例数设置有固定实例数、HPA 和 CronHPA 三种策略。使用最多的是固定实例数,但是很多业务都存在波峰波谷,如果采用固定实例数的方式会造成较大的资源浪费。Kubernetes 中提供了 HPA 及 CronHPA 两种机制实现按需扩容实例数量,减少资源浪费。CronHPA 是用户设定定时规则,在固定时间进行实例数伸缩。...

阿里云容器服务 ACK 的弹性架构实践

2022-05-09
阅读 14 分钟
应用容器化改造后,不可避免地会面临这样一个问题:Kubernetes 集群的 Node 资源配置不足会导致 Pod 无法及时运行,购买过多的 Node 又会导致资源的闲置浪费。
封面图

如何在云原生混部场景下利用资源配额高效分配集群资源?

2022-04-25
阅读 4 分钟
简介:由于混部是一个复杂的技术及运维体系,包括 K8s 调度、OS 隔离、可观测性等等各种技术,之前的一篇文章《历经 7 年双 11 实战,阿里巴巴是如何定义云原生混部调度优先级及服务质量的?》,主要聚焦在调度优先级和服务质量模型上,今天我们来关注一下资源配额多租相关的内容。
封面图