云计算 - 技术集锦 | 云原生 AI 技术原理及最佳实践系列 - 个人文章

关于我们

更多关于云原生的案例和知识，可关注同名【腾讯云原生】公众号~

①公众号后台回复【手册】，可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~

②公众号后台回复【系列】，可获得《15个系列100+篇超实用云原生原创干货合集》，包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。

③公众号后台回复【白皮书】，可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》

④公众号后台回复【光速入门】，可获得腾讯云专家5万字精华教程，光速入门Prometheus和Grafana。

云原生已成为了云计算行业下一代的标准。目前，除了传统应用与基础架构的云原生化，AI 与大数据也开始拥抱云原生的架构。

腾讯云容器服务基于在云原生领域的技术沉淀，推出模块化，低耦合、高扩展性的云原生 AI 服务，旨在利用云原生的思想和技术，为 AI 场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的系统架构的技术，在支持更广泛、多样的用户需求的同时，提高开发、运维和设备的效率。

【腾讯云原生】收集了关于云原生 AI 系列干货文8篇，帮助你更好了解“云原生 AI”，一定要收藏哦！

本文主要介绍了数据并行的分布式训练任务的弹性能力在 Kubernetes 上的设计与实现。并且通过实验的方式验证了特定的场景下，在保证训练精度的同时，这一特性能够使成本降低 70%。

本文介绍了 Fluid 技术的背景以及与 GooseFS 的关系，通过在 TKE 集群上的实际操练让大家体验 Fluid v0.6.0 的两大特性，让大家进一步了解云原生应用场景下的数据编排能力。

本文从实战角度出发介绍我们开发 SKAI 平台过程中选择 Aggregated API 的原因，以及 kube-apisever 的扩展原理，演示如何构建起自己的 Aggregated API，并将它部署到 EKS 集群中。

本文介绍了 TKE 提供的云原生 AI 能力和腾讯云自研网络协议栈 HARP，并指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案。