AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践

3 月 18 日
阅读 3 分钟
PAI-TorchAcc借助社区PyTorch/XLA,通过 GraphCapture 技术将 Pytorch 动态图转换为静态计算图,基于计算图进行分布式优化、计算优化、显存优化等,为包括大语言模型在内的Pytorch上的模型提供高效训练支持。相比于社区Pytorch/XLA,PAI-TorchAcc具有更好的易用性、更高的性能和更丰富的功能。更详细的介绍可以见文章:A...

面向智算服务,构建可观测体系最佳实践

3 月 4 日
阅读 10 分钟
对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据管理、建模、持续部署的到运行时计算和资源管理。下图是开源 ML-Ops 平台 MLReef 在 2021 年发布的 ML 市场相关工具和平台玩家。时至今日,相关工具与平台玩家数量保持着持续高速增长。当前,随着大...

Higress × OpenKruiseGame 游戏网关最佳实践

2 月 29 日
阅读 5 分钟
OpenKruiseGame(下文简称:OKG)是一个面向多云的开源游戏服 Kubernetes 工作负载,是 CNCF 工作负载开源项目 OpenKruise 在游戏领域的子项目,其提供了热更新、原地升级、定向管理等常用的游戏服管理功能。而游戏作为典型的流量密集型场景,在吞吐量、延迟性能、弹性与安全性等方面对入口网关提出了很高的要求。

云存储在AIOps、数字人以及训练推理场景的最佳实践

2023-12-14
阅读 3 分钟
在以AIGC大模型为代表的技术新浪潮中,存储作为数据基础设施,将在数据采集、训练与推理、应用部署、内容审核与协同等多个关键环节发挥重要作用,助力 AI 创新加速。据IDC调研显示,67%的中国企业已经开始探索AIGC在企业内的应用机会或已经开始进行资金投入。

精进云原生 – Dubbo Kubernetes 最佳实践

2023-10-16
阅读 7 分钟
随着云原生的兴起,越来越多的应用选择基于 Kubernetes 进行部署,相关的 DevOps 等工具也应运而生。而 Dubbo 作为微服务体系的主流解决方案,如何开发面向 Kubernetes 部署和运维的微服务应用是很多开发者与架构师要解决的问题。本文将从开发、部署、监控、运维等多维度视角分析,详细的介绍如何基于 Dubbo 在Kubernete...

为什么 Higress 是 Knative 入口网关的最佳实践?

2023-09-05
阅读 11 分钟
在传统的应用开发中,通常需要管理底层的基础设施、服务器与网络配置等方面的工作。然而在云原生 Serverless 化的浪潮下,这些基础设施的细节被抽象和自动化,开发者无需关注服务器等配置、扩展、监控和维护等工作,可以更专注于应用程序的业务逻辑和功能开发。Serverless 架构的价值在于提供高效、弹性、无服务器管理、...

充换电企业开迈斯低成本提升线上应用稳定性的最佳实践

2023-09-04
阅读 5 分钟
开迈斯新能源科技有限公司于 2019 年 5 月 16 日成立,目前合资股东分别为大众汽车(中国)投资有限公司、中国第一汽车股份有限公司、一汽-大众汽车有限公司[增资扩股将在取得适当监督(包括反垄断)审批后完成]、万帮数字能源股份有限公司和安徽江淮汽车集团控股有限公司,总部位于江苏常州。开迈斯集车企与充电企业优...

金蝶管易云 X Hologres:新一代全渠道电商ERP最佳实践

2023-08-02
阅读 4 分钟
金蝶管易云是金蝶集团旗下专注提供电商企业管理软件服务的子公司,成立于2008年,是国内最早的电商ERP服务商之一,目前已与300+主流电商平台建有合作关系,以企业数据为驱动,深度融合线上线下数据,为超过11万家客户提供实现业务、财务、税务一体化的全渠道管理解决方案和业务财务一体化解决方案,覆盖电商全流程的SaaS...

快速玩转 Llama2!机器学习 PAI 最佳实践(二)—全参数微调训练

2023-08-01
阅读 4 分钟
近期,Meta 宣布大语言模型 Llama2 开源,包含7B、13B、70B不同尺寸,分别对应70亿、130亿、700亿参数量,并在每个规格下都有专门适配对话场景的优化模型Llama-2-Chat。Llama2 可免费用于研究场景和商业用途(但月活超过7亿以上的企业需要申请),对企业和开发者来说,提供了大模型研究的最新利器。

快速玩转 Llama2!阿里云机器学习 PAI 推出最佳实践

2023-07-27
阅读 7 分钟
近期,Meta 宣布大语言模型 Llama2 开源,包含7B、13B、70B不同尺寸,分别对应70亿、130亿、700亿参数量,并在每个规格下都有专门适配对话场景的优化模型Llama-2-Chat。Llama2 可免费用于研究场景和商业用途(但月活超过7亿以上的企业需要申请),对企业和开发者来说,提供了大模型研究的最新利器。

SpringCloud Gateway 在微服务架构下的最佳实践

2023-07-25
阅读 10 分钟
本文整理自云原生技术实践营广州站 Meetup 的分享,其中的经验来自于我们团队开发的阿里云 CSB 2.0 这款产品,其基于开源 SpringCloud Gateway 开发,在完全兼容开源用法的前提下,做了诸多企业级的改造,涉及功能特性、稳定性、安全、性能等方面。

Seata Saga 模式快速入门和最佳实践

2023-06-21
阅读 5 分钟
Seata 是一款开源的分布式事务解决方案,致力于在微服务架构下提供高性能和简单易用的分布式事务服务。Seata 为用户提供了 AT、TCC、SAGA、XA 等多种事务模式,帮助解决不同业务场景下的事务一致性问题。

Koordinator 最佳实践系列:精细化 CPU 编排

2023-06-12
阅读 7 分钟
在云原生环境中,集群提供者常常将不同类型的工作负载部署在同一个集群中,利用不同业务的不同峰值效果,实现资源分时复用,避免资源浪费。然而,不同类型负载之间混合部署常常会导致资源竞争和相互干扰。最为典型的场景便是在线和离线负载的混合部署。当离线较多的占用计算资源时,在线负载的响应时间就会受到影响;当...

MaxCompute 物化视图智能推荐最佳实践

2023-05-24
阅读 3 分钟
MaxCompute物化视图是一种预先计算和存储结果数据的数据对象,也可以称之为“实体化视图”。物化视图可以作为一张虚拟表存在于MaxCompute项目中,它的内容是一个或多个表的聚合,过滤以及Join组合计算结果。物化视图可以大幅度减少查询处理时间以及节省作业计算资源,基于MaxCompute优化器强大的自动查询改写能力,当作业...

日志服务数据加工最佳实践: 从其他logstore拉取数据做富化

2019-09-03
阅读 4 分钟
使用全局富化函数做富化时, 需要传递一个字典或者表格结构做富化. 参考构建字典与表格做数据富化的各种途径比较. 本篇介绍从使用资源函数res_log_logstore_pull从其他logstore拉取数据的做富化的详细实践.关于res_log_logstore_pull的参数说明, 参考这里. 该语法目前支持两种模式去logstore拉取数据,一种是拉取指定时间...

Blink 有何特别之处?菜鸟供应链场景最佳实践

2019-06-17
阅读 6 分钟
作者:晨笙、缘桥菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时数仓的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?如何提升多实时流关联效率?如何提升实时作业的开发效率? 而 Blink 能否解决这些问题?下面一起来深入了解。