大语言模型推理提速:TensorRT-LLM 高性能推理实践

1 月 24 日
阅读 8 分钟
204
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有 self-attention 的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。

Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制

1 月 24 日
阅读 12 分钟
139
Koordinator 作为一个积极发展的开源项目,自 2022 年 4 月发布 v0.1.0 版本以来,经历了多次迭代,持续为 Kubernetes 生态系统带来创新和增强。项目的核心是提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案,帮助用户优化容器性能,并提升集群资源使用效率。

百万并发!API 网关抗住了亚运会流量高峰

1 月 24 日
阅读 4 分钟
117
2023 年杭州亚运会给大家留下了美好的回忆,当时各种线上线下的活动和赛事也将如火如荼地展开,与亚运会相关的应用和服务迎来流量高峰。作为亚运会所有核心流量的入口,阿里云 API 网关的重要性不言而喻。为了确保 API 网关能够稳定、高效地处理大量的并发请求,阿里云推出了一款百万并发规格的 API 网关, 为亚运会提供...

阿里云 SAE 2.0 正式商用丨云原生 2023 年 12 月产品技术动态

1 月 24 日
阅读 6 分钟
133
云原生月度动态云原生是企业数字创新的最短路径。《阿里云云原生每月动态》,从趋势热点、产品新功能、服务客户、开源与开发者动态等方面,为企业提供数字化的路径与指南。趋势热点🥇 阿里云 SAE 2.0 正式商用,进一步普惠企业和开发者SAE 重磅推出了 2.0 全新版本:除支持开源微服务/定时任务无缝迁移外,新增支持 Web ...

秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?

1 月 23 日
阅读 6 分钟
132
在前面的文章《弹性调度助力企业灵活应对业务变化,高效管理云上资源》中,我们介绍了阿里云容器服务 ACK 弹性调度为了帮助客户解决在使用云上弹性资源时,面对的“难以差异化控制业务资源使用量,缩容时部分业务 Pod 未释放”等挑战,提供了按照多级资源的优先顺序进行调度,以及按照定义的优先顺序进行缩容的能力。

解读 EventBridge Transform:数据转换和处理的灵活能力

1 月 23 日
阅读 5 分钟
138
阿里云 EventBridge 提供了强大而灵活的事件总线服务,它可以连接应用程序、阿里云云服务和阿里云 Serverless 服务来快速构建 EDA(Event-driven Architectures)事件驱动架构,驱动应用与应用,应用与云的连接。除此之外,它还可以作为流式的数据管道,在不同的数据仓库和数据处理或分析程序之间快速构建 ETL 系统。

从 13 个企业关心的问题看懂用云范式的改变

1 月 23 日
阅读 5 分钟
104
今天,容器和 K8s 已经成为应用研发运维的新标准,行业调研数据显示,2022 年有 64% 的最终用户在生产环境中使用了 K8s;2022 年托管在云上的 K8s 集群增速达到了 127%。我们也看到云托管的 K8s 将在 2023 年超过本地部署。这意味着容器化上云成为了新常态。

成本更低、更可控,云原生可观测新计费模式正式上线

1 月 23 日
阅读 4 分钟
113
作者:云原生可观测在上云开始使用云产品过程中,企业一定遇见过两件“讨厌”事:难以理解的复杂计费逻辑,时常冒出“这也能收费”的感叹;某个配置参数调节之后,云产品使用成本不可预估的暴涨。可观测作为企业 IT 运维必须品,在应对不同可观测场景时提供了非常多产品,以及与之对应的计费模式,供企业灵活选择。但如果产...

活动回顾丨云原生技术实践营上海站「云原生 AI &大数据」专场(附 PPT)

1 月 23 日
阅读 3 分钟
123
AI 势不可挡,“智算”赋能未来。2024 年 1 月 5 日,云原生技术实践营「云原生 AI &大数据」专场在上海落幕。活动聚焦容器、可观测、微服务产品技术领域,以云原生 AI 工程化落地为主要方向,希望帮助企业和开发者更快、更高效地落地云原生 AI 系统。

Sentinel 新版本发布,提升配置灵活性以及可观测配套

1 月 23 日
阅读 4 分钟
179
Sentinel 是阿里巴巴集团开源的,面向分布式、多语言异构化服务架构的流量治理组件,承接了阿里巴巴近 15 年的双十一大促流量的核心场景,例如秒杀、冷启动、消息削峰填谷、集群流量控制、实时熔断下游不可用服务等,是保障微服务高可用的利器。开源以来也被众多企业广泛应用于生产实践。

进击的 Serverless:Java 应用如何从容地面对突增流量

1 月 23 日
阅读 7 分钟
184
移动互联网时代,许许多多的业务都有着流量的周期性变化,无论是直播、游戏、点单系统、电商平台等等,都会存在着流量的高峰与波谷。如果采用固定的计算资源部署服务,使用的多了,大量资源在流量波谷闲置浪费,使用的少了,服务难以抗住高峰期的大规模流量,易带来业务损耗。

走出大模型部署新手村!小明这样用魔搭×函数计算

1 月 23 日
阅读 8 分钟
149
前文介绍了魔搭 ModelScope 社区模型服务 SwingDeploy 服务。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算,当选择模型并部署时,系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源,节约机器使用成本。5 分钟完成从开源模型至模型推理 API 服务的生产转换……好,优势前文已经介绍过了。

云原生离线工作流编排利器 -- 分布式工作流 Argo 集群

1 月 23 日
阅读 7 分钟
197
在现代的软件开发和数据处理领域,批处理作业(Batch)扮演着重要的角色。它们通常用于数据处理,仿真计算,科学计算等领域,往往需要大规模的计算资源。随着云计算的兴起,阿里云批量计算和 AWS Batch 等云服务提供了管理和运行这些批处理作业的平台。

Consul 留给你的时间不多了

1 月 23 日
阅读 9 分钟
142
在今年的 8 月份 HashiCorp 宣布所有产品和多个库的未来版本将从 Mozilla 公共许可证 v2.0 (MPL 2.0) 过渡到 Business Source License(BSL 或 BUSL)v1.1 [ 1] 。

OpenKruiseGame × KubeSphere 联合发布游戏服运维控制台,推动云原生游戏落地

1 月 23 日
阅读 3 分钟
120
近日,云原生游戏开源社区旗下 OpenKruiseGame(以下简称:OKG)基于 KubeSphere 4.0 LuBan 架构开发的游戏服运维控制台 OKG Dashboard 正式发布!现已上架 KubeSphere Marketplace 云原生应用扩展市场,支持免费使用。

定向减免!函数计算让轻量 ETL 数据加工更简单,更省钱

1 月 22 日
阅读 5 分钟
101
业内较为常见的高频短时 ETL 数据加工场景,即频率高时延短,一般均可归类为调用密集型场景。此场景有着高并发、海量调用的特性,往往会产生高额的计算费用,而业内推荐方案一般为攒批处理,业务实时性会有一定的影响。基于此痛点,函数计算 FC 推出定向减免方案,让 ETL 数据加工更简单、更自动化、容错能力更强,且业...

秒速出图!体验 TensorRT 加速 Stable Diffusion 图像创作

1 月 22 日
阅读 4 分钟
232
Stable Diffusion WebUI 是 Github 上最为热门的利用生成式 AI 进行图像生成的项目。它采用 ClipText 对文字进行编码,然后采用 UNet+Scheduler 在潜在表示空间(latent space)上进行 Diffusion,最后采用 Autoencoder Decoder 将第二步生成的扩散信息再转为图像。

恭喜 Nacos 和 Sentinel 荣获 2023 开源创新榜“优秀开源项目”

1 月 22 日
阅读 3 分钟
177
近日,由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所共同主办,CSDN 承办的 2023 开源创新榜专家评审会在国家科技传播中心成功举办。评委会主任、中国计算机学会开源发展委员会主任王怀民院士,评委会副主任、中国科协科学技术传播中心副主任陈锐,评委会副主任、中国通信学会副理事...

阿里云 SAE 2.0 正式商用:极简易用、百毫秒弹性效率,降本 40%

1 月 22 日
阅读 4 分钟
107
本文主要介绍阿里云 Serverless 应用引擎(以下简称 SAE )如何帮助企业跨越技术鸿沟,从传统应用架构无感升级到 Serverless 架构,以更高效、更经济的方式进行转型,快速进入云原生快车道,让 2 人的研发团队享受 2000 人技术团队的红利。

弹性调度助力企业灵活应对业务变化,高效管理云上资源

1 月 22 日
阅读 5 分钟
146
云计算时代,企业可以通过云平台获得大量计算资源,并根据业务发展和流量需求的实时变化,灵活调整使用的资源类型与资源量。阿里云提供了多种弹性资源,如云服务器 ECS 和弹性容器实例 ECI,并且提供不同的付费方式,如包年包月、按量付费和抢占实例等。不同类型和付费方式的实例,在给客户带来更高的灵活性的同时,也对...

魔搭×函数计算:一键部署,缩短大模型选型到生产的距离

1 月 22 日
阅读 5 分钟
112
面对魔搭 ModelScope [ 1] 社区提供的海量模型,用户希望快速进行选型并生产使用起来,但在此之前,却一定会面临算力管理难、模型部署难等一系列问题,那么能否实现快速把选定的模型部署在云端功能强大的 GPU 上,由云端负责服务,扩展,保护和监控模型服务,同时免于运维和管理云上算力等基础设施呢?魔搭 ModelScope ×...

可观测实践丨如何利用 AI 算法解决告警配置三大难题?

1 月 22 日
阅读 4 分钟
131
作者:陈昆仪(图杨)每个运维工程师都躲不开的噩梦为了更代入感地解读业务场景,这里我们以运维工程师小 A 的视角来开始今天的解读。年轻有为的运维工程师 小 A 刚接手公司最核心业务系统的稳定性保障工作。但他发现这个任务非常具有挑战性,可以说是噩梦。1)有没有合适工具,告诉小 A 应该对哪些指标配告警?这个系统非...

从内核的视角观测容器——SysOM 容器监控

1 月 22 日
阅读 4 分钟
136
容器化现阶段已经是构建企业 IT 架构的最佳实践。云原生容器化的部署架构,相较于传统 IDC 部署架构的 IT 架构方案,已经成为兼具高效运维及成本控制的业界事实标准。

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

1 月 22 日
阅读 3 分钟
73
深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

Nacos 在云原生架构下的演进

1 月 22 日
阅读 6 分钟
152
Nacos 提供的最核心能力是动态服务发现与动态配置管理能力,在云原生环境下,借助云产品,如 EDAS(企业级分布式应用服务)平台中,我们可以很轻松地使用 K8s 来托管 Nacos 体系的微服务应用,同时又享有全链路流量治理、可观测、极致弹性等能力。

活动回顾丨阿里云云原生 Serverless 技术实践营西安站 PPT 下载

1 月 22 日
阅读 2 分钟
128
12 月 22 日“阿里云云原生 Serverless 技术实践营”西安站圆满落幕。活动受众以关注  Serverless 技术的开发者、企业决策人、云原生领域创业者为主,活动形式为演讲、动手实操,让开发者通过一个下午的时间增进对 Serverless 技术的理解,快速上手 Serverless,拥抱云计算新范式带来的技术红利。