MuLTI:高效视频与语言理解

53 分钟前
阅读 8 分钟
多模态理解模型具有广泛的应用,比如多标签分类(Classification)、视频问答(videoQA)和文本视频检索(Retrieval)等。现有的方法已经在视频和语言理解方面取得了重大进展,然而,他们仍然面临两个巨大的挑战:

AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践

3 月 18 日
阅读 3 分钟
PAI-TorchAcc借助社区PyTorch/XLA,通过 GraphCapture 技术将 Pytorch 动态图转换为静态计算图,基于计算图进行分布式优化、计算优化、显存优化等,为包括大语言模型在内的Pytorch上的模型提供高效训练支持。相比于社区Pytorch/XLA,PAI-TorchAcc具有更好的易用性、更高的性能和更丰富的功能。更详细的介绍可以见文章:A...

通义千问1.5(Qwen1.5)大语言模型在 PAI-QuickStart 的微调与部署实践

3 月 18 日
阅读 4 分钟
Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。此外,该系列模型还包括了Base和Chat等多个版本的开源模型,为全球的开发者社区提供了空前的便捷性。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习...

AI加速引擎 PAI-TorchAcc:整体介绍与性能概述

3 月 15 日
阅读 5 分钟
PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。

PTS 3.0:开启智能化的压测瓶颈分析

3 月 13 日
阅读 4 分钟
性能测试 PTS(Performance Testing Service)是阿里云上一款简单易用,具备强大的分布式压测能力的 SaaS 压测平台。PTS 可以模拟复杂的业务场景,并快速精准地调度不同规模的流量,同时提供压测过程中多维度的监控指标和日志记录。用户无需准备资源,即可按需发起压测任务,监控压测指标,获取压测报告,进而能够高效率...

弱结构化日志 Flink SQL 怎么写?SLS SPL 来帮忙

3 月 12 日
阅读 8 分钟
日志服务 SLS 是云原生观测与分析平台,为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务,基于日志服务的便捷的数据接入能力,可以将系统日志、业务日志等接入 SLS 进行存储、分析;阿里云 Flink 是阿里云基于 Apache Flink 构建的大数据分析平台,在实时数据分析、风控检测等场景应用广泛。阿里云 F...

青团社:亿级灵活用工平台的云原生架构实践

3 月 12 日
阅读 9 分钟
青团社是国内领先的一站式灵活用工招聘服务企业,灵活用工行业的 Top1。青团社于 2013 年在杭州成立,业务已经覆盖全国,在行业深耕 10 年。我的分享将分为以下三部分:

你好,iLogtail 2.0!

3 月 11 日
阅读 10 分钟
随着可观测数据采集需求的不断推陈出新,多样化的数据输入输出选项、个性化的数据处理能力组合、以及高性能的数据处理吞吐能力已经成为顶流可观测数据采集器的必备条件。然而,由于历史原因,现有的 iLogtail 架构和采集配置结构已经无法继续满足上述需求,逐渐成为制约 iLogtail 继续向前快速演进的瓶颈:

需求并行开发场景,如何高效发布

3 月 8 日
阅读 3 分钟
微服务架构下,每个应用服务独立开发、独立发布,小步快跑,持续快速交付业务需求。多人协同开发同一个应用时,分支开发模式是一个适合的协同方案。该模式下一个需求或任务通常对应一个 feature 分支,多个需求一起合并到 release 分支进行集成测试验证并发布。

阿里云连续两年斩获全球存储顶会FAST最佳论文

3 月 8 日
阅读 6 分钟
FAST全称为Conference on File and Storage Technologies,创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,代表了计算机存储领域的国际最高水平。创办二十多年来,FAST 推动了如软硬件结合、RAID、闪存文件系统、非易失内存技...

AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案

3 月 7 日
阅读 21 分钟
Stable Diffusion 模型,已经成为 AI 行业从传统深度学习时代走向 AIGC 时代的标志性里程碑。越来越多的开发者借助 stable-diffusion-webui(以下简称 SDWebUI)能力进行 AI 绘画领域创业或者业务上新,获得高流量及商业价值,但是面对多客户、高并发的复杂场景,使用原生 Stable Diffusion API 会面临以下挑战:

解密 ARMS 持续剖析:如何用一个全新视角洞察应用的性能瓶颈?

3 月 5 日
阅读 7 分钟
随着软件技术发展迭代,很多企业软件系统也逐步从单体应用向云原生微服务架构演进,一方面让应用实现高并发、易扩展、开发敏捷度高等效果,但另外一方面也让软件应用链路变得越来越长,依赖的各种外部技术越来越多,一些线上问题排查起来变得困难重重。

面向智算服务,构建可观测体系最佳实践

3 月 4 日
阅读 10 分钟
对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据管理、建模、持续部署的到运行时计算和资源管理。下图是开源 ML-Ops 平台 MLReef 在 2021 年发布的 ML 市场相关工具和平台玩家。时至今日,相关工具与平台玩家数量保持着持续高速增长。当前,随着大...

MSE Nacos 配置变更审计平台使用指南

2 月 29 日
阅读 5 分钟
Nacos[1]作为一款业界主流的微服务注册中心和配置中心,管理着企业核心的配置资产,由于配置变更的安全和稳定诉求越来越高,因此我们提供了安全和可追溯性保障机制。

Higress × OpenKruiseGame 游戏网关最佳实践

2 月 29 日
阅读 5 分钟
OpenKruiseGame(下文简称:OKG)是一个面向多云的开源游戏服 Kubernetes 工作负载,是 CNCF 工作负载开源项目 OpenKruise 在游戏领域的子项目,其提供了热更新、原地升级、定向管理等常用的游戏服管理功能。而游戏作为典型的流量密集型场景,在吞吐量、延迟性能、弹性与安全性等方面对入口网关提出了很高的要求。

应用监控 eBPF 版:实现高效协议解析的技术探索

2 月 28 日
阅读 5 分钟
随着 Kuberentes 等云原生技术的飞速发展,带来了研发与运维模式的变革。企业软件架构由单体服务向分布式、微服务演进。随着业务发展,多语言、多框架、多协议的微服务在企业中越来越多,软件架构复杂度越来越高,如何快速通过可观测工具快速定位出问题对研发人员至关重要。为满足全场景、端到端的应用监控需求,应用实...

阿里云推出 3.x Java 探针,解锁应用观测与治理的全新姿势

2 月 27 日
阅读 8 分钟
随着春节大促即将到来,为了确保线上业务高效稳定地运行,电商企业大多会对旗下关键业务应用进行多轮测试。通过模拟线上较高流量的请求,来观察服务性能的实际表现。以某企业的业务测试报告举例:

Kube Queue:Kubernetes 任务排队的利器

2 月 27 日
阅读 5 分钟
批处理作业(Batch Job)常应用于数据处理、仿真计算、科学计算和人工智能等领域,主要用于执行一次数据处理或模型训练任务。由于这类任务往往需要消耗大量计算资源,因此必须根据任务的优先级和提交者的可用资源情况进行合理排队,才能最大化集群资源的利用效率。

云原生网关哪家强:Sealos 网关血泪史

2 月 27 日
阅读 4 分钟
Sealos 公有云上线以来,用户呈爆发式增长,目前总共注册用户 8.7w,每个用户都去创建应用,每个应用都需要有自己的访问入口,就导致整个集群路由条目非常巨大,需要有支撑数十万条 Ingress 的能力。

基于 Megatron-Core 的稀疏大模型训练工具:阿里云MoE 大模型最佳实践

2 月 26 日
阅读 10 分钟
随着大模型技术的不断发展,模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果,但训练和推理成本高,一直是巨大挑战。模型稀疏化能降低计算和存储消耗。近期以Mixtral为代表的MoE(多专家混合)大模型证明了稀疏MoE技术能大幅降低计算量、提升推理速度,模型效果甚至超过同规模稠密模型。阿里...

Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制

2 月 23 日
阅读 12 分钟
Koordinator 作为一个积极发展的开源项目,自 2022 年 4 月发布 v0.1.0 版本以来,经历了多次迭代,持续为 Kubernetes 生态系统带来创新和增强。项目的核心是提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案,帮助用户优化容器性能,并提升集群资源使用效率。

百万并发,API 网关抗住了亚运会流量高峰

2 月 22 日
阅读 4 分钟
2023 年杭州亚运会给大家留下了美好的回忆,当时各种线上线下的活动和赛事也将如火如荼地展开,与亚运会相关的应用和服务迎来流量高峰。作为亚运会所有核心流量的入口,阿里云 API 网关的重要性不言而喻。为了确保 API 网关能够稳定、高效地处理大量的并发请求,阿里云推出了一款百万并发规格的 API 网关,为亚运会提供...

大语言模型推理提速,TensorRT-LLM 高性能推理实践

2 月 21 日
阅读 8 分钟
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有 self-attention 的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。

秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?

2 月 20 日
阅读 6 分钟
在前面的文章《弹性调度助力企业灵活应对业务变化,高效管理云上资源》中,我们介绍了阿里云容器服务 ACK 弹性调度为了帮助客户解决在使用云上弹性资源时,面对的“难以差异化控制业务资源使用量,缩容时部分业务 Pod 未释放”等挑战,提供了按照多级资源的优先顺序进行调度,以及按照定义的优先顺序进行缩容的能力。

解读 EventBridge Transform,数据转换和处理的灵活能力

2 月 19 日
阅读 4 分钟
阿里云 EventBridge 提供了强大而灵活的事件总线服务,它可以连接应用程序、阿里云云服务和阿里云 Serverless 服务来快速构建 EDA(Event-driven Architectures)事件驱动架构,驱动应用与应用,应用与云的连接。除此之外,它还可以作为流式的数据管道,在不同的数据仓库和数据处理或分析程序之间快速构建 ETL 系统。

从 13 个企业关心的问题看懂用云范式的改变

2 月 19 日
阅读 5 分钟
今天,容器和 K8s 已经成为应用研发运维的新标准,行业调研数据显示,2022 年有 64% 的最终用户在生产环境中使用了 K8s;2022 年托管在云上的 K8s 集群增速达到了 127%。我们也看到云托管的 K8s 将在 2023 年超过本地部署。这意味着容器化上云成为了新常态。

Sentinel 新版本发布,提升配置灵活性以及可观测配套

2 月 5 日
阅读 4 分钟
Sentinel 是阿里巴巴集团开源的,面向分布式、多语言异构化服务架构的流量治理组件,承接了阿里巴巴近 15 年的双十一大促流量的核心场景,例如秒杀、冷启动、消息削峰填谷、集群流量控制、实时熔断下游不可用服务等,是保障微服务高可用的利器。开源以来也被众多企业广泛应用于生产实践。

成本更低、更可控,云原生可观测新计费模式正式上线

2 月 4 日
阅读 5 分钟
可观测作为企业 IT 运维必须品,在应对不同可观测场景时提供了非常多产品,以及与之对应的计费模式,供企业灵活选择。但如果产品价格说明不完整且不能有效评估现有业务规模及增长趋势,就会给企业带来非常高的成本规划与选型评估门槛。为解决上述问题,云原生可观测推出「按写入数据量」计费模式,降低不同可观测产品间...

进击的 Serverless:Java 应用如何从容地面对突增流量

2 月 2 日
阅读 7 分钟
移动互联网时代,许许多多的业务都有着流量的周期性变化,无论是直播、游戏、点单系统、电商平台等等,都会存在着流量的高峰与波谷。如果采用固定的计算资源部署服务,使用的多了,大量资源在流量波谷闲置浪费,使用的少了,服务难以抗住高峰期的大规模流量,易带来业务损耗。

走出大模型部署新手村!小明这样用魔搭×函数计算

2 月 1 日
阅读 8 分钟
前文介绍了魔搭 ModelScope 社区模型服务 SwingDeploy 服务。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算,当选择模型并部署时,系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源,节约机器使用成本。5 分钟完成从开源模型至模型推理 API 服务的生产转换……好,优势前文已经介绍过了。