阿里云栖号 - SegmentFault 思否

Sentinel 新版本发布，提升配置灵活性以及可观测配套

2 月 5 日

阅读 4 分钟

Sentinel 是阿里巴巴集团开源的，面向分布式、多语言异构化服务架构的流量治理组件，承接了阿里巴巴近 15 年的双十一大促流量的核心场景，例如秒杀、冷启动、消息削峰填谷、集群流量控制、实时熔断下游不可用服务等，是保障微服务高可用的利器。开源以来也被众多企业广泛应用于生产实践。

成本更低、更可控，云原生可观测新计费模式正式上线

阿里云云栖号

2 月 4 日

阅读 5 分钟

可观测作为企业 IT 运维必须品，在应对不同可观测场景时提供了非常多产品，以及与之对应的计费模式，供企业灵活选择。但如果产品价格说明不完整且不能有效评估现有业务规模及增长趋势，就会给企业带来非常高的成本规划与选型评估门槛。为解决上述问题，云原生可观测推出「按写入数据量」计费模式，降低不同可观测产品间...

进击的 Serverless：Java 应用如何从容地面对突增流量

阿里云云栖号

2 月 2 日

阅读 7 分钟

移动互联网时代，许许多多的业务都有着流量的周期性变化，无论是直播、游戏、点单系统、电商平台等等，都会存在着流量的高峰与波谷。如果采用固定的计算资源部署服务，使用的多了，大量资源在流量波谷闲置浪费，使用的少了，服务难以抗住高峰期的大规模流量，易带来业务损耗。

走出大模型部署新手村！小明这样用魔搭×函数计算

阿里云云栖号

2 月 1 日

阅读 8 分钟

前文介绍了魔搭 ModelScope 社区模型服务 SwingDeploy 服务。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算，当选择模型并部署时，系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源，节约机器使用成本。5 分钟完成从开源模型至模型推理 API 服务的生产转换……好，优势前文已经介绍过了。

基于 Megatron-Core 的稀疏大模型训练工具：阿里云MoE 大模型最佳实践

阿里云云栖号

1 月 31 日

阅读 9 分钟

随着大模型技术的不断发展，模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果，但训练和推理成本高，一直是巨大挑战。模型稀疏化能降低计算和存储消耗。近期以Mixtral为代表的MoE（多专家混合）大模型证明了稀疏MoE技术能大幅降低计算量、提升推理速度，模型效果甚至超过同规模稠密模型。阿里...

十年后数据库还是不敢拥抱 NUMA - 续篇

阿里云云栖号

1 月 31 日

阅读 6 分钟

背景十年后数据库还是不敢拥抱NUMA，这篇经典的纠正大家对NUMA 认知的文章一晃发布快3年了，这篇文章的核心结论是：之所以有不同的NUMA Node 是不同的CPU Core 到不同的内存距离远近不一样所决定的，这是个物理距离程序跑在不同的核上要去读写内存可以让性能差异巨大，所以我们要尽量让一个程序稳定跑在一个Node 内默认...

PolarDB-X 最佳实践系列（四）：如何设计一张订单表

阿里云云栖号

1 月 31 日

阅读 5 分钟

本文主要内容是如何使用全局索引与CO_HASH分区算法（CO_HASH），实现高效的多维度查询。淘宝订单号中的秘密有一个很有趣的事情。打开你的淘宝客户端或者PC端的淘宝，点开订单列表，打开几个订单，查看他们的订单号，你会发现什么？比如这是我最近的3个订单，和10年前的3个订单。其订单号分别是：12495110653644148101238...

云原生离线工作流编排利器 - 分布式工作流 Argo 集群

阿里云云栖号

1 月 30 日

阅读 6 分钟

在现代的软件开发和数据处理领域，批处理作业（Batch）扮演着重要的角色。它们通常用于数据处理，仿真计算，科学计算等领域，往往需要大规模的计算资源。随着云计算的兴起，阿里云批量计算和 AWS Batch 等云服务提供了管理和运行这些批处理作业的平台。

Consul 留给你的时间不多了

阿里云云栖号

1 月 30 日

阅读 9 分钟

在今年的 8 月份 HashiCorp 宣布所有产品和多个库的未来版本将从 Mozilla 公共许可证 v2.0 (MPL 2.0) 过渡到 Business Source License（BSL 或 BUSL）v1.1[1]。

定向减免！函数计算让轻量 ETL 数据加工更简单，更省钱

阿里云云栖号

1 月 29 日

阅读 5 分钟

业内较为常见的高频短时 ETL 数据加工场景，即频率高时延短，一般均可归类为调用密集型场景。此场景有着高并发、海量调用的特性，往往会产生高额的计算费用，而业内推荐方案一般为攒批处理，业务实时性会有一定的影响。基于此痛点，函数计算 FC 推出定向减免方案，让 ETL 数据加工更简单、更自动化、容错能力更强，且业...

秒速出图！体验 TensorRT 加速 Stable Diffusion 图像创作

阿里云云栖号

1 月 29 日

阅读 4 分钟

Stable Diffusion WebUI 是 Github 上最为热门的利用生成式 AI 进行图像生成的项目。它采用 ClipText 对文字进行编码，然后采用 UNet+Scheduler 在潜在表示空间（latent space）上进行 Diffusion，最后采用 Autoencoder Decoder 将第二步生成的扩散信息再转为图像。

阿里云 SAE 2.0 正式商用：极简易用、百毫秒弹性效率，降本 40%

阿里云云栖号

1 月 29 日

阅读 4 分钟

本文主要介绍阿里云 Serverless 应用引擎（以下简称 SAE ）如何帮助企业跨越技术鸿沟，从传统应用架构无感升级到 Serverless 架构，以更高效、更经济的方式进行转型，快速进入云原生快车道，让 2 人的研发团队享受 2000 人技术团队的红利。

3分钟畅玩！一键部署幻兽帕鲁联机服务器

阿里云云栖号

1 月 26 日

阅读 2 分钟

《幻兽帕鲁》火爆，如何快速拥有一个可以跟小伙伴们愉快玩耍的服务器呢？本教程将指引您在阿里云上快速完成幻兽帕鲁专用服务器部署，仅需点几下鼠标，2~3分钟左右就能可完成搭建，全程无需手动配置参数。

魔搭×函数计算：一键部署，缩短大模型选型到生产的距离

阿里云云栖号

1 月 25 日

阅读 5 分钟

面对魔搭 ModelScope[1]社区提供的海量模型，用户希望快速进行选型并生产使用起来，但在此之前，却一定会面临算力管理难、模型部署难等一系列问题，那么能否实现快速把选定的模型部署在云端功能强大的 GPU 上，由云端负责服务，扩展，保护和监控模型服务，同时免于运维和管理云上算力等基础设施呢？魔搭 ModelScope × 函...

弹性调度助力企业灵活应对业务变化，高效管理云上资源

阿里云云栖号

1 月 25 日

阅读 5 分钟

云计算时代，企业可以通过云平台获得大量计算资源，并根据业务发展和流量需求的实时变化，灵活调整使用的资源类型与资源量。阿里云提供了多种弹性资源，如云服务器 ECS 和弹性容器实例 ECI，并且提供不同的付费方式，如包年包月、按量付费和抢占实例等。不同类型和付费方式的实例，在给客户带来更高的灵活性的同时，也对...

可观测实践丨如何利用 AI 算法解决告警配置三大难题？

阿里云云栖号

1 月 25 日

阅读 4 分钟

这个系统非常复杂，既有像 CPU 使用率、内存使用率等基础指标，又有像响应时间、调用量等业务指标，又因为包含着很多 Java 应用，还需要关注一下 JVM 指标，林林总总几百个指标。小 A 不知道哪些指标是最重要的，也不知道应该对哪些指标配告警。

从内核的视角观测容器 — SysOM 容器监控

阿里云云栖号

1 月 24 日

阅读 4 分钟

容器化现阶段已经是构建企业 IT 架构的最佳实践。云原生容器化的部署架构，相较于传统 IDC 部署架构的 IT 架构方案，已经成为兼具高效运维及成本控制的业界事实标准。

Nacos 2.3.0 正式版发布，Nacos Controller 项目开源

阿里云云栖号

1 月 24 日

阅读 7 分钟

Nacos 2.3.0-BETA 版本经过 1 个多月的社区测试，修复了部分的问题并对部分新功能的使用进行了少量优化后，于 2023 年 12 月 7 日正式发布。

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

阿里云云栖号

1 月 24 日

阅读 10 分钟

安全一直是企业上云关注的核心问题。随着云原生对云计算基础设施和企业应用架构的重定义，传统的企业安全防护架构已经不能够满足新时期下的安全防护要求。为此企业安全人员需要针对云原生时代的安全挑战重新进行系统性的威胁分析并构建适合企业自身的威胁情报系统，同时在云原生安全体系方法论的指导下，结合云服务商提...

考试查分场景重保背后，我们如何进行可用性测试

阿里云云栖号

1 月 23 日

阅读 6 分钟

随着通过互联网音视频与知识建立连接的新学习方式在全国范围内迅速普及，在线教育/认证考试的用户规模呈井喷式增长。但教育容不得半点马虎与妥协，伴随用户规模不断增长，保证系统稳定性、有效避免千万考生考试时遭遇故障风险，成为行业认证机构/部门解决的首要难题。

解密最受欢迎的开源 Serverless 框架：流量篇

阿里云云栖号

1 月 23 日

阅读 10 分钟

对于 web 应用来说，通过请求流量的并发数、qps、rt 等指标，可以很好的衡量当前的 web 服务质量。Knative 中提供了基于请求驱动的 Serverless 能力，包括多版本管理流量，流量访问，基于流量的弹性以及监控等。本文从流量角度出发，为您解密 Knative 相关的能力。

Mixtral 8X7B MoE 模型基于阿里云人工智能平台PAI实践合集

阿里云云栖号

1 月 22 日

阅读 9 分钟

Mixtral 8x7B大模型是Mixtral AI推出的基于decoder-only架构的稀疏专家混合网络（Mixture-Of-Experts，MOE）开源大语言模型。这一模型具有46.7B的总参数量，对于每个token，路由器网络选择八组专家网络中的两组进行处理，并且将其输出累加组合，在增加模型参数总量的同时，优化了模型推理的成本。在大多数基准测试中，Mi...

Mixtral 8X7B MoE 模型在阿里云PAI平台的微调部署实践

阿里云云栖号

1 月 22 日

阅读 9 分钟

Mixtral 8x7B 是Mixtral AI最新发布的大语言模型，在许多基准测试上表现优于 GPT-3.5，是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台，提供了对于 Mixtral 8x7B 模型的全面支持，开发者和企业用户可以基于 PAI-快速开始（PAI-QuickStart）轻松完成Mixtral 8x7B ...

调研 7 个开源项目后，这家数据合规平台如何构建高性能网关

阿里云云栖号

1 月 18 日

阅读 6 分钟

用九智汇是一家面向企业提供数据合规、隐私保护相关产品和解决方案的数据合规公司，致力于帮助客户在合法合规、充分保护用户隐私的基础上发挥数据的最大价值，已服务众多世界 500 强企业。当前我们的产品交付主要基于云原生相关的基础设施和开源技术栈，如 Kubernetes、Istio、Apache Dubbo、Alibaba Nacos 等，既支持以...

阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践

阿里云云栖号

1 月 18 日

阅读 6 分钟

众所周知，随着时间的推移，算力成为了 AI 行业演进一个不可或缺的因素。在数据量日益庞大、模型体量不断增加的今天，企业对分布式算力和模型训练效率的需求成为了首要的任务。如何更好的、更高效率的以及更具性价比的利用算力，使用更低的成本来训练不断的迭代 AI 模型，变成了迫切需要解决的问题。而分布式训练的演进...