计算巢实现大模型微调——如何发布一个微调服务

2023-08-24
阅读 3 分钟
各位看官,最近是否被大模型相关信息刷屏了呢,铺天盖地的大模型预训练、微调等各种关键词是否让你眼花缭乱呢?在如此热度之下,你有没有想过自己亲自动手部署一个大模型执行训练或者微调呢,或许你曾经尝试过却被某个繁琐的步骤劝退了呢?又或者你是模型的研究人员或开发人员,想要让你的模型服务更多用户、有更大的影...

实战总结|记一次 glibc 导致的堆外内存泄露

2023-08-24
阅读 7 分钟
问题现象团队核心应用每次发布完之后,内存会逐步占用,不重启或者重新部署就会导致整体内存占用率超过90%。$$ 发布2天后的内存占用趋势 $$探索原因一堆内找到原因出现这种问题,第一想到的就是集群中随意找一台机器,信手dump一下内存,看看是否有堆内存使用率过高的情况。$$ 内存泄露 $$$$ 泄露对象占比 $$发现 占比18...

共识协议的技术变迁 - 既要“高”容错,又要“易”定序,还要“好”理解

2023-08-23
阅读 27 分钟
There is no compression algorithm for experience. -- Andy Jassy, CEO of AWS

一名全栈工程师的技术实践之路

2023-08-23
阅读 10 分钟
全栈开发是指开发人员掌握了前端、后端以及数据库等多个领域的知识和技能,能够独立完成整个项目的开发工作。在需求交付过程中,可以负责从项目的前期分析、设计到后期开发、测试、发布等整个过程,能够快速定位和解决问题,提高开发效率和产品质量。

应用开发者的疑问:大模型是真正的银弹吗?

2023-08-22
阅读 3 分钟
被当成银弹的大模型ChatGPT 火了之后,大模型似乎被当成了真正的银弹,所有的体验问题都想通过大模型解决:能不能和大模型对话订机票?自然语言生成 SQL,简化报表分析工作?大模型帮老年人操作软件?能不能用于识别敏感信息?......似乎大模型成了自然语言工程领域的真正银弹。但是我依稀记得 《人月神话》作者 Fred Br...

基于云原生网关的流量防护实践

2023-08-22
阅读 4 分钟
在分布式系统架构中,每个请求都会经过很多层处理,比如从入口网关再到 Web Server 再到服务之间的调用,再到服务访问缓存或 DB 等存储。在下图流量防护体系中,我们通常遵循流量漏斗原则进行流量防护。在流量链路的每一层,我们都需要进行针对性的流量防护与容错手段,来保障服务的稳定性;同时,我们要尽可能地将流量...

微服务引擎 MSE 全新升级,15 分钟快速体验微服务全栈能力

2023-08-22
阅读 8 分钟
微服务引擎 MSE 全新发布!新版本带来了一系列令人振奋的特性和改进,让您更轻松、高效地构建和管理微服务应用程序。从快速入门到迁移优化,MSE 为开发人员提供了全方位的支持和解决方案。无论您是刚刚接触微服务还是已经深耕其中,MSE 都将为您带来独特的体验和突破。让我们一同探索 MSE 的全新特性,开启微服务开发的...

如何构建 Sidecarless 模式的高性能服务网格

2023-08-22
阅读 13 分钟
以 Istio 为代表的 Service Mesh 技术已经存在四五年的时间了,阿里云也是第一批支持 Service Mesh 云服务的厂商。在 Service Mesh 技术中,通过把服务治理的能力进行 Sidecar 化,实现与应用程序本身的解耦。这些若干个 Sidecar 代理就形成了一个网状的数据平面,通过该数据平面可以处理和观察所有应用服务间的流量。负...

聊聊数据库中的烂索引

2023-08-21
阅读 4 分钟
索引是数据库中用于加速查询的常用组件,它通过对数据冗余和重组织来加速SQL查询。通常来说,恰当的索引可以提升系统的查询性能。 关于索引存在一些误解,如:索引总是能提升查询性能,因此索引越多越好,比如下图中的例子

基于 PolarDB PostgreSQL 版和 LLM 构建企业专属 Chatbot

2023-08-21
阅读 8 分钟
随着ChatGPT的问世,人们开始认识到大语言模型(LLM,Large language model)和生成式人工智能在多个领域的潜力,如文稿撰写、图像生成、代码优化和信息搜索等。LLM已成为个人和企业的得力助手,并朝着超级应用的方向发展,引领着新的生态系统。本文介绍如何基于PolarDB PostgreSQL版向量数据库和LLM构建企业专属Chatbot。

通过 OpenKruise 实现基于 Higress 的全链路灰度

2023-08-17
阅读 10 分钟
OpenKruise 是一个基于 Kubernetes 的扩展套件,主要聚焦于云原生应用的自动化,比如部署、发布、运维以及可用性防护。本文介绍通过 OpenKruise 构建自动化运维的方式实现全链路灰度功能。

RocketMQ 5.0 架构解析:如何基于云原生架构支撑多元化场景

2023-08-17
阅读 7 分钟
文章主要包含三部分内容。首先介绍 RocketMQ 5.0 的核心概念和架构概览;然后从集群角度出发,从宏观视角学习 RocketMQ 的管控链路、数据链路、客户端和服务端如何交互;最后介绍消息队列最重要的模块存储系统,了解 RocketMQ 如何实现数据的存储和数据的高可用,以及如何利用云原生存储进一步提升竞争力。

MaxCompute 发布按量付费闲时版,计算成本最高节省66.66%!

2023-08-16
阅读 2 分钟
开通MaxCompute按量付费闲时版,意味着用户可以使用MaxCompute闲时计算资源(os_SpotQuota),它是一种共享型按量付费计算资源,闲时计算资源池与按量付费标准版计算资源共享,与包年包月计算资源隔离,不可指定用量。

微服务最佳实践,零改造实现 Spring Cloud & Apache Dubbo 互通

2023-08-16
阅读 6 分钟
很遗憾,这不是一篇关于中间件理论或原理讲解的文章,没有高深晦涩的工作原理分析,文后也没有令人惊叹的工程数字统计。本文以实际项目和代码为示例,一步一步演示如何以最低成本实现 Apache Dubbo 体系与 Spring Cloud 体系的互通,进而实现不同微服务体系的混合部署、迁移等,帮助您解决实际架构及业务问题。

一次网络不通“争吵”引发的思考

2023-08-16
阅读 9 分钟
"你到底在说什么啊,我K8s的ecs节点要访问clb的地址不通和本地网卡有什么关系..." 气愤语气都从电话那头传了过来,这时电话两端都沉默了。过了好一会传来地铁小姐姐甜美的播报声打断了刚刚的沉寂「乘坐地铁必须全程佩戴口罩,下一站西湖文化广场...」。

阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点?

2023-08-15
阅读 11 分钟
全栈可观测是一种更全面、更综合和更深入的观测能力,能协助全面了解和监测系统的各个层面和组件,它不仅仅是一个技术上的概念,更多地是技术与业务的结合。在“以业务为导向”的大前提下,全栈可观测正在成为趋势。

函数性能探测:更简单高效的 Serverless 规格选型方案

2023-08-15
阅读 6 分钟
2019 年 Berkeley 预测 Serverless 将取代 Serverful 计算成为云计算新范式。Serverless 为应用开发提供了一种全新系统架构。借助 2023 年由 OpenAI 所带来的 AIGC 风潮,以阿里云函数计算 FC、AWS Lambda 为代表的 Serverless 以其更高成本效益、更简化的后端代码 & 扩展性及更极致的弹性等众多特性,将开发者从繁重的...

云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理

2023-08-14
阅读 17 分钟
OpenAI 在 3 月 15 日发布了备受瞩目的 GPT4,它在司法考试和程序编程领域的惊人表现让大家对大语言模型的热情达到了顶点。人们纷纷议论我们是否已经跨入通用人工智能的时代。与此同时,基于大语言模型的应用也如雨后春笋般出现,为我们带来了协同办公、客服对话、语言翻译、内容生成等方面前所未有的畅快体验。

聊聊数据库中的 savepoint

2023-08-14
阅读 3 分钟
故事要从全局二级索引开始讲起。 当我们构建了一个全局二级索引之后,一条逻辑上的数据插入,就会变成两条物理上的数据插入:一条插入到主表,另一条插入到索引表。为了保证主表和索引表数据的一致性,我们往往需要开启分布式事务,再并行地插入两条数据。如果其中一条数据插入失败了,比如索引上出现了唯一键冲突,但主...

Apache Dubbo 云原生可观测性的探索与实践

2023-08-14
阅读 6 分钟
Apache Dubbo3 在云原生可观测性方面完成重磅升级,使用 Dubbo3 最新版本,你只需要引入 dubbo-spring-boot-observability-starter 依赖,微服务集群即原生具备以下能力:

Koordinator 异构资源/任务调度实践

2023-08-11
阅读 8 分钟
Koordinator 是阿里云基于过去我们建设的统一调度系统中积累的技术和实践经验,对外开源了新一代的调度系统。Koordinator 支持 Kubernetes 上多种工作负载的混部调度。它的目标是提高工作负载的运行时效率和可靠性(包括延迟敏感型负载和批处理任务)。Koordinator 不仅擅长混部场景,也同样支持大数据、AI 训练等任务调...

如何基于 ACK Serverless 快速部署 AI 推理服务

2023-08-10
阅读 4 分钟
随着 AI 浪潮的到来,各种 AI 应用层出不穷,众所周知 AI 应用对 GPU 资源强烈依赖,但 GPU 很昂贵,如何降低 GPU 资源使用成本成为用户首要问题。而 AI 与 Serverless 技术结合,完全可以达到按需使用资源,降低资源成本的目的。

一文揭秘饿了么跨端技术的演进、实践与落地

2023-08-10
阅读 12 分钟
本文会先带领大家一起简单回顾下跨端技术背景与演进历程与在这一波儿接着一波儿的跨端浪潮中的饿了么跨端现状,以及在这个背景下,相较于业界基于 React/Vue 研发习惯出发的各种跨端方案,饿了么为什么会选择走另外一条路,这个过程中我们的一些思考、遇到及解决的问题和取得的一些成果,希望能给大家带来一些跨端方面的...

深入浅出流批一体理论篇——数据架构的演进

2023-08-09
阅读 6 分钟
我没有经历过阿里数据架构(包括平台工具)从0到1的过程。我相信很多阿里老员工也没有未见得全经历过。因为从行业视角来看,这是一个长达二三十年的过程,阿里作为先行者本身也是摸着石头过河。很多年轻一些的阿里员工看到当前的架构设计,他们的感受大概就是:“不就该是这样吗?不然还能怎样?”

阿里云 MSE + ZadigX ,无门槛实现云原生全链路灰度发布

2023-08-09
阅读 8 分钟
企业发布现状痛点目前企业在选择和实施发布策略时面临以下困境:1.缺乏云原生能力:由于从传统部署转变为云原生模式后,技术架构改造需要具备相关能力的人才。这使得企业在发布策略方面难以入手。2.缺乏自动化平台支持:即使找到适合产品现状的发布策略,仍然依赖手工逐步执行。这可能导致流程遗漏或人工操作失误,造成...

统一观测丨借助 Prometheus 监控 ClickHouse 数据库

2023-08-09
阅读 8 分钟
ClickHouse 作为用于联机分析(OLAP)的列式数据库管理系统(DBMS),最核心的特点是极致压缩率和极速查询性能。同时,ClickHouse 支持 SQL 查询,在基于大宽表的聚合分析查询场景下展现出优异的性能。因此,获得了广泛的应用。本文旨在分享阿里云可观测监控 Prometheus 版对开源 ClickHouse 的监控实践。

闲置资源优化,轻松检查集群中的空闲成本

2023-08-08
阅读 2 分钟
Kubernetes 提供了对计算、网络、存储资源的抽象,提升了集群资源管理的效率。然而,由于用户不需要直接管理底层资源,可能导致部分闲置资源未及时发现,造成成本浪费。在企业 IT 成本治理过程中,如何发现并处理这部分资源,是成本优化的重要环节。

ChaosBlade 项目指南:我是如何为社区贡献 Redis 故障场景

2023-08-08
阅读 7 分钟
Redis 实际使用过程中会存在一些故障演练需求。例如:模拟触发所有 key 过期的极端故障场景、模拟主动触发 Redis 内存淘汰策略释放内存场景等等。

如何将个人 NAS 里的 Stable Diffusion 模型库挂载到 PAI-EAS

2023-08-08
阅读 3 分钟
通过在线迁移服务,您已经将SD公共模型库的模型文件转存到了自己的NAS文件目录中,该存储空间中的模型可以被用于SDWebUI,另外也可以将未来训练和推理的结果保存到该NAS目录中。您可以通过如下文件挂载方式来实现。

手把手教你使用 OSS-HDFS 服务平替自建HDFS

2023-08-07
阅读 12 分钟
OSS-HDFS服务是一款基于对象存储OSS之上的云原生数据湖3.0存储产品,基于统一的元数据管理能力,在完全兼容 HDFS 文件系统接口的同时,提供充分的 POSIX 能力支持,能更好的满足大数据和 AI 领域丰富多样的数据湖计算场景。