运维大模型探索之 Text2PromQL 问答机器人

2023-11-21
阅读 10 分钟
大家下午好,我是来自阿里云可观测团队的算法工程师陈昆仪。今天分享的主题是“和我交谈并获得您想要的PromQL”。今天我跟大家分享在将AIGC技术运用到可观测领域的探索。

预发部署时机器总是重启两次的“简单”排查

2023-10-18
阅读 8 分钟
前天同学反馈, 搜索业务的核心应用 magellan 在预发环境部署时总是重启两次,刚部署好,开始联调,突然又重启了,也导致老是被人抱怨搜索环境不稳定。

日志服务运维观测能力,助力新零售容器化部署升级

2023-04-25
阅读 2 分钟
河北媛福达商贸集团成立于2017年,从起初单一的传统零售企业发展至如今集生产、物流、种植、餐饮、电商+实体零售为一体的新零售集团。现有五大业务板块(连锁超市、线上商城、加工生产、科学种植、文化餐饮)。

基于 Flink ML 搭建的智能运维算法服务及应用

2023-04-21
阅读 10 分钟
摘要:本文整理自阿里云计算平台算法专家张颖莹,在 Flink Forward Asia 2022 AI 特征工程专场的分享。本篇内容主要分为五个部分:1.阿里云大数据平台的智能运维2.智能运维算法服务应用场景3.传统算法工程链路的局限性4.使用 Flink ML 搭建智能运维算法服务5.总结和开源计划

如何基于运维事件中心通过 logstash 进行日志关键字监控

2022-12-09
阅读 3 分钟
日常运维过程中,很多场景都需要对日志关键字进行监测,以便第一时间发现应用/业务相关异常,这是一种比较常见的监控需求,所以也有很多方法可以实现关键字告警。对于简单的告警可以通过一些传统的监控工具实现,但对于体量和业务是非常复杂的中大型企业来说,在海量日志的情况下会存在运维问题、配置分散复杂、性能要求...

多监控系统产生的告警如何高效管理 - 运维事件中心

2022-11-27
阅读 3 分钟
随着互联网服务深入千行百业,数字化成为企业和机构为用户提供服务的重要形式。在企业的IT基础架构趋于复杂化的过程中,运维管理工作的技术性也有了更高的要求。如果针对相关的故障,企业无法做到及时的发现和响应,将会延长上层业务中断的事件,缺位的运维将会直接造成企业的经济损失,使企业的客户信任度和社会声誉受...

最佳实践|从Producer 到 Consumer,如何有效监控 Kafka

2022-06-08
阅读 9 分钟
简介: 对于运维人而言,如何安装维护一套监控系统,或如何进行技术选型,从来不是工作重点。如何借助工具对所需的应用、组件进行监控,发现并解决问题才是重中之重。随着 Prometheus 逐渐成为云原生时代可观测标准,为了帮助更多运维人用好 Prometheus,阿里云云原生团队将定期更新 Prometheus 最佳实践系列。第一期我...

从“预见”到“遇见” | SAE 引领应用步入 Serverless 全托管新时代

2022-06-08
阅读 5 分钟
简介: 阿里云 Serverless 应用引擎(简称 SAE)初衷是让客户不改任何代码,不改变应用部署方式,就可以享受到微服务+K8s+Serverless 的完整体验,开箱即用免运维。作为业界首款面向应用的 Serverlss PaaS,自 2018 年推出以来,受到了广大用户的一致好评,各行各业企业客户的生产环境都在 SAE 上稳定运行。作者:黛忻 ...

SysAK 应用抖动诊断篇—— eBPF又立功了! | 龙蜥技术

2022-05-26
阅读 4 分钟
编者按:还记得曾经风靡一时的狄仁杰探案系列之《他抖任他抖,IO诊断在我手》、《netinfo:揭开网络抖动面纱的神器》、《coredump 瘦身风云》等带大家领略了青囊在网络、IO、内存等领域叱咤风云的魅力。如今,系统运维 SIG 组重磅归来,前面已介绍了 Kernel module 对付 IO 夯,今天继续分享 eBPF 硬扛系统中断,快随我...
封面图

宜搭5月更新:跨应用数据读写能力升级,AI组件内测开放

2022-05-24
阅读 2 分钟
简介:表单、权限管理、AI组件等功能上新啦~本次,我们带来了表单、权限管理、数据管理、平台管理权限、组件等功能的升级。表单支持跨应用数据查询在使用组件数据联动、关联其他表单数据、关联表单组件数据筛选/数据填充等功能时,可以跨应用查询表单数据(需先创建跨应用数据集)。权限管理权限组数据条件:支持“属于”...
封面图

龙蜥正式开源 SysOM:百万级实战经验打造!一站式运维管理平台 | 龙蜥技术

2022-05-17
阅读 3 分钟
如果你被突如其来的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不出来内存?业务周期抖动,ping 命令偶尔时间很长,但无从下手?程序就这么几行但程序怎么跑 CPU 都跑不高,业务流量上不去?亦或是 CPU 使用率 90% 以上,ps 一下一堆乱七八糟的任务导致你不知如何取舍……
封面图

利器解读!Linux 内核调测中最最让开发者头疼的 bug 有解了|龙蜥技术

2022-05-09
阅读 6 分钟
编者按:一直持续存在内核内存调测领域两大行业难题: "内存被改" 和 "内存泄漏"何解?本文整理自龙蜥大讲堂第 13 期,有效地解决这两大难题都需要什么方案?快来看作者的详细介绍吧!
封面图

足不出户,搞定交付——独家交付秘籍(第二回)

2022-04-11
阅读 5 分钟
简介:在后疫情时代,遇到无法出差、无法访客时,如何保障交付按时保质的进行,做好运维质量的保障,从而不影响企业整体营收,已成为我们生死攸关的难题。小锤在遇到无法只通过远程就完成项目交付验收,以及无法远程支持运维保障时,他们是如何成功该问题的呢,本文将一一讲述!
封面图

OpenKruise v1.1:功能增强与上游对齐,大规模场景性能优化

2022-04-08
阅读 7 分钟
简介:在 v1.1 版本中,OpenKruise 对不少已有功能做了扩展与增强,并且优化了在大规模集群中的运行性能。以下对 v1.1 的部分功能做简要介绍。
封面图

打通源码!高效定位代码问题|云效工程师指北

2022-04-01
阅读 3 分钟
简介:为了帮助企业和团队挖掘更多源代码价值以赋能日常代码研发、运维等工作,云效代码团队在大数据和智能化方向进行了一系列的探索和实践(例如代码搜索与推荐),本文主要介绍我们如何通过直接打通源代码来提高研发与运维效率。
封面图

基于 EventBridge 构建 SaaS 应用集成方案

2022-03-18
阅读 6 分钟
简介:事件源是事件驱动的基石,如何获取更多事件源也是 EventBridge 一直在探索和尝试的方向。针对市场上其他云厂商和垂直领域的 Saas 服务,EventBridge 发布了 HTTP Source 能力,提供简单且易于集成的三方事件推送 ,帮助客户更加高效、便捷地实现业务上云。
封面图

深度解读企业云上办公利器「无影云电脑」

2022-03-14
阅读 7 分钟
简介信息化进程高速发展的今天,用户桌面办公的需求正不断发生变化:远程办公,BYOD的需求不断增长;快速交付,高效运维的需求接连上升;数据及网络安全的关注度持续提高;整体办公成本在进一步优化。相对而言,云上办公成为了企业首要的关注点。
封面图

成中集团线下IDC迁移上云

2022-03-09
阅读 1 分钟
阿里云根据成中集团业务场景入手,提供了上云方案和迁移建议,利用这套架构,保障了公司数据的安全性并且满足了公司对于备份机制的建立的基本诉求,并且降低了业务出现中断的风险。
封面图

引领新媒体时代的潮水方向—世相科技

2022-03-08
阅读 2 分钟
新媒体的飞速发展,为各种创意传播带来了崭新机遇。世相科技子公司研发的中短视频APP开眼已坐拥千万注册用户,当然开眼APP的整个研发和运维都离不开云计算的加持。开眼App的短视频一般两分钟到十几分钟不等,团队基于算法会每天为用户推荐精心挑选的短视频,“高清画质、干净简单、诗和远方……”。新媒体企业不仅需要精细化...
封面图

2022,你的团队距离持续部署还有多远?

2022-03-03
阅读 7 分钟
简介:2022,你的团队距离持续部署还有多远?持续部署这个词我们经常听到,可是到底怎样才是做到了持续部署?如何才能做到持续部署?本文将为你逐层拆解持续部署的内涵和实施路径。
封面图

开发之痛:稳定的测试环境,怎么就那么难

2022-02-25
阅读 6 分钟
简介:开发之痛:稳定的测试环境,怎么就那么难。对于生产环境,准确、稳定最重要,我们推荐以应用为中心的基于OAM和IaC的实践方式;对于测试环境,隔离、低成本和稳定的依赖是最重要的,我们推荐基于稳定环境的隔离测试环境的实践,复用稳定环境,通过流量隔离和数据隔离来生成测试环境。通过环境建设,我们解决了研发...
封面图

iofsstat:帮你轻松定位 IO 突高,前因后果一目了然 | 龙蜥技术

2022-02-23
阅读 5 分钟
编者按:sysAK(system analyse kit),是龙蜥社区系统运维 SIG 下面的一个开源项目,聚集阿里百万服务器的多年运维经验,针对不同的运维需求提供了一系列工具,形成统一的产品进行服务。本文总结了实际工作中 IO 打满、IO util 高问题的处理经验,将它梳理成一套理论分析方法并形成 iofsstat 工具,集成到了sysAK 工具...
封面图

SaaS服务的私有化部署,这样做最高效|云效工程师指北

2022-02-18
阅读 4 分钟
简介:为了能够有效且高效地同时管理SaaS版本和私有化版本的发布过程,云效团队也结合云原生的基础设施和标准化工具(比如helm)进行了一系列的探索和实践,并将其中一些通能的能力进行了产品化。本文从问题本身出发,讲解解决问题的思路,及如何通过“DIY”的方式来实现这套思路。
封面图

企业为什么要做应用多活?

2022-02-17
阅读 2 分钟
简介:无容灾不上云,应用系统要随时具备对灾难故障的逃逸能力。平稳迁移上云是每位决策者的关键决策点。业务持续发展,架构不断演进,容灾治理解决的是发展中问题。如何实现应用多活的容灾架构和组织协同,也越来越成为更多企业者关心的问题。
封面图

技术揭秘:实时数仓Hologres如何支持超大规模部署与运维

2022-02-14
阅读 5 分钟
简介:在本次评测中,Hologres是目前通过中国信通院大数据产品分布式分析型数据库大规模性能评测的规模最大的MPP数据仓库产品。通过该评测,证明了阿里云实时数仓Hologres能够作为数据仓库和大数据平台的基础设施,可以满足用户建设大规模数据仓库和数据平台的需求,具备支撑关键行业核心业务数据平台的能力。
封面图

KubeVela v1.2 发布:你要的图形化操作控制台 VelaUX 终于来了!

2022-02-11
阅读 7 分钟
简介:时间来到 2022 年,KubeVela 也正式进入了第四个阶段,在原先核心控制器 API 基本稳定的基础上,我们以插件的形式增加了一系列开箱即用的功能。让开发者可以通过 UI 控制台的方式,连接 CI/CD 完整流程,端到端发布多集群应用,进一步提升开发者体验。
封面图

“云网管” ---云上构建网络自动化体系

2022-02-09
阅读 4 分钟
简介:云网管是基于阿里云网络多年技术和经验沉淀打造的云上智能网络管理运维平台,提供企业网络全生命周期管理运维的能力,让部署更快捷、运维更高效、网络更透明。
封面图

N个技巧,编写更高效 Dockerfile|云效工程师指北

2022-01-30
阅读 10 分钟
简介:云原生时代下软件的构建和部署离不开容器技术。提到容器,几乎大家下意识都会联想到 Docker 。而 Docker 中有两个非常重要的概念,一个是Image(镜像),一个是Container(容器)。前者是一个静态视图,打包了应用的目录结构、运行环境等;后者是一个动态视图(进程),展示的是程序的运行状态(cpu、memory、stor...
封面图

阿里云贾少天:大规模云服务器高效使用及管理最佳实践

2022-01-29
阅读 7 分钟
2021年10月22日,在云栖大会的《云上运维最佳实践》分论坛,阿里云高级技术专家贾少天发表了主题为“大规模云服务器高效使用及管理最佳实践”的演讲,本篇内容根据他的演讲整理成的文章,主要通过以下三个部分来介绍大规模云服务器高效使用及管理最佳实践。
封面图

阿里云田涛涛:高效智能的云,CloudOps让运维更简单

2022-01-29
阅读 7 分钟
12月21日,在阿里云弹性计算年度峰会上,阿里云弹性计算体验与控制系统负责人田涛涛发表了主题为《高效智能的云,CloudOps让运维更简单》的演讲,深度解读了云上运维新趋势CloudOps,并详细介绍了阿里云CloudOps自动化运维套件的新产品。
封面图