无数据告警最佳实践

2023-01-03
阅读 2 分钟
背景在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,例如数据采集阶段出现故障Logtail采集异常、数据导入任务异常或者SDK写入数据出错等情况都有可能导致日志库中没有数据。业务系统出现问题例如用户的业务日志中有某个系统模块的日志,在一段时间内,由于该系统模块出现故障,导致没...

从效能公式解构研发效能

2022-12-30
阅读 5 分钟
这几年,云原生、Web3.0、元宇宙等技术的出现和应用,正在深刻地改变着我们这个世界。以数字技术应用为主线的数字化转型是此次人类文明变革的核心动力。在这一变革过程中,软件研发模式的发展起到了重至关重要的作用。从早期瀑布式、精益敏捷、DevOps,再到BizDevOps,其实背后一直在解决的是效能的问题。

行动策略过于复杂怎么办?试试下面一些解决方法

2022-12-29
阅读 4 分钟
随着使用SLS告警越来越深入,有些用户的行动策略会配置的特别复杂,有些时候可以让用户通过创建多个行动策略来进行一定的精简,但是在一些场景下,用户是无法创建多个行动策略的。例如用户想要通过SLS来统一管理其各个监控系统的告警,所以采用了SLS的开放告警功能,这种情况下,用户一般一个监控系统就只会创建一个开放...

从敏捷协作到价值交付

2022-12-29
阅读 4 分钟
前面我的同事在分享的时候,指出目前软件研发的最大问题不是效率,而是研发资源的浪费。可能产品经理半天写的需求,开发要埋头苦干三个月。如果错误的选择了一个对业务发展无益的需求,会带着大家往错误的方向越跑越远。

解读最佳实践:倚天710 ARM芯片的 Python+AI 算力优化

2022-12-29
阅读 5 分钟
编者按:在刚刚结束的 PyCon China 2022 大会上,龙蜥社区开发者朱宏林分享了主题为《ARM 芯片的 Python+AI 算力优化》的技术演讲。本次演讲,作者将向大家介绍他们在倚天 710 ARM 芯片上开展的 Python+AI 优化工作,以及在 ARM 云平台上部署 Python+AI 任务的最佳实践。

加载速度提升 15%,关于 Python 启动加速探索与实践的解析

2022-12-27
阅读 3 分钟
编者按:在刚刚结束的 PyCon China 2022 大会上,龙蜥社区开发者严懿宸分享了主题为《Python 启动加速的探索与实践》的技术演讲。本次演讲,作者将从 CPython 社区相关工作、本方案的设计及实现,以及业务层面的集成等方面进行介绍。

使用 DataWorks 将 PolarDB-X 中的数据同步到 MaxCompute

2022-12-27
阅读 4 分钟
MaxCompute是适用于数据分析场景的云数据仓库,适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。大数据开发治理平台 DataWorks 基于MaxCompute / EMR / MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台。本文介绍 Po...

实践教程之如何将 PolarDB-X 与大数据等系统互通

2022-12-27
阅读 3 分钟
本期实验将指导您使用PolarDB-X+Canal+ClickHouse搭建实时分析系统。本期免费实验地址本期教学视频地址前置准备假设已经根据前一讲内容完成了PolarDB-X的搭建部署,可以成功链接上PolarDB-X数据库。部署CanalCanal是一款流行的MySQL Binlog增量订阅工具,详情请参见Canal说明文档。Canal提供了Docker镜像,详情请参见Can...

实践教程之如何快速使用 PolarDB-X

2022-12-27
阅读 7 分钟
PolarDB-X 为了方便用户体验,提供了免费的实验环境,您可以在实验环境里体验 PolarDB-X 的安装部署和各种内核特性。除了免费的实验,PolarDB-X 也提供免费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。

解读 K8s Pod 的13种典型异常

2022-12-27
阅读 9 分钟
在K8s中,Pod作为工作负载的运行载体,是最为核心的一个资源对象。Pod具有复杂的生命周期,在其生命周期的每一个阶段,可能发生多种不同的异常情况。K8s作为一个复杂系统,异常诊断往往要求强大的知识和经验储备。结合实战经历以及EDAS用户真实场景的归纳,我们总结了K8s Pod的13种常见异常场景,给出各个场景的常见错误...

K8s有损发布问题探究

2022-12-26
阅读 7 分钟
流量有损是在应用发布时的常见问题,其现象通常会反馈到流量监控上,如下图所示,发布过程中服务RT突然升高,造成部分业务响应变慢,给用户的最直观体验就是卡顿;或是请求的500错误数突增,在用户侧可能感受到服务降级或服务不可用,从而影响用户体验。

Kubernetes HPA 的三个误区与避坑指南

2022-12-26
阅读 4 分钟
云计算带来的优势之一便是弹性能力,云原生场景下Kubernetes提供了水平弹性扩容能力(HPA),让应用可以随着实时指标进行扩/缩。然而HPA的实际工作情况可能和我们直观预想的情况是不一样的,这里面存在一些认知误区。本文总结了一下 EDAS 用户在使用 HPA 时常遇到的三个认知误区,具体如下:

阿里云联合“产学研媒”发起BizDevOps共促计划,助力企业提升组织效能

2022-12-26
阅读 3 分钟
2012年全球最具影响力的独立研究咨询机构Forrester曾预言:“In the future, all companies will be software companies”(在未来,所有的企业都将成为软件企业)

关于平台工程的开发者工具链,你还想加点啥?

2022-12-26
阅读 10 分钟
从 Kubernetes 诞生以来,以 DevOps、容器化、可观测、微服务、Serverless 等技术为代表的云原生,催生了应用架构新一轮的升级。有意思的是,与以往的技术迭代更新不同,原本是一个技术圈常规的一次技术实践,在千行百业数字化转型大背景,叠加持续疫情冲击的双重影响之下,加上部分传统行业科技自主政策的催化;这一次...

如何通过链路追踪进行定时任务诊断

2022-12-23
阅读 4 分钟
随着分布式微服务化架构在企业中大规模运用,业务运行的应用平台是一个由各个业务研发团队不同业务应用组合而成的庞杂系统工程,相互之间存在各种形式的访问交互。

当云原生成为一种显学,对象存储和数据湖如何顺势而为

2022-12-23
阅读 4 分钟
前言:已经成为数字化时代显学的云原生并非单项技术,而是一种重塑了软件开发和和业务运行应用的设计思想,是一套技术体系和方法论。云原生“Cloud Native”的Cloud 是指云平台,Native则表示应用程序从设计之初即使用云环境、天生为云而设计,充分利用和发挥云平台的弹性+分布式优势。据相关机构(Gartner)预测,部署在...

阿里灵杰:与开发者一起推动AI创新落地

2022-12-23
阅读 4 分钟
对于人工智能领域而言,“AIGC”无疑是贯穿2022年的热点。12月16日,Science杂志发布了2022年度科学十大突破,AIGC赫然在列。以文生图,对话机器人等AI创新应用的落地,引发一轮又一轮的全民狂欢热潮。AI技术蓬勃发展,如何才能更好的实现AI创新落地、迈向新的增长呢?AI创新的落地,离不开对数据计算分析、模型开发部署、...

TapTap 算法平台的 Serverless 探索之路

2022-12-22
阅读 4 分钟
Serverless 在构建应用上为 TapTap 节省了大量的运维与开发人力,在基本没投入基建人力的情况下,直接把我们非常原始的基建,或者说是资源管理水平拉到了业界相对前沿的标准。最直观的数据是,仅投入了个位数的人力,就可以为TapTap整个搜广推相关的所有业务提供全套AI和大数据方面的支持。

微服务应用视角解读如何选择K8S的弹性策略

2022-12-22
阅读 4 分钟
微服务架构的出现,拆分了庞大的单体应用,让业务之间的开发与协作变得更加灵活。当面临业务流量增加的场景时,往往需要对一些应用组件进行扩容。K8S在应用层面提供了HPA,围绕HPA开源社区延伸出了KEDA这样的弹性组件,为微服务应用以业务指标执行弹性策略提供了实现的可能性。但HPA正常工作的一个大前提是需要保证集群...

浪潮信息工程师:带你了解设备透传虚拟机的快速启动技术优化方案

2022-12-21
阅读 4 分钟
编者按:将物理设备通过 vfio 透传给虚拟机是虚拟化常用的技术,但当为虚拟机分配比较大的内存时,虚拟机的启动时间会明显变慢,可能由十几秒延长至数分钟,严重影响用户使用体验。本文整理自龙蜥大讲堂 51 期,浪潮信息操作系统研发工程师参与技术分享,介绍了设备透传虚拟机启动慢的原因及优化方法,以下为此次分享内容:

深入解读云场景下的网络抖动

2022-12-21
阅读 10 分钟
一、网络抖动背景延时高,网络卡,卡住了美好!应用抖,业务惊,惊扰了谁的心?当你在观看世界杯梅西主罚点球突然视频中断了几秒钟当你在游戏中奋力厮杀突然手机在转圈圈无法响应当你守候多时为了抢一张化妆品优惠券突然迟迟加载不出来...我们经常在观看视频、手机游戏、网上购物时,会遇到上面这些烦心事,作为用户,我...

PostgreSQL 导入 SLS,从业务到监控数据

2022-12-20
阅读 7 分钟
日志服务SLS是云原生观测和分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务是提供一站式数据采集、加工、查询与分析、可视化、告警、消费与投递等功能。全面提升在研发、运维、运营、安全等场景的数字化能力。SLS在数据导入方面提供了丰富的数据源,如OSS导入、MaxCompute、MySQL...

PolarDB-X源码解读:DDL的一生(下)

2022-12-19
阅读 7 分钟
在《DDL的一生(上)》中,我们以添加全局二级索引为例,从DDL开发者的视角介绍了如何在DDL引擎框架下实现一个逻辑DDL。在本篇,作者将从DDL引擎的视角出发,向读者介绍DDL引擎的架构、实现,以及DDL引擎与DDL Job的交互逻辑。

性能最大提升60%,阿里云发布基于第四代英特尔至强的第八代ECS实例

2022-12-19
阅读 2 分钟
近日,阿里云宣布,将推出新一代企业级弹性计算实例规格族ECS g8i。该款计算实例采用CIPU+飞天的技术架构,搭载英特尔最新第四代英特尔® 至强®可扩展处理器(代号Sapphire Rapids,SPR),全核睿频p0n达到3.2GHz,性能相比上一代实例提升60%以上;网络带宽升级至2 x 100G,提升100%,标配阿里云自研eRDMA大规模加速能力...

为什么数字化时代需要 BizDevOps?

2022-12-19
阅读 2 分钟
毫无疑问,以数字技术应用为主线的数字化转型是此次人类文明变革的核心动力。在这一变革过程中,技术与业务的关系正发生根本性的转变,技术开发和交付方式也随之升级。

优化 20% 资源成本,新东方的 Serverless 实践之路

2022-12-19
阅读 3 分钟
新东方教育科技集团定位于以学生全面成长为核心,以科技为驱动力的综合性教育集团。新东方线上教育业务的云教室系统支持了视频直播、转码、点播等新东方所有在线教育场景。随着业务量的增大,由于直播转录及视频转码任务处理平台具有明显的波峰波谷特性,自建机房较低的资源利用率成为了业务的核心痛点。

BEVFormer-accelerate:基于 EasyCV 加速 BEVFormer

2022-12-16
阅读 5 分钟
BEVFormer是一种纯视觉的自动驾驶感知算法,通过融合环视相机图像的空间和时序特征显式的生成具有强表征能力的BEV特征,并应用于下游3D检测、分割等任务,取得了SOTA的结果。我们在EasyCV开源框架([链接])中,对BEVFomer算法进行集成,并从训练速度、算法收敛速度角度对代码进行了一些优化。同时,我们进一步使用推理...

鱼传科技:函数计算,只要用上就会觉得香

2022-12-14
阅读 3 分钟
深圳鱼传科技有限公司是专注以精准营销和互联网生态产品运营为核心的综合互联网营销推广服务商。通过整合全网优质媒体资源,并结合智能数据模型和 AI 标签算法,向企业提供包括流量矩阵搭建运营、媒介流量采买、投放模型设计、产品营销策划、数据监控分析、效果运营等多层次服务。作为函数计算的资深用户,鱼传科技的 CT...

统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

2022-12-14
阅读 4 分钟
服务水平目标SLO:一段时间、区间内的目标。 SLO的表达式通常为: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以为每个请求的平均延迟<=10ms

构建基于 Ingress 的全链路灰度能力

2022-12-14
阅读 3 分钟
随着云原生技术不断普及,越来越多的业务应用开始向云原生架构转变,借助容器管理平台 Kubernetes 的不可变基础设施、弹性扩缩容和高扩展性,助力业务迅速完成数字化转型。其中,集群入口流量管理方式在云原生技术演进过程中逐步通用化、标准化,用户通过 Kubernetes 定义的 Ingress 资源来管理外部访问集群内部服务的方...