从内核的视角观测容器 — SysOM 容器监控

1 月 24 日
阅读 4 分钟
容器化现阶段已经是构建企业 IT 架构的最佳实践。云原生容器化的部署架构,相较于传统 IDC 部署架构的 IT 架构方案,已经成为兼具高效运维及成本控制的业界事实标准。

灵魂三问之稳定性摸排

2023-10-30
阅读 5 分钟
在之前写了篇文章《上线十年,81万行Java代码的老系统如何重构》,在文章后有同学留言问“这么复杂的改动,质量是如何应对的”,是一个特别好的问题,当时只是从现有的一些监控、测试、卡口手段上进行了回答。但在回答过程当中就在思考一个问题,交接过来的老代码历史包袱这么重,现有的手段真的可以监控到所有的问题么?...

被报警大量骚扰?来看看治理方法论

2023-10-10
阅读 6 分钟
五月六月以来,蚂蚁开启监控治理主题,推进监控进一步完善,做到既能即时响应告警——五分钟响应三十分钟处理完毕,又能过滤降噪,避免处理疲劳。除了响应公司治理主题之外,小组内部告警的噪音也是一直积累的问题,这是由于随着项目和小组的发展,不可避免的使得配置的监控越来越多,累积的不健康监控增加,导致人均处理...

使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警

2023-04-11
阅读 11 分钟
在前面文章里面,我们介绍了单链路的筛选与轨迹回溯,是从单次请求的视角来分析问题,类似查询某个快递订单的物流轨迹。但单次请求无法直观反映应用或接口整体服务状态,经常会由于网络抖动、宿主机 GC 等原因出现偶发性、不可控的随机离群点。当一个问题发生时,应用负责人或稳定性负责人需要首先判断问题的实际影响面...

五个问题,三大策略,手把手教你定制App性能监控方案

2021-03-22
阅读 4 分钟
简介: 总结下来,我们可以统计不同类型错误在某一个时间范围内的错误数、错误率、影响用户数、影响用户占比等指标。在指标的细化分类上,我们还可以用不同的维度定义监控,比如版本号。
封面图

道旅:使用ARMS做业务监控数据清洗

2020-12-08
阅读 2 分钟
深圳市道旅旅游科技股份有限公司(简称:道旅)是一家总部位于中国的全球酒店资源批发商。自2012年成立以来,道旅凭借其全球优质的直签产品和丰富的第三方产品,以及顶尖的技术实力,赢得了包括OTA、差旅管理公司、航空公司、旅行社等超过23,000家客户的信赖和支持。在资源端,道旅不仅有超过30,000+具有竞争力的直签酒...

大兴机场一夜成网红圣地,也来了解一下机场视频监控数据如何上云

2020-01-19
阅读 1 分钟
利用已经训练完成的模型,进行推断或者预测的过程,例如识别一张图片中的内容。阿里云对象存储OSS:海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。详见[链接]

端计算Walle:2235亿次运算,为了无法计算的端智能价值

2020-01-08
阅读 4 分钟
传统的云计算,使用的是端侧采集数据,云端处理消费,再反馈给端侧的模式。而伴随着数字化转型的浪潮、万物互联时代的到来,5G、大数据、人工智能等信息技术的快速发展,云计算已经无法特定场景对低延迟的高要求。此时基于路由器、交换机、基站等计算节点的边缘计算因运而生,其具有低延时、低成本、数据安全、数据丰富...

双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生时代”的全面升级

2019-12-23
阅读 6 分钟
导读:作为一支深耕多年链路追踪技术 (Tracing) 与性能管理服务 (APM) 的团队,阿里巴巴中间件鹰眼团队的工程师们见证了阿里巴巴基础架构的多次升级,每一次的架构升级都会对系统可观测性能力 (Observability) 带来巨大挑战,而这次的“云原生”升级,给我们带来的新挑战又是什么呢?

微服务治理实践:如何对单点异常进行自动摘除

2019-12-17
阅读 9 分钟
微服务架构下,稳定性和高可用性一个永恒的话题,在实际的治理过程中,我们有可能会遇到以下场景: 某个应用灰度发布,先上了几台机器,由于代码逻辑写的有问题,造成线程池满,出现运行异常。 服务端集群中,某几台机器由于磁盘满,或者是宿主机资源争抢导致 load 过高,客户端出现调用超时。 服务端集群中,某几台机器...

阿里云InfluxDB®:一条命令完成k8s监控采集

2019-12-06
阅读 2 分钟
Kubernetes是当今流行的容器调度系统,已经成为很多软件系统的底座,而kubernetes的监控也有很多方案可选,阿里云InfluxDB®提供时序数据的长期稳定存储,同时集成了grafana可视化组件,可以帮助用户快速搭建监控方案。这里的“快速”有多快呢?一条命令就能搞定!本文就介绍如何使用helm一键完成k8s监控数据到阿里云Influx...

饿了么监控系统 EMonitor 与美团点评 CAT 的对比

2019-11-04
阅读 7 分钟
饿了么监控系统EMonitor:是一款服务于饿了么所有技术部门的一站式监控系统,覆盖了系统监控、容器监控、网络监控、中间件监控、业务监控、接入层监控以及前端监控的数据存储与查询。每日处理总数据量近PB,每日写入指标数据量百T,每日指标查询量几千万,配置图表个数上万,看板个数上千。

它是真实的“盗梦空间”?在这里,一切都可能是数据

2019-10-12
阅读 5 分钟
阿里妹导读:位于杭州阿里巴巴西溪园区旁边的大型商场“亲橙里”2018年正式开业。和传统的线下综合型商场不同的是,亲橙里从规划之初就定位为数字化商场,通过植入自研的IBOS平台完成建筑内的所有子系统的接入,而让建筑和建筑内的设备、空间、人的“在线”是我们数字化的第一个目标。为了实现这个目标,阿里工程师做了哪些...

携程的 Dubbo 之路

2019-09-30
阅读 6 分钟
携程当初为什么要引入 Dubbo 呢?实际上从 2013 年底起,携程内主要使用的就是基于 HTTP 协议的 SOA 微服务框架。这个框架是携程内部自行研发的,整体架构在这近6年中没有进行大的重构。受到当初设计的限制,框架本身的扩展性不是很好,使得用户要想自己扩展一些功能就会比较困难。另外,由于 HTTP 协议一个连接同时只能...

在SLS中快速实现异常巡检

2019-09-02
阅读 7 分钟
一、相关算法研究 1.1 常见的开源算法 Yahoo:EGADS FaceBook:Prophet Baidu:Opprentice Twitter:Anomaly Detection Redhat:hawkular Ali+Tsinghua:Donut Tencent:Metis Numenta:HTM CMU:SPIRIT Microsoft:YADING Linkedin:SAX改进版本 Netflix:Argos NEC:CloudSeer NEC+Ant:LogLens MoogSoft:一家创业公...

10 人,2 个月 | 虾mi音乐的监控体系升级之路

2019-08-27
阅读 4 分钟
监控一直是服务端掌握应用运行状态的重要手段,经过近几年的发展,阿里虾米服务端目前已经有 100 多个 Java 应用,承担核心业务的应用也有将近 50 个,对于应用的监控配置也是因人而异。有的人配置的监控比较细,有的应用在经历了多人开发阶段以后,监控就逐渐疏于管理,有些应用的监控项最后修改时间只停留到 2 年以前...

阿里巴巴在应用性能测试场景设计和实现上的实践

2019-08-20
阅读 7 分钟
本文是《Performance Test Together》(简称PTT)系列专题分享的第5期,该专题将从性能压测的设计、实现、执行、监控、问题定位和分析、应用场景等多个纬度对性能压测的全过程进行拆解,以帮助大家构建完整的性能压测的理论体系,并提供有例可依的实战。

通过SQL即可让监控分析更简单更高效

2019-08-16
阅读 10 分钟
阿里时序时空数据库TSDB最新推出TSQL,支持标准SQL的语法和函数。用户使用熟悉的SQL,不仅仅查询更简单易用,用户还可以利用SQL强大的功能,实现更加复杂的计算分析。

为什么选择Cassandra

2019-08-15
阅读 3 分钟
cassandra不仅吸收了dynamo论文中的如何做分布式,如何做副本复制,故障容错等方面成功的经验,又吸取了google bigtable中的LSM单机引擎层面精华。理论扎实,工程实现靠谱,所以面世以来,不断受到人们的追捧。

应用实时监控 ARMS 上线用户行为回溯功能

2019-08-15
阅读 6 分钟
随着前端技术日新月异迅猛发展,为了实现更好的前端性能,最大程度提高用户体验,支持单页应用的框架逐渐占领市场,如众所周知的React,Vue等等。但是在单页应用的趋势下,快速定位并解决JS错误却成为一大难题。在当下的互联网行业,对前端性能要求越来越高,前端性能监控的产品层出不穷,javascript错误诊断更是其中举...

OSS在线迁移服务剖析

2019-07-29
阅读 2 分钟
目前由于 OSS 数据迁移服务涉及到对目标的 OSS 要有很多 action 的 API 授权,为避免用户产生过多的学习成本,我们直接强制使用主账号进行迁移;

云原生化的迁云实战

2019-07-26
阅读 4 分钟
容器服务团队在过去的几年时间内帮助很多用户成功把业务云原生化并迁移上云,其中有现在已经是我们TOP10的大客户,也有需要在国内开展业务的海外用户,有些是从其他云厂商迁移过来的用户,有些是从IDC里迁移上云的用户,而且越来越多的用户开始咨询如何对自己的应用做云原生化改造、如何把业务平滑地迁移到云上。每个用...

一站式数据采集存储的利器:阿里云InfluxDB®️数据采集服务

2019-07-23
阅读 4 分钟
随着时序数据的飞速增长,时序数据库不仅需要解决系统的稳定性和性能问题,还需实现数据从采集到分析的链路打通,才能让时序数据真正产生价值。在时序数据采集领域,一直缺少自动化的采集工具。虽然用户可以使用一些开源的采集工具实现数据采集,例如,Telegraf、Logstash和TCollector等,但是,这些采集工具都需要用户...

Kubernetes事件离线工具kube-eventer正式开源

2019-07-15
阅读 2 分钟
监控是保障系统稳定性的重要组成部分,在Kubernetes开源生态中,资源类的监控工具与组件百花齐放。除了社区自己孵化的metrics-server,还有从CNCF毕业的Prometheus等等,开发者可选的方案有很多。但是,只有资源类的监控是远远不够的,因为资源监控存在如下两个主要的缺欠:

阿里云InfluxDB® Raft HybridStorage实现方案

2019-07-11
阅读 5 分钟
阿里云InfluxDB®是阿里云基于开源版InfluxDB打造的一款时序数据库产品,提供更稳定的持续运行状态、更丰富强大的时序数据计算能力。在现有的单节点版本之外,阿里云InfluxDB®团队还将推出多节点的高可用版本。

分布式服务架构下的混沌工程实践

2019-07-05
阅读 7 分钟
本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送“混沌工程”,获取分享PPT)

云原生应用 Kubernetes 监控与弹性实践

2019-07-04
阅读 4 分钟
云原生应用的设计理念已经被越来越多的开发者接受与认可,而Kubernetes做为云原生的标准接口实现,已经成为了整个stack的中心,云服务的能力可以通过Cloud Provider、CRD Controller、Operator等等的方式从Kubernetes的标准接口向业务层透出。开发者可以基于Kubernetes来构建自己的云原生应用与平台,Kubernetes成为了构...

性能压测工具选型对比

2019-07-02
阅读 7 分钟
本文是《Performance Test Together》(简称PTT)系列专题分享的第二期,该专题将从性能压测的设计、实现、执行、监控、问题定位和分析、应用场景等多个纬度对性能压测的全过程进行拆解,以帮助大家构建完整的性能压测的理论体系,并提供有例可依的实战。

揭秘|每秒千万级的实时数据处理是怎么实现的?

2019-06-21
阅读 5 分钟
闲鱼目前实际生产部署环境越来越复杂,横向依赖各种服务盘宗错节,纵向依赖的运行环境也越来越复杂。当服务出现问题的时候,能否及时在海量的数据中定位到问题根因,成为考验闲鱼服务能力的一个严峻挑战。

基于Knative开发应用

2019-06-17
阅读 4 分钟
目录 安装 Istio 安装 Knative 玩转 helloworld-go WordPress 实战 创建 Kubernetes 集群 确保 Kubernetes 集群创建的时候已经选择了启用日志服务 确保 Kubernetes 集群和 OSS 在一个 region Kubernetes 集群创建的时候需要开启 kube-apiserver 公网访问 提前帮用户配置好 kubeconfig 命令行 安装 Istio 安装 Istio 时注...