AIOps 一场颠覆传统运维的盛筵

2018-05-28
阅读 2 分钟
2.1k
“颠覆传统运维。”是 OneAPM CEO 陈旭经常挂在嘴边的一句话。为什么说 AIOps 将颠覆传统运维?如何才能把人工智能和运维管理相结合并落地?2018年5月,OneAPM 推出了全新的 AIOps 平台 Intelligence Insight(简称 I2)并正式启用 aiops.com 域名作为企业级运维产品的官方网站。I2 是一个面向企业级 IT 运维管理现状,将多年...

详解 OneAlert 排班可以帮你做什么

2018-05-15
阅读 2 分钟
3.2k
排班的存在,实质是通过有序安排,降低企业/团队人力成本,提升工作效率。 1、详解排班功能 轮班机制 工作时间 双视图展示 灵活调整 2、利用排班如何助力运维团队 排班策略让告警更精准分派到人 PDCA 戴明环优化排班策略 3、总结 1、详解排班功能 轮班机制 OneAlert 分派功能已经解决了将某类告警分派给相关负责人的问题...

对抗告警疲劳的8种方法

2016-06-22
阅读 2 分钟
2.2k
各司其职、孤军作战非常不利于团队沟通,一旦发生重大事件,各个部门就很难掌握事件始末,这不仅降低了整个开发团队的沟通质量,而且对运维工作也造成了极大困扰,即告警疲劳。告警疲劳不仅会影响团队成员的工作情绪,而且会阻碍软件交付链的成长。

有效运维的 on-call 机制

2016-06-20
阅读 4 分钟
3.5k
编者按]本文作者为陈伯龙,云告警平台[OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。 正文 互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理: 突发紧急事件太多,疲于应付,团队士气低下,效率不高。 重要事情...

DevOps 发展融合运维可视化

2016-05-10
阅读 4 分钟
3.1k
DevOps,是开发(Development)和运维(Operations)的组合,代表一种文化、运动或实践,旨在促进软件交付和基础设施变更软件开发人员(Dev)和 IT 运维技术人员(Ops)之间的合作和沟通。它的目的是构建一种文化和环境使构建,测试,发布软件更加快捷,频繁和可靠。

文章用手,产品用心

2016-04-29
阅读 2 分钟
1.8k
自我介绍下,小编是 IT 公司的运维人员,也就是盛传的背锅者。网站打开慢,找运维;网站打不开,找运维;用户投诉,找运维······偏偏这些问题都是由小及大的问题,一旦不及时发现就会造成非常严重的后果。

机器学习在 IT 运维管理中的必要性!

2016-04-19
阅读 2 分钟
2.6k
机器学习技术在监控工具中的应用已经成为 IT 运维与 DevOps 团队的一大热点话题。尽管相关的使用案例很多,对 IT 团队而已真正的「杀手级应用」是机器学习如何提高实时事件管理能力,从而帮助较大规模的企业提高服务质量。对此,关键在于在用户发现问题之前提早探测异常,进而减少生产事故与中断的负面影响。

时间序列数据库武斗大会之 KairosDB 篇

2016-04-11
阅读 8 分钟
2.8k
【编者按】刘斌,OneAPM后端研发工程师,拥有10多年编程经验,参与过大型金融、通信以及Android手机操作系的开发,熟悉Linux及后台开发技术。曾参与翻译过《第一本Docker书》、《GitHub入门与实践》、《Web应用安全权威指南》、《WEB+DB PRESS》、《Software Design》等书籍,也是Docker入门与实践课程主讲人。本文所阐...

初创公司谁来当你们的运维

2016-04-08
阅读 2 分钟
2.2k
运维,哎,多么沉重的话题,初创公司的运维,哎,还能愉快的聊天吗? 初创公司的运维,如今其实兼技术支持、系统管理员(SA)、网管、网络工程师、研发工程师、架构师,干着这些看似不相干甚至矛盾的工作。 他们的具体工作? 在办公室中安装系统、帮同事排除机器故障 在机房插网线、搬机器、拆服务器箱子 天天盯着N个监...

仪表盘 hostmap 新玩法让运维工作越玩越 high

2016-03-23
阅读 3 分钟
2.5k
Cloud Insight 第13次新品发布会现在开始,首先非常感谢大家前来看我们的新功能发布会,下面我先给大家介绍一下新功能,之后有什么问题大家尽管问?。 新功能 Cloud Insight 发布 4.4.0 版本,主要增加以及修复以下功能: 增加仪表盘标记线 增加仪表盘数据表现形式 增加仪表盘 rate 指标 增加 hostmap 无限分组功能 增加...

从零开始运维之旅:如何监控你的 Windows?

2016-03-16
阅读 2 分钟
2.1k
小弟乃刚刚踏入运维圈的资深小白一枚,正所谓完事开头难,公司里怕我把生产系统搞坏就让我先在测试环境上先练练手。巧的是测试环境又是我熟悉的 Windows 环境,心中窃喜啊。但问题随之而来,运维从何下手呢。

时序列数据库武斗大会之什么是 TSDB ?

2016-03-10
阅读 5 分钟
3k
由于工作上的关系,最近看了一些关于时序列数据库的东西,当然,我所看的也都是以开源方案为主。趁着这股热劲还没退,希望能整理一些资料出来。如果正好你也有这方面的需求,那么希望这一系列的介绍能够帮助到你。

让我偷偷的告诉你:运维加薪的杀手锏是啥?

2016-01-25
阅读 2 分钟
1.7k
第一、有备而战,一切让业绩说话 不要和老板大谈你正在贷款,买车、买房。。。你必须向公司证明你值得加薪,用数据来证明你的业绩显然是再明智不过的。

告警分析:如何帮助运维团队快速做出最佳决策?

2016-01-19
阅读 2 分钟
1.9k
公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会导致工作效率的下降。改善的方法有很多,比如团队内部多一些沟通,然而沟通的成本也是非常高的。解决问题应该从源头出发,治标不治本的方法...

MTTR是什么?或者说为什么别给婴儿喝白兰地

2016-01-18
阅读 2 分钟
1.8k
在团队纷纷谈起工作效率的时候,对运维工作者,他们通常喜欢用「故障的平均解决时间」来衡量团队的工作效率。然而这往往是不正确的。一个迅速解决大量突发事故的团队十分高效,而实际上这更有可能意味着该团队的基础设施十分脆弱易损。那我们应该使用什么标准来衡量团队的工作效率呢?

「技术大牛」是如何缩短事件平均解决时间的?

2016-01-07
阅读 2 分钟
2.6k
MTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。经过仔细地探讨这两项因素及其优先级,结合具体情况,总结以下策略用来缩短MTTR:

用数据说话的运维年度总结该怎么写?

2016-01-06
阅读 2 分钟
2.3k
年关将至,又要写年终总结了,运维的工作庞杂又繁琐,一不小心工作总结就写成了流水账,让老板看不出你的成绩不说给再给老板留下不好的印象就更苦不堪言了......

对抗不可执行告警的四种措施

2015-12-30
阅读 2 分钟
2.1k
对于运维团队而言,很多告警其实并不能帮助他们解决掉实际的问题,相反有时会加重多余的负担,这主要是因为大多数的告警并不具备足够的可执行性: 它们指出的问题压根儿不需要响应 它们缺少关键的信息,迫使你需要花费很长的时间去寻找更多的源头,用以来估量它们的紧迫性 过量的不可执行告警会造成告警疲劳,浪费时间和...

超级 Ping 监测工具——为您的网络状态保驾护航

2015-12-29
阅读 3 分钟
5.9k
Ping 是一个网络命令,主要是用于确定本地主机是否能与另一台主机交换(发送与接收)数据。根据返回的信息,就可以推断 TCP/IP 参数是否设置得正确以及运行是否正常。正常情况下,Ping 将返回若干个参数,丢失率为 0,当网络状态不佳或网络中断的情况下,Ping 操作将无法正常返回 TTL 参数(显示请求超时或其他 bug )。

五大理由分配你的告警

2015-12-29
阅读 1 分钟
2k
OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。

五种令人沮丧的告警垃圾及处理办法!

2015-12-24
阅读 2 分钟
1.8k
在 OneAlert,我们经常与运维团队聊天。因为产品开发过程中,这样的对话有助于了解客户的真正痛点。「告警垃圾」——监控系统中时常涌现的告警洪流,是运维团队经常提到的一大痛处。

如何把关联性的告警智能添加到 Nagios 上?(2)

2015-12-22
阅读 2 分钟
2.5k
对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒。一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性;但是另一方面,Nagios 也能够生成超级多的告警,对于任何一个运维人员或是运维团队来说都是 hold 不住的。

为什么Nagios会那么吵?你又能做些什么呢?(1)

2015-12-17
阅读 2 分钟
1.9k
运维人员都有着独立的监控工具,因此会经常受到 Nagios 告警吵闹的影响。很多运维人员对 Nagios 都是爱恨交加的,Nagios 给了你实时的可见性,可以了解你的 IT 基础设施的内部运作。用 Naigos,你可以辨认出哪一台主机内存不足,哪台服务器会占用太多 CPU 周期,哪一个应用由于访问时间太长而跳转离开。你也能够足够早的...

如何让运维指标变得更有价值?

2015-12-15
阅读 2 分钟
3.1k
这是《运维不容错过的4个关键指标》的姐妹篇,上篇文章介绍了优秀运维团队需要关注的4个关键指标,我们分享了平均恢复时间 MTTR、平均响应时间 MTTA 等概念。这篇是介绍一些实践方法,更好的使用工具进行优化以上指标。

周末“干活”之 Mesos Meetup

2015-12-03
阅读 6 分钟
2.3k
非常感谢 Linker 的 Sam Chen 和 数人科技 的 CTO 共同组织的Mesos Meetup,OneAPM 最帅的 Docker 工程狮~陈亮与 Linker Networks、爱奇艺、PingCAP,浙江移动 的程序猿们一起分享了在 Mesos 技术栈的实践。

运维不容错过的4个关键指标!

2015-12-03
阅读 3 分钟
5.3k
很难说,生活在这个数据大爆炸的时代对运维同学是福还是祸。灵活的监控系统、开放 API 和易用的数据可视化资源可以将任何想要的数据图表化地显示出来,但是,过多的数据容易产生干扰,反而不利于具体信息提取和操作。

运维 2.0 时代:数据聚合和分组

2015-11-13
阅读 3 分钟
2k
运维 2.0 是指,从技术运维升级为服务运维,向公司提供可依赖的专业服务。运维 2.0 强调服务交付能力,而不是技术能力,需求可依赖、懂业务、服务化的专业运维。

谈 DevOps 自动化时,也应该考虑到 SOX 等法案

2015-10-26
阅读 2 分钟
2.1k
【编者按】作者 Aaron Volkmann 是 CERT Division 高级研究员,在本文中,他对 DevOps 自动化违反 SOX 法案进行了阐述。同时,也简单的提出了如何通过 CI 来避免这个问题,本文系OneAPM工程师翻译。

数据聚合 & 分组:新一代系统监控的核心功能

2015-10-22
阅读 4 分钟
2.3k
相信使用过 OpenTSDB 或者 InfluxDB 的人都知道标签的存在:Tag。这也是为什么越来越多 Zabbix 或者 Nagios 用户迁移至 OpentsDB 来自建运维监控系统的原因。

荣誉,还是苦逼?| 也议全栈工程师和DevOps

2015-10-16
阅读 4 分钟
5.3k
引言 全栈工程师(本文称「全栈」开发者)和 DevOps 无疑是近期最火的词汇,无论是国外还是国内。而且火爆程度远超于想象。 全栈和 DevOps,究竟是我们的新职业方向,还是仅仅创业公司老板的心头所爱?且听本文理性分享。 Anyway,文末附赠 9 家把 DevOps 搞得风生水起的国外公司及更多信息。本文系 OneAPM 联合高效运维...