双十一高可用背后的故障演练服务

价       格: 1.00
讲座评分: 评分不足
视频时长:57分钟
等 200 人参与
试看讲座
46 收藏

讲师信息

周洋,阿里巴巴高级技术专家,花名中亭。2011年加入阿里巴巴中间件&高可用架构团队,一直从事稳定性产品研发和架构升级的相关的工作,主导了高可用多款产品的研发和落地,见证了阿里高可用产品体系从1.0 到 3.0的发展历程,积累了丰富的架构和稳定性经验。 2015年作为共享事业部的大促 PM,负责大促和常态稳定性的保障工作。目前主要负责阿里高可用演练评测、业务审计领域,同时也在推进高可用产品技术在阿里云商业化输出部分的工作。

内容简介

主题:
为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011年到2015年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双11备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。


本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。

主题大纲:

  • 阿里技术架构和稳定性治理的整体情况
  • 技术和业务发展给稳定性带来的挑战及应对
  • 一些”血”的教训和反思
  • 故障演练服务的背景和技术实现
  • 阿里云高可用评测服务介绍

计划时长:45分钟

内容受众:企业的架构师、核心开发人员。

观众收获:通过本次分享,希望可以体系化的给大家介绍阿里稳定性保障遇到的问题,积累的方法经验,沉淀的体系和产品。提高受众者的稳定性。


2 条评价

magic007 · 2月4日

系统保障架构师都应该看下

载入中...
778184959 · 1月30日

讲得很好,阿里的技术设计理念果然很大气

载入中...

SegmentFault 讲堂是什么?

SegmentFault 讲堂是以开发者为中心的视频演讲平台。 旨在和开发者一起分享和创造有价值的技术内容。 目前讲堂主要有视频观看,下载相关文档以及和主讲人聊天互动的功能。

关注 SegmentFault 服务号

  • 订阅讲堂开播提醒
  • 及时获取更多直播动态

添加 SF.GG 讲堂粉丝 QQ 群

  • 群号码:642336612(备注 SF 用户名)
  • 不定期获取讲座优惠信息,随时和开发者交流互动