SRECon17 第一天下来的感觉就是高大上, 组织者 USENIX ( Advanced Computing Systems Association )高大上,赞助商们(谷歌, LinkedIn ,微软, Netflix , Facebook , Twitter , Hulu , Spotify 等)高大上,更高大上就是会议地点旧金山 CA ,美的让人乐不思“京霾”了。

——来自 SRECon 数人云前线工程师

——九曲花街俯视旧金山城

——金门大桥

——集装箱,职业病第一反应是 Docker...

—— LinkedIn 展位,送 T 恤喽

—— Google 展位

言归正传,我是来参会的...

《 So You Want to Be a Wizard 》

首先,开场就是一位女性 SRE 带来的精彩演讲《 So You Want to Be a Wizard 》,主要讲述自身从 DevOps 向 SRE 转变的愉快心路历程。

必须表扬的就是女生 slides 特殊画风,通篇都是手写和漫画风,像这种:

还有这种:

在分享中 Julia 提到了她是如何通过 tcpdump 和 wireshark 搞定 HTTP 慢请求这样一点儿一点儿地积累技术,以及在设计小项目和参与项目开发的过程中,从自己的体验和别人的反馈中了解到文档重要性等等工程经验。更重要的是 Julia 适应和喜欢去搞定 why 的部分,也慢慢积累信心去参与“创造”的过程,感觉成为 SRE 就有点儿像会了魔法。

最后,分享一下她的“魔法”技能列表:

接下来的会议是三个分会场同时进行的,基本上都是围绕着 SRE 的日常来展开的,包括流量控制,自动 Debug 部署问题,快速发布,运维海量容器,监控报警,线上 Profiling 等各个方面的内容。

《 Ten Persistent SRE Antipatterns 》

强力推荐来自 Netflix 的 《 Ten Persistent SRE Anti-patterns: Pitfalls on the Road to a Successful SRE Program Like Netflix and Google 》,

原因是在旧金山听了场精彩绝伦的“相声”,由 Jonah Horowitz ( Netflix )和 Blake Bisset 共同完成,不分捧逗。

图上的内容简单翻译一下就是:我怎么看那些显示监控数据的显示器,或者说我应该怎么跟我的老板解释这些钱都白花了?

再比如:

是的,你没看错,就是发哥在烧钱。

这两张是他们讲到可靠性到底应该几个九的时候用的图,大家自己体会下,反正这种黑色幽默我本人是很受用的,感兴趣的一定记得等视频出来。

玩笑归玩笑,这个分享里的确包含了来自国外 SRE 先行者们在一线遇到的很多问题,包括引入容器后带来的 pets vs cattle 甚至像 vs poultry (鸡鸭)这样的运维方式和思路的变化,也提到了 SRE 视角的 7x24 oncall 正确姿势,到底应该 alert 什么, alert 出现 SRE 被半夜叫醒之后的流程和预期到底是什么,还有像雇佣 SRE 的成本考量, 所有这些内容, Boss 们也值得一听。

《 I ’ m an SRE Lead! Now What?》

当然,正统的方法论高手也是有的,那就是来自 IBM Bluemix 的 《 I ’ m an SRE Lead! Now What? How to Bootstrap and Organize Your SRE Team 》

典型的 IBM 方式,从管理者开始,讨论如何组建 SRE 团队,如何同开发小组合作,如何平衡 SRE 自身开发和运维的时间分配等等。讲究的是不断明确各个角色的权责,融入敏捷过程,使用各种工具,所有的事件响应设计好各种流程。

站在管理者的角度,如果你正准备落地 SRE ,这些内容可能是一种参考。注意这里我的用词,可能是,毕竟这些都是带有强烈 IBM 基因的东西。

回想这一天听到的内容,如果是按照在国内参加各种面向纯开发者的技术会议的标准来说,那可能整体上没有想象中干货。但是,转念一想,毕竟是 SRE 的会议,并不是纯开发者,也不是面向开发者的,所以不能按以往的经验来衡量。

重新调整过预期和标准后再总结这一天,发现其实内容是很丰富同时也是很有收获的。

好了,今天的小结就是这些了,更多精彩内容明天继续,我北京背来的泡面都凉了。对了,我拍到国外工程师发髻线也!很!高!

SRE 相关阅读:

活动实录 | 京东金融 PE 谈如何颠覆应用运维认知

SRE :文化传奇不完全指南?

SRE 第一课: New to an SRE team?

SRE 系列教程 | 基于时间序列数据的监控实践

人永远不够用——在复旦大学分享 SRE 团队组织和管理

SRE 系列教程 | 孙宇聪:来自 Google 的 DevOps 理念及实践(上)

SRE 系列教程 | 孙宇聪:来自 Google 的 DevOps 理念及实践(下)


优云数智
1.3k 声望267 粉丝

优云数智(上海优铭云计算有限公司)是一家专注于提供企业级私有云产品与解决方案的云计算厂商,提供PAAS+IAAS的一站式解决方案,团队核心成员来自Google、华为、Mirantis、盛大云等一流云计算公司,公司总部位于...