SPEAL FOR FASHION

 

GOOGLE SRE 起源

 

SRE最早的起源是Apollo 7 飞船研发的事故,一场软件执行的失败案例。一位小朋友在参观过程中,意外触发,导致整个模拟过程失败,基于SRE的直觉,Margaret教授提交了软件改进建议。不过当时所有人,包括NASA管理层、工程师团队,都认为这是一个低级错误,不值得修改,从而否决了建议。几天后,飞船运行操作失误,导致故障真的触发了,航天员参考了Margaret之前更新的手册,在有限的时间内解决了问题,才得以避免灾难的发生。世界上第一个SRE诞生了。

 

Google的解决之道:SRE

 

相信运维的小伙伴都有这样的矛盾,在工作中是追求更敏捷、更快地响应速度好,还是保证业务稳定安全更好呢?

Google的解决之道:SRE。

面对同样的问题,Benjamin Sloss Treynor,Google的这位副总裁,找到了解决方法,他组织了一个新的团队,也就是SRE团队。团队有50%~60%的软件工程师,其他成员是具备85%~99%软件技能且具备一定程度其他技能(UNIX和网络)的工程师。

这种模型有三种优势:

第一,运维人数相对少;

第二,开发团队和运维团队的冲突焦点消除,从两个团队变成一个团队,遇到问题,大家一起想办法解决;

第三,SRE团队和研发团队之间的成员可以自由流动。

实践证明,这个模型很有效。

具体是怎么做的呢?我们来看看SRE方法论的内容。

 

 

GOOGLE SRE 方法论的内容

 

* 确保长期关注研发工作。

* 在保障SLO(服务级别目标)的前提下最大化迭代速度。

* 做好监控系统,能够实时发现异常,判定如何快速处理。

* 做好应急事件处理。监控系统做的再好,一旦发现了应急事件,也要做好相应的处理。

* 做好变更管理。如果没有变更,就无法进行迭代,如果持续性迭代,就会有风险。

* 需求预测和容量规划。互联网下的需求是弹性的、可变的,不是非常平稳,要主动规划容量。

* 资源部署。

* 效率与性能。在确保高可用情况之下,保证效率与性能。

 

Google SRE 价值

 

Google SRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破。

SRE模型包含一套指导思想、一套方法论、一套激励方法、一个拥有广阔空间的独立职业。由于Google的独特地位,SRE模式不宜照搬,但可以深度模仿或借鉴。

 

 

小伙伴们想不想了解更多Google SRE的知识?

本周四晚上8:00,我们就邀请了该领域的大咖——刘峰老师。

刘老师是互联网IT管理领域资深实战专家,具备超过15年IT服务管理以及开发运维一体化咨询领域工作和讲师经历。作为国内SRE第一批实践者,具备甲方乙方、外企国企的咨询经验。为招商银行、平安银行、华夏银行、国家开发银行、上海银行、郑州银行、IBM、中国惠普、埃森哲、中国移动、中国电信等提供过专业服务。

 

 

感兴趣的小伙伴可以扫描上方海报二维码报名。名额有限,先到先得!

 

“谷歌SRE(站点可靠性工程)”大咖讲座来啦!

创建时间:2021-06-08 16:34
关于学院