谷歌如何确保自己的服务连续运行,并且看起来似乎永远不会出错?如果你也纳闷过这个问题,谷歌存储SRE总监在活动中通过一场名为的演讲向我们揭示了其中的诀窍。
Melissa的演讲虽然简短但却充满智慧和干货,让人觉得如果自己的服务停机了肯定会想要向Melissa寻求帮助。
哦,那么SRE是什么?SRE代表Site Reliability Engineering(站点可靠性工程),不过具体的定义似乎有些难以理解,这种问题的答案有些类似于当你询问“道教”的定义时获得的那种答案。SRE更像是一种过程而非一种具体的实体,谷歌副总裁Ben Sloss对SRE的定义是:
当软件工程师需要承担所谓的“运维”这项任务后所发生的事。
来源: http://www.infoq.com/cn/articles/how-google-build-a-global-infrastructure