如今,如何保证互联网平台服务的可靠性和稳定性成为整个互联网行业面临的难题。谷歌提出的SRE(网站可靠性,本意是软件可靠性工程)方法被业界奉为解决这一难题的经典。

SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性(Reliability)展开的。“质量、成本、效率、安全”是运维不可或缺的4个要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。

Google最早在2003年就提出了SRE这个概念,历经了近20年的发展,SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。现有的中文SRE著作几乎都是引进自国外的译著,鲜有中国工程师结合自己的最佳实践来指导大家如何构建SRE工程。

如何构建高可靠性互联网应用?或许这里有个答案-LMLPHP

今天推荐一本**《SRE原理与实践:构建高可靠性互联网应用》**,作者是虎牙科技的SRE架构师张观石,他基于20余年的架构、研发和运维经验,用4年时间反复打磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。书籍得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。

主要内容

本书尝试系统性地讨论如何建立互联网软件可靠性工程体系。

  • 首先,本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程中的六种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。

  • 然后,本书通过这六种能力把可靠性相关的工作组织起来,比较清晰地描绘出互联网软件可靠性工程的体系全貌,并将六种能力对应到六个工作方向上。

  • 最后,本书深入探讨了各种能力如何建设、如何度量、如何改进等。本书也较为系统地总结了互联网软件可靠性工程的发展过程,参考了可靠性工程方法来讨论当前行业面临的突出问题,初步分析、总结了各种故障的规律,并提出了“可靠性是和故障作斗争”的观点。

【主要特点】

本书具有以下几个特点。

  • 整体性。本书较完整地介绍了互联网软件可靠性工程体系,并结合互联网平台软件的技术特点、业务特点,把互联网SRE相关工作总结为六种能力,帮助工程师快速理解SRE体系全貌。
  • 重视度量。书中对各种能力都进行了定性与定量的评估。度量才能真正了解现状,才能推动改进,才能见到改进的效果。
  • 从原理出发。本书较为全面地总结了互联网平台软件的故障特点和故障规律。研究规律是我们学习SRE相关工作的必经之路。通过研究规律,我们不仅可以积累经验,而且能更深刻地了解故障的本质。
  • 本书在写作时引用了大量虎牙直播的实践案例,这些案例对一些中小型平台建设应该有一定的参考价值。

【读者对象】

  • 互联网行业运维工程师、研发工程师、架构师
  • 关注软件系统可靠性的管理者
  • 关注软件可靠性的研究者、计算机专业师生等

如何构建高可靠性互联网应用?或许这里有个答案-LMLPHP

文末福利

本期福利送出《SRE原理与实践:构建高可靠性互联网应用》4本,详见 我的社区活动,或点击文章下方的微信公众号名片,guan注并回复【高可用】即可参与活动。
如何构建高可靠性互联网应用?或许这里有个答案-LMLPHP

03-30 17:16