通过有目的的混乱来增强弹性:Gremlin的“故障即服务”平台可帮助工程师主动避免灾难

TL; DR: Gremlin的混乱工程技术使用户能够安全,主动地识别系统中的缺陷,并在问题出现之前进行修复。通过以各种方式对系统施加压力,该公司最终将故障转化为弹性。利用Gremlin社区提供的其他资源,该公司正在为全世界的用户创造机会来构建更可靠的软件.


尽管似乎有悖常理,以可靠性的名义破坏了您的技术,但一种新的DevOps方法建议这样做。混沌工程是一种向系统中注入危害以发现弱点的规范方法,它正在影响我们改善软件工程领域可靠性的方式.

实际上,该学科的知名度在过去几年中猛增。就在十年前,当Kolton Andrus以软件开发工程师的身份加入亚马逊时,这种方法仍缺乏正式名称.

“我的第一个项目之一就是对基础架构进行主动故障测试的想法,”科尔顿说。 “我们完成了作业,并构建了一个强大的自助服务系统,其中包含许多不同的故障模式,API,用户界面-整个范围。”

事实证明,该系统能够帮助开发人员识别并解决网络分区和一致性方面的弱点,从而提高了正常运行时间和可用性。四年后,科尔顿将他在亚马逊上学到的知识带到了Netflix,在那里他专注于为应用程序构建主动的故障测试平台。根据Kolton的说法,这种努力将正常运行时间从99.9%降低到99.99%.

格林姆林徽标

Gremlin帮助企业主动消除风险,防止代价高昂的失败.

Kolton看到了他在亚马逊和Netflix上的早期成功-以及该行业向云和容器化的转变-表明有迹象表明,混乱的工程技术将作为一种服务而变得有价值。 2016年,他与亚马逊前同事Matt Fornaciari携手合作,共同创立了Gremlin.

安全可靠地识别系统中的弱点

科尔顿说,格雷姆林的工程团队由来自亚马逊,谷歌,Netflix和Dropbox等公司的顶尖人才组成。该公司花费了第一年的时间来构建Gremlin平台,将其掌握在客户手中,征求反馈并根据需要进行修改。第二年专注于内部扩展,员工人数从十几人激增至近75人.

科尔顿说:“现在,我们正处于市场开放的时刻,人们正在拥抱混沌工程学的想法。” “我们正在进行第三次构建优质产品,并真正帮助客户解决其痛点。”

格林姆林吉祥物

使用Gremlin可以安全,轻松地发现系统中的弱点,以免出现问题.

科尔顿说,这不再是企业是否应该采用混乱工程的问题,而是如何操作的问题。这就是格雷姆林进来的地方.

他说:“当我们进入更广阔的市场时,我们正在与在该领域没有太多经验的工程师交谈,他们真正寻找的是指导。” “而且我认为这对我们来说很棒,因为我们共同知道我们如何实现我们在亚马逊,Netflix,Google或Dropbox上所做的工作,现在我们正在使其在’普通’公司工作。”

格雷姆林(Gremlin)的混乱工程平台利用不断增长的攻击库来重新创建企业在生产中可能遇到的几乎任何故障场景,并揭示了被测技术在面对故障时的表现。该过程非常简单:如果在测试过程中发生意外情况,Gremlin的安全功能将自动终止实验并默认为稳定状态.

建立弹性系统并防止代价高昂的停机

毫无疑问,停机对在线市场日益增长的企业构成了重大威胁。根据研究公司Gartner的估计,网络停机的平均成本为每分钟$ 5,600,相当于每小时高达$ 300,000.

除了财务费用外,它还浪费时间。科尔顿说:“我最近在美国东海岸的一家金融服务机构讲话,这使75名工程师打了电话。” “不管通话持续了多长时间,它的成本都非常高-然后需要花费时间和精力来寻找根本原因,以确保不再发生。”

借助Gremlin之类的工具,企业可以使用安全网运行模拟事件,以防万一出问题。主动的方法有助于防止代价高昂和声誉受损的停机。如果出现问题,最好做好准备.

在平台内工作的gremlin的描述

该平台还可以用作强大的培训工具.

科尔顿说:“凌晨两点,当您在电话中给副总裁打电话时,您不想问一个愚蠢的问题。” “但是在一天当中,您有机会针对任何情况进行练习。”

科尔顿说,对数字转型的投资并不便宜,例如迁移到云或采用Kubernetes,而Gremlin的目标是帮助保护它们。例如,在2019年3月11日的博客文章中,该公司解释说,计划迁移到云的组织应采用混乱的工程技术来测试流量切换后系统的行为方式。这样做将大大减少意外故障和停机的可能性.

在Gremlin社区中挖掘其他资源

Kolton告诉我们,Gremlin致力于饮用自己的香槟酒-经常用这句话来表示公司是否对自己的商品有足够的信心使其可以在内部使用.

他说:“我们是一家专注于可靠性的公司,因此我们最好拥有可靠的产品。” “为确保我们处于领先地位,我们会进行完整的故障测试,以在我们的产品发布之前对其进行加固。”

Gremlin知道并非每个人都对在生产中进行实验充满信心。 Kolton告诉我们,很多企业都在关注与可实现性相关的地位.

他说:“他们通常会有点胆小,因为他们认为自己太落后了。” “我要告诉行业的一件事是,我们都在同一个战场上奋斗:我们中的许多人很早就处于同一位置,并且正在朝着前进的方向努力。”

科尔顿说,他很乐意达到企业愿意讨论其失败的开放态度,以便整个行业可以从他人的错误中吸取教训。为此,Gremlin社区提供了企业共同构建更具弹性的系统所需的资源和建立关系的机会.

在动手教程,全球赞助的聚会,鼓舞人心的演讲以及富有吸引力的讨论论坛之间,这些资源鼓励了业界之间的合作。请务必关注即将举行的会议,网络研讨会等,以获取您附近的机会.

从实际中断中复制并学习

Gremlin目前正在为Chaos Conf做准备,Chaos Conf是一场面向混沌工程从业者和开发人员的包容性行业活动,将于2019年9月26日在旧金山举行.

该活动还将以Google SRE总监Dave Rensin的主题演讲为特色; CondéNast工程与云平台副总裁Crystal Hirschorn;和科尔顿本人,另外还有一些会议探讨了混沌工程的各个方面.

科尔顿说,Gremlin还宣布了一项新功能,该功能将使用户能够构建自己的攻击库,以帮助重现真实世界的停机情况。他说:“敬请期待9月份的重大公告。”.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me