蓝绿发布,红黑发布和灰度发布是什么

Source

各种部署方式的定义

我们先来看看蓝绿部署(Blue-green Deployment)、红黑部署(Red-black Deployment)和灰度发布(Gray Release ,或 Dark Launch)的定义和流程吧。

蓝绿部署

蓝绿部署,是采用两个分开的集群对软件版本进行升级的一种方式。它的部署模型中包括一个蓝色集群 A 和一个绿色集群 B,在没有新版本上线的情况下,两个集群上运行的版本是一致的,同时对外提供服务。

系统升级时,蓝绿部署的流程是:

首先,从负载均衡器列表中删除集群 A,让集群 B 单独提供服务。然后,在集群 A 上部署新版本。

接下来,集群 A 升级完毕后,把负载均衡列表全部指向 A,并删除集群 B,由 A 单独提供服务。

在集群 B 上部署完新版本后,再把它添加回负载均衡列表中。

这样,我们就完成了两个集群上所有机器的版本升级。

红黑部署

与蓝绿部署类似,红黑部署也是通过两个集群完成软件版本的升级。

当前提供服务的所有机器都运行在红色集群 A 中,当需要发布新版本的时候,具体流程是这样的:

先在云上申请一个黑色集群 B,在 B 上部署新版本的服务; 等到 B 升级完成后,我们一次性地把负载均衡全部指向 B;

把 A 集群从负载均衡列表中删除,并释放集群 A 中所有机器。

这样就完成了一个版本的升级。

可以看到,与蓝绿部署相比,红黑部署只不过是充分利用了云计算的弹性伸缩优势,从而获得了两个收益:一是,简化了流程;二是,避免了在升级的过程中,由于只有一半的服务器提供服务,而可能导致的系统过载问题。

至于这两种部署方式名字中的“蓝绿”“红黑”,只是为了方便讨论,给不同的集群取的名字而已,通过不同颜色表明它们会在系统升级时运行不同的版本。

灰度发布

灰度发布,也被叫作金丝雀发布。与蓝绿部署、红黑部署不同的是,灰度发布属于增量发布方法。也就是说,服务升级的过程中,新旧版本会同时为用户提供服务。

灰度发布的具体流程是这样的:在集群的一小部分机器上部署新版本,给一部分用户使用, 以测试新版本的功能和性能;确认没有问题之后,再对整个集群进行升级。简单地说,灰度发布就是把部署好的服务分批次、逐步暴露给越来越多的用户,直到最终完全上线。

之所以叫作灰度发布,是因为它介于黑与白之间,并不是版本之间的直接切换,而是一个平滑过渡的过程。

之所以又被叫作金丝雀发布,是因为金丝雀对瓦斯极其敏感,17  世纪时英国矿井工人会携带金丝雀下井,以便及时发现危险。这就与灰色发布过程中,先发布给一部分用户来测试相似,因而得名。

好了,以上就是几种有颜色的部署发布方式了。如果你还有哪些地方理解得不够透彻,可以去网络上搜索相关文章,或者直接给我留言吧。接下来,我将继续按照黄金圈法则,来帮助你深入了解这些部署、发布方式的 Why、How 和 What。

蓝绿、红黑部署和灰度发布的 Why

究其根本,这些部署、发布方法,是为了解决频繁发布的生产模式带来的两个问题:

减少发布过程中新旧服务切换造成的服务停止时间。蓝绿部署和红黑部署都能实现无宕机时间部署(0 downtime deployment)。

控制新版本发布因为质量问题带来的风险。灰度发布就是一个例子。

蓝绿红黑灰度发布的 How

实现这两个目标的基本原则,是把服务上线过程拆分为部署、发布和发布后 3 个阶段,并

充分利用这 3 个阶段的特点来提高服务上线的效率、质量和安全性。

这 3 个阶段的详细定义和特点分别是:

部署(deploy),指的是我们把一个代码包拷贝到服务器上运行,但并不把它暴露给用  户,也就是并不给用户提供服务。这个阶段比较耗时,但因为还没有面向用户,所以风险很小。

发布(release),是把部署好的服务暴露给用户的过程,也就是开始真正上线服务用户  了。这个过程可以通过负载均衡的切换很快实现,但风险很大,一旦出现问题损失就会比较大。

发布后(post-release),指的是服务完全上线以后的阶段。因为产品已经完全上线,我们的主要工作不再是预防,而是变成了监控和降低损失。

以红黑部署为例,从开始在新生成的集群 B 上部署新的版本,到线上的流量通过负载均衡指向 B 之前,是处于部署阶段;而负载均衡从 A 指向 B 的过程,就是发布阶段;等到负载均衡完全指向 B 之后,就进入了发布后阶段。

部署、发布、上线这几个名词,其实区分不太明显,我们平时在讨论服务部署上线时,也经常会混用。在这里,我之所以要和你明确区分这几个阶段,是因为我们可以针对每个阶段的特点来实现两个目标:

提高上线产品的效率,也就是减少发布过程中新旧服务切换造成的服务停止时间。提高上线产品的安全性,也就是控制新版本引入的质量问题。

蓝绿、红黑部署和灰度发布 What

关于提高上线产品的效率,实践主要有两个:一是利用负载均衡切换线上流量,二是使用功能开关切换线上流量。这两种方法都比较简单。

而提高上线产品的安全性,相对来说就比较复杂了,但又很重要。因为在敏捷、持续交付等开发模式愈发流行的今天,产品的研发节奏越来越快,我们必须在上线过程中,在生产环境上进行更多的测试,以保证产品质量。