This is an automated email from the ASF dual-hosted git repository. juzhiyuan pushed a commit to branch master in repository https://gitbox.apache.org/repos/asf/apisix-website.git
The following commit(s) were added to refs/heads/master by this push: new cd31f02 docs: added Chaos Mesh helps Apache APISIX improve stability blog (#369) cd31f02 is described below commit cd31f026ee20f4680f7d662681b7c4d11a9a778f Author: Serendipity96 <justserendipit...@gmail.com> AuthorDate: Fri Jun 18 14:55:24 2021 +0800 docs: added Chaos Mesh helps Apache APISIX improve stability blog (#369) Co-authored-by: 琚致远 <juzhiy...@apache.org> --- .markdownlint.yml | 4 ++ ...s-Mesh-helps-Apache-APISIX-improve-stability.md | 67 +++++++++++++++++++++ website/static/img/blog_img/2021-06-16-1.png | Bin 0 -> 490716 bytes website/static/img/blog_img/2021-06-16-2.png | Bin 0 -> 836754 bytes 4 files changed, 71 insertions(+) diff --git a/.markdownlint.yml b/.markdownlint.yml index 64ebbc0..9811d56 100644 --- a/.markdownlint.yml +++ b/.markdownlint.yml @@ -4,6 +4,10 @@ MD013: false # MD014 Dollar signs used before commands without showing output MD014: false +# MD024 Multiple headings with the same content +MD024: + siblings_only: true + # MD026/no-trailing-punctuation Trailing punctuation in heading MD026: false diff --git a/website/blog/2021-06-16-Chaos-Mesh-helps-Apache-APISIX-improve-stability.md b/website/blog/2021-06-16-Chaos-Mesh-helps-Apache-APISIX-improve-stability.md new file mode 100644 index 0000000..bb4ea95 --- /dev/null +++ b/website/blog/2021-06-16-Chaos-Mesh-helps-Apache-APISIX-improve-stability.md @@ -0,0 +1,67 @@ +--- +title: "Chaos Mesh 助力 Apache APISIX 提升稳定性" +author: Yiyiyimu +authorURL: "https://github.com/Yiyiyimu" +authorImageURL: "https://avatars.githubusercontent.com/u/34589752?v=4" +--- +> [@Yiyiyimu](https://github.com/Yiyiyimu),Apache APISIX committer from [Shenzhen Zhiliu Technology Co.](https://www.apiseven.com/) +> + +<!--truncate--> +Apache APISIX 是 Apache 基金会下的顶级项目,目前在生产环境中已经通过每日几百亿次请求量的考验。随着社区的发展,Apache APISIX 的功能越来越多,需要与外部组件产生的交互也越来越多,随之而来的不确定性呈指数级增长。在社区中,我们也收到了用户反馈的一些问题,这里举两个例子。 + +#### 场景一 + +在 Apache APISIX 的配置中心, etcd 与 Apache APISIX 之间出现意外的高网络延迟时,Apache APISIX 能否仍然正常运行进行流量过滤转发? + +#### 场景二 + +用户在 issue 反馈,当 etcd 集群中的一个节点失效而集群仍然可以正常运行时,会出现与 Apache APISIX admin API 交互报错的情况。 + +尽管 Apache APISIX 在 CI 中通过单元 / e2e / fuzz 测试覆盖了大部分情景,然而尚未覆盖到与外部组件的交互。当发生网络波动、硬盘故障、或是进程被杀掉等难以预料的异常行为时,Apache APISIX 能否给出合适的错误信息、是否可以保持或自行恢复到正常的运行状态呢?为了测试覆盖到用户提出的场景,以及在投入生产环境前主动发现类似的问题,经过社区讨论决定使用 PingCAP 开源的混沌工程平台 Chaos Mesh 进行测试。 + +混沌工程是一种在系统基础设施上进行试验,主动找出系统中的脆弱环节的方法,从而确保系统具有抵御生产环境中失控环境的能力。混沌工程最早由 Netflix 提出,用以模拟从而抵御早期云服务的不稳定性。随着技术的演进,现在的混沌工程平台提供了更多种类的故障可供注入,依靠 Kubernetes 也可以更方便地控制故障半径。这些都是 Apache APISIX 选择 Chaos Mesh 的重要原因,但作为开源社区,Apache APISIX 深知只有活跃的社区才能确保软件稳定使用和快速迭代,而这也是 Chaos Mesh 更加吸引人的特点。 + +### 如何在 APISIX 上应用混沌工程 + +混沌工程在单纯的注入故障以外,逐渐形成了一套完整的方法论。根据 Principle of Chaos Engineering 的推荐,部署混沌工程实验需要五个步骤: + +1. 定义稳态,即找到一个证明正常运行的可量化指标。 +2. 做出假设,假设指标在实验组和对照组都始终保持稳定状态。 +3. 设计实验,引入运行中可能出现的故障。 +4. 验证假设,即通过比较实验组和对照组的结果证伪假设。 +5. 修复问题。 + +接下来以上述两个用户反馈场景为例,依照这五个步骤为大家介绍 Apache APISIX 应用混沌工程的流程。 + +#### 场景一 + +![2021-06-16-1](../static/img/blog_img/2021-06-16-1.png) + +用一幅图来描述这个场景。对照上面的五个步骤,首先需要找到衡量 Apache APISIX 正常运行的可量化指标。在测试时最主要的方法是利用 Grafana 对 Apache APISIX 运行指标进行监测,找到可衡量的指标后,在 CI 中就可以从 Prometheus 中单独提取数据进行比较判断,这里使用了路由转发的 Request per Second(RPS)和 etcd 的可连接性 作为评价指标。另一点就是需要对日志进行分析,对于 Apache APISIX 就是查看 Nginx 的 error.log 判断是否有报错以及报错是否符合预期。 + +在对照组也就是引入 Chaos 前进行实验,检测 set/get route 均能成功,etcd 可连接,并记录此时的 RPS。之后,使用 network chaos 添加 5s 的网络延迟 ,再次进行实验,此时 set route 失败,get route 成功,etcd 无法连接,RPS 与之前相比无明显变化。实验符合预期。 + +#### 场景二 + +![2021-06-16-2](../static/img/blog_img/2021-06-16-2.png) + +进行同样的对照组实验之后引入 pod-kill chaos,复现了预期的错误。在随机删除集群中少数 etcd 节点的情况下,etcd 可连接性表现出时有时无,日志则打印出了大量连接拒绝的报错。更加有趣的是,在删除 etcd 端点列表的第一个或第三个节点时,设置路由正常返回,而只有在删除 etcd 端点列表中的第二个节点时,设置路由会报错 “connection refused”。 + +排查发现原因在于 Apache APISIX 使用的 etcd lua API 选择端点时并不是随机而是顺序选择,因此新建 etcd client 进行的操作就相当于只绑定在一个 etcd 端点上导致持续性的失败。修复这个问题之后,还为 etcd lua API 添加了健康检查,确保不会在断开连接的 etcd 上进行大量的重复;以及增加了 etcd 集群完全断开连接时的回退检查,避免大量报错冲爆日志。 + +### 未来计划 + +#### 1. 借助 e2e 模拟场景进行混沌测试 + +目前在 Apache APISIX 中,仍然主要依靠人来识别系统中可能的脆弱点进行测试修复。对于开源社区来说,与之前提到的 Netflix 在企业中应用混沌工程不同,尽管在 CI 中测试,无需担心混沌工程的故障半径对生产环境的影响,但同时也无法覆盖生产环境中的复杂而全面的场景。 + +为了覆盖更多的场景,未来社区计划利用现有的 e2e 测试模拟更加完整的场景,进行更大范围、更强随机性的混沌测试。 + +#### 2. 为更多 Apache APISIX 项目添加混沌测试 + +除了为 Apache APISIX 找到更多可能的脆弱点之外,社区还计划为 Apache APISIX Dashboard 和 Apache APISIX Ingress Controller 等更多项目添加混沌测试。 + +#### 3. 为 Chaos Mesh 添加功能 + +在部署 Chaos Mesh 时遇见一些暂不支持的功能,包括网络延迟的目标不支持选择 service,网络混沌无法指定容器端口注入等,Apache APISIX 社区未来也会协助 Chaos Mesh 添加相关功能。希望开源社区都会越来越好。 diff --git a/website/static/img/blog_img/2021-06-16-1.png b/website/static/img/blog_img/2021-06-16-1.png new file mode 100644 index 0000000..3f1fe93 Binary files /dev/null and b/website/static/img/blog_img/2021-06-16-1.png differ diff --git a/website/static/img/blog_img/2021-06-16-2.png b/website/static/img/blog_img/2021-06-16-2.png new file mode 100644 index 0000000..0f29247 Binary files /dev/null and b/website/static/img/blog_img/2021-06-16-2.png differ