(接上篇)
可用性
可用性风险通常比较被重视,企业默认架构中往往有较多应对措施。而且很多可用性风险与性能与容量风险有关,所以这里总结的风险和保障措施显得比较少。
设计时
企业默认架构中一般包含可用性的基本应对:
- HA方案,比如热备冷备及相关切换方案等。
- 容灾方案
业务接入时
一般不会产生可用性风险。除非超过系统容量造成系统不可用。这个风险在“性能与容量”部分讨论。
日常趋势
- 事故趋势恶化。
- 资源消耗异常。(在“性能与容量”部分讨论。)
事故时
可用性事故一般有:
- 系统失去响应
- 容量问题造成的。(在“性能与容量”部分讨论。)
- 某个(某些)节点失去响应造成。
- 需要各节点可用性数据。
- 节点可拔插。
- 系统大范围报错
- 诊断用现场实时数据。(在“性能与容量”部分讨论。)
为及时发现可用性事故,我们需要:
- 可用性数据实时监控和报警
小结
综上,为持续保障系统可用性,需要采取的措施有:
- 预先设计的HA和容灾方案。
- 事故记录与分析。
- 可用性数据持续监控与阙值报警。
- 各节点可用性实时数据。