SRE
- SRE - Site Reliability Engineering - 站点可靠性工程
- 目标是通过软件工程方法提高系统的可用性、可维护性和可扩展性
- 关键实践包括:
- 服务级别目标(SLOs)和服务级别指标(SLIs)的定义和监控
- 自动化运维任务,减少人为干预
- 事件管理和故障响应流程的优化
- 持续改进和学习文化的建立
- Error Budget - 错误预算
- 允许在一定范围内的错误和中断,以平衡创新和稳定性
- Toil Automation - 重复性工作自动化
- 通过自动化减少重复性、手动的运维任务,提高效率和可靠性
- 容量规划
- 灾难恢复测试
- 工程方法论、操作手册
- 参考