Skip to main content

SRE

  • SRE - Site Reliability Engineering - 站点可靠性工程
  • 目标是通过软件工程方法提高系统的可用性、可维护性和可扩展性
  • 关键实践包括:
    • 服务级别目标(SLOs)和服务级别指标(SLIs)的定义和监控
    • 自动化运维任务,减少人为干预
    • 事件管理和故障响应流程的优化
    • 持续改进和学习文化的建立
    • Error Budget - 错误预算
      • 允许在一定范围内的错误和中断,以平衡创新和稳定性
    • Toil Automation - 重复性工作自动化
      • 通过自动化减少重复性、手动的运维任务,提高效率和可靠性
    • 容量规划
    • 灾难恢复测试
  • 工程方法论、操作手册
  • 参考

SRE Book