Skip to main content

AIOps SOP

评估现状与识别痛点

Assess & Identify

  • 基础设施评估
    • 软件、硬件、云服务、网络拓扑、现有的监控和自动化工具
  • 数据源盘点
    • 识别所有潜在的可观测性数据源,例如监控日志、指标、分布式追踪、服务依赖关系图、以及ITSM工单等。
  • 痛点识别
    • 通过与开发、运维和SRE团队访谈,量化当前最主要的运维痛点
    • 告警疲劳(每天收到多少“噪音”告警)?
    • 平均故障解决时间(MTTR)过长?
    • 频繁的、重复性的人工干预任务有哪些?
    • 面对新问题时,故障排查耗时多久?

对齐业务目标

AIOps不是为了技术而技术,它的最终目的是服务于业务。将技术目标与明确的业务成果挂钩是成功的关键。

  • 定义业务成果
    • 明确AIOps项目希望驱动的业务指标。
    • 例如:
      • 将核心服务的停机时间减少20%。
      • 将新功能发布的失败率降低50%。
      • 提升最终用户满意度分数。
  • 设定可衡量的技术目标 (SLO)
    • 将业务成果转化为技术团队可以执行的服务水平目标(SLO)
    • 例如
      • “99.95%的登录请求必须在200ms内完成”。

选择合适的工具与平台

  • 平台选型
    • 数据集成能力
    • 模型透明度
    • 自动化能力
    • 安全性
  • 构建数据基础
    • 规划数据架构
    • 例如
      • 实施一个集中的数据湖架构来统一数据摄入,并使用AI驱动的数据规范化技术来清洗和结构化原始遥测数据,以提高分析的准确性。

规划分阶段实施

  • 阶段一:AI辅助分析与建议:
    • 目标:减少告警噪音,提供关联性洞察。
    • 行动:首先使用AIOps平台进行事件关联和异常检测,将结果作为“建议”推送给运维团队,但不自动执行任何变更。
  • 阶段二:半自动化(人机协同):
    • 目标:加速已知问题的修复。
    • 行动:对于重复出现的、解决方案明确的问题,让AIOps系统自动生成修复计划,并等待人工点击“确认”后执行。
  • 阶段三:有限的完全自动化:
    • 目标:实现低风险场景的自主修复。
    • 行动:授权AIOps系统在预定义的、低风险的场景下(例如,清理磁盘、重启非核心服务的某个实例)自主执行修复,无需人工干预。
  • 阶段四:迈向更广泛的自主运维:
    • 目标:处理更复杂的、甚至是未知的问题。
    • 行动:在建立了充分的信任和完善的治理机制后,逐步扩大AIOps系统的自主决策和行动范围。

培训团队与推动变革

  • 技能培训: 对DevOps和SRE团队进行新工具和新流程的培训。
  • 文化建设: 清晰地向团队传达AIOps带来的好处(例如,减少重复性劳动、让工程师能专注于更有创造性的工作),以获得团队的认同和支持。
  • 角色演变: 引导运维工程师的角色从“手动执行者”转变为“自动化流程的监督者和优化者”。

执行与治理

  • 实施治理控制: 确保始终有人类监督AI驱动的决策,特别是在初期阶段。
  • 安全优先:
    • 使用零信任架构和基于角色的访问控制(RBAC)来严格限制AI智能体可以执行的变更范围。
    • 所有由AI执行的操作都必须留下不可篡改的审计日志。

监控、衡量与优化

  • 监控AIOps系统本身: 像对待任何一个生产系统一样,监控AIOps平台的性能和健康状况。
  • 建立反馈循环:
    • 创建一个机制,让工程师可以方便地评估AI决策的准确性和有效性(例如,对告警场景标记“误报”或“准确”)。
    • 定期(例如每两周)召开复盘会议,回顾AIOps系统的表现,并根据工程师和真实用户反馈来微调自动化策略。
  • 持续优化: 将反馈数据用于模型的再训练和算法的优化,使系统随时间推移变得越来越智能。