Skip to main content

AIOps SOP

评估现状与识别痛点

Assess & Identify

基础设施评估
- 软件、硬件、云服务、网络拓扑、现有的监控和自动化工具
数据源盘点
- 识别所有潜在的可观测性数据源，例如监控日志、指标、分布式追踪、服务依赖关系图、以及ITSM工单等。
痛点识别
- 通过与开发、运维和SRE团队访谈，量化当前最主要的运维痛点
- 告警疲劳（每天收到多少“噪音”告警）？
- 平均故障解决时间（MTTR）过长？
- 频繁的、重复性的人工干预任务有哪些？
- 面对新问题时，故障排查耗时多久？

对齐业务目标

AIOps不是为了技术而技术，它的最终目的是服务于业务。将技术目标与明确的业务成果挂钩是成功的关键。

定义业务成果
- 明确AIOps项目希望驱动的业务指标。
- 例如：
  - 将核心服务的停机时间减少20%。
  - 将新功能发布的失败率降低50%。
  - 提升最终用户满意度分数。
设定可衡量的技术目标 (SLO)
- 将业务成果转化为技术团队可以执行的服务水平目标（SLO）
- 例如
  - “99.95%的登录请求必须在200ms内完成”。

选择合适的工具与平台

平台选型
- 数据集成能力
- 模型透明度
- 自动化能力
- 安全性
构建数据基础
- 规划数据架构
- 例如
  - 实施一个集中的数据湖架构来统一数据摄入，并使用AI驱动的数据规范化技术来清洗和结构化原始遥测数据，以提高分析的准确性。

规划分阶段实施

阶段一：AI辅助分析与建议:
- 目标：减少告警噪音，提供关联性洞察。
- 行动：首先使用AIOps平台进行事件关联和异常检测，将结果作为“建议”推送给运维团队，但不自动执行任何变更。
阶段二：半自动化（人机协同）:
- 目标：加速已知问题的修复。
- 行动：对于重复出现的、解决方案明确的问题，让AIOps系统自动生成修复计划，并等待人工点击“确认”后执行。
阶段三：有限的完全自动化:
- 目标：实现低风险场景的自主修复。
- 行动：授权AIOps系统在预定义的、低风险的场景下（例如，清理磁盘、重启非核心服务的某个实例）自主执行修复，无需人工干预。
阶段四：迈向更广泛的自主运维:
- 目标：处理更复杂的、甚至是未知的问题。
- 行动：在建立了充分的信任和完善的治理机制后，逐步扩大AIOps系统的自主决策和行动范围。

培训团队与推动变革

技能培训: 对DevOps和SRE团队进行新工具和新流程的培训。
文化建设: 清晰地向团队传达AIOps带来的好处（例如，减少重复性劳动、让工程师能专注于更有创造性的工作），以获得团队的认同和支持。
角色演变: 引导运维工程师的角色从“手动执行者”转变为“自动化流程的监督者和优化者”。

执行与治理

实施治理控制: 确保始终有人类监督AI驱动的决策，特别是在初期阶段。
安全优先:
- 使用零信任架构和基于角色的访问控制（RBAC）来严格限制AI智能体可以执行的变更范围。
- 所有由AI执行的操作都必须留下不可篡改的审计日志。

监控、衡量与优化

监控AIOps系统本身: 像对待任何一个生产系统一样，监控AIOps平台的性能和健康状况。
建立反馈循环:
- 创建一个机制，让工程师可以方便地评估AI决策的准确性和有效性（例如，对告警场景标记“误报”或“准确”）。
- 定期（例如每两周）召开复盘会议，回顾AIOps系统的表现，并根据工程师和真实用户反馈来微调自动化策略。
持续优化: 将反馈数据用于模型的再训练和算法的优化，使系统随时间推移变得越来越智能。

评估现状与识别痛点
对齐业务目标
选择合适的工具与平台
规划分阶段实施
培训团队与推动变革
执行与治理
监控、衡量与优化