AI 自动诊断+修复的开源可观测性平台：让日志、指标和追踪“自己看病、自己开药”

昆仑 AI

2026-06-15 0 4

SuperLog 是一个开源的 AI 增强型可观测性（Observability）工具，它不只是帮你“看到”系统哪里出了问题，更能让 AI 代理（Agent）主动分析错误、定位根因，甚至自动生成修复建议或执行预设的修复动作——真正实现从“被动监控”到“主动自愈”的跃迁。它深度兼容 OpenTelemetry 标准，支持全链路日志、指标、追踪数据接入，并通过可插拔的 AI 技能（Skills）模块，让运维和开发团队告别深夜告警疲劳与重复救火。

核心功能

AI 驱动的异常归因分析：基于 LLM 和长期记忆（Memory），自动关联分散在日志、Trace 和 Metrics 中的线索，一句话指出“为什么订单支付超时？根源是 Redis 连接池耗尽 + 重试策略未降级”
自愈式技能引擎（Self-Healing Skills）：预置或自定义可执行的修复技能——如自动扩容 Pod、刷新缓存、回滚配置、触发熔断开关，AI 判断后一键执行，无需人工干预
OpenTelemetry 原生支持：零改造接入现有 OTel Instrumentation，兼容 Jaeger、Prometheus、Loki 等生态组件，轻松复用已有观测数据管道
可解释的决策过程：所有 AI 分析和操作都附带清晰推理链（Reasoning Trace），显示“依据哪几条日志、哪个 Span、哪些指标阈值”得出结论，杜绝黑箱操作
本地化、可私有部署：100% 开源，支持完全离线运行；敏感数据不出内网，LLM 可对接本地模型（如 Ollama、vLLM）或企业级 API 网关
低代码技能编排界面：通过可视化流程图或 YAML 定义 AI 技能逻辑（如“当 CPU >90% 持续5分钟 → 查看对应 Pod 日志 → 若含 OutOfMemoryError → 执行 jvm_heap_reset”），运维也能快速上手

适合哪些人用

如果你是以下角色之一，SuperLog 正在解决你最头疼的痛点：
• DevOps/SRE 工程师：厌倦了写无数条 Prometheus Alert Rule 却仍漏掉复合故障？需要把“告警→查日志→翻文档→试修复”的 45 分钟流程压缩到 90 秒内。
• 后端/全栈开发者：想在本地调试阶段就模拟生产级故障响应，或为微服务内置“智能兜底能力”。
• 中小团队技术负责人：缺乏专职 SRE，但又不敢把核心系统交给黑盒 APM；需要一个透明、可控、能随业务演进的可观测性基座。
• AI Infra 团队：正在探索 LLM 在运维领域的落地场景，需要一个真实、结构化、带反馈闭环的工程化实验平台。