【Poster】GaussMaster:DB Agent,通过自然语言交互自主执行运维任务

GaussMaster:基于大模型的DB Agent,通过自然语言交互自主执行运维任务

作者:吴昊 (hwvv)、王养浩 (wyhyhyhyh)、李坤 (jackchenchenchen)、王天元 (wagntianyuan1994)、刘陆洋 (qq_33172735)、徐天一 (xty739910hoa)、申正 (shenzheng4)、熊小军 (xiong_xjun)、朱芳芳 (zff_unique)

摘要

GaussMaster是一款开源的数据库智能运维Copilot。基于LLM和AI等技术,GaussMaster旨在提供一站式、交互式的AI原生运维系统。用户可以通过文字命令,与GaussMaster平台自由对话,完成智能问答,根因诊断,故障巡检,预测调优等等任务,覆盖数据库开发运维全生命周期。GaussMaster的设计目标具有如下能力:全栈感知能力、分布式诊断能力、智能决策能力、开放集成能力、持续进化能力。当前根因诊断覆盖现网常见34个根因场景,故障巡检支持26个巡检项,可通过交互式调用22个运维工具。

引言

数据库运维现状:传统AI模型泛化能力不足,无法进行综合分析和推理总结

  • 单一数据库产品通过对外提供的开发者手册、管理员指南、运维调优和故障定位手册等多达1w多页,普通DBA很难完全掌握,一二线运维花费大量时间电话解答客户问题,90%为基础性问题;
  • 产品间交互、跨组件之类的紧急问题出现,经常会做多层连环、多产品协调定位,无法一步到位,获取最准确信息;
  • 云数据库Region上实例数巨大,SRE人员配备少,重点局点企业自身会投入部分保障,对企业经营带来一定的压力;
  • 智能运维平台能力基于当前系统运行状况和统计信息,给出相应的异常分析和优化建议,但数据库版本变更、业务场景变化后,并不能针对不同负载场景,实时调整,泛化能力较弱。

系统架构

GaussMaster 采用模块化、可插拔架构,支持接入业界通用的大模型、向量检索系统,通过整合领域知识和系统运行时数据,提供交互智能体和诊断智能体两大能力,为用户提供简单、一致、可靠的运维体验。

① 交互智能体

  • 基于 RAG 技术将数据库领域知识注入问答上下文,避免大模型幻觉,提升问答准确度。

② 诊断智能体

  • DBA Agent 自动分析用户意图,并根据运维经验进行任务编排,自动调度执行运维任务。

③ 知识库管理

  • 处理数据库产品资料和相关运维经验资料,清洗、分割并形成索引便于 RAG 系统使用。
  • 自动挖掘故障推理链,固化形成树形故障检测逻辑。

④ 系统运行时数据收集

  • 基于 openGauss-DBMind 收集系统运行时数据,如系统指标、系统视图、日志等。

智能问答:让大模型精通数据库领域知识,回答专业问题问答

智能运维:故障诊断与处理建议生成

未来工作

  • 风险预测:提前预测数据库风险或用户负载变化,及时调整规避可能出现的故障。
  • 用户负载优化:管理慢SQL和存储过程,帮助解决最终用户侧痛点问题。
  • 数据库自动驾驶:减少人员参与,提升运维人效、提升易用性、提升系统整体稳定性。

这个好,运维更加智能化,问题处理速度大幅度提升