DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas¶

日期: 2026-03-24
arXiv: 2603.23050
代码: 开源
领域: LLM Agent / 数据库
关键词: database documentation, schema discovery, LLM refinement, foreign key detection, iterative graph propagation

一句话总结¶

DBAutoDoc 通过结合统计数据分析与迭代式 LLM 精炼，自动发现和文档化无文档数据库的关系模式（主键/外键/列含义/ER图），核心思想是将模式理解建模为图结构上的迭代语义传播问题，在 benchmark 上加权得分达 96.1%，确定性流水线比纯 LLM 的 FK 检测 F1 提升 23 点。

研究背景与动机¶

领域现状：大量关键数据库系统缺乏文档——主键未声明、外键约束为性能被删除、列名是难解的缩写、无 ER 图。这给数据迁移、审计和新开发者上手带来巨大困难。
现有痛点：(a) LLM 直接理解数据库模式效果一般——缺乏数据层面的统计线索；(b) 纯统计方法可检测约束但不理解语义；(c) 复杂模式中表间依赖形成图结构，单次处理难以捕捉全局一致性
核心矛盾：模式理解本质是图结构问题——一张表的语义依赖于它引用/被引用的其他表，需要"全局传播"
切入角度：借鉴反向传播的迭代思想——初始粗糙描述逐步精炼，上下文通过依赖图传播
核心 idea：确定性统计分析（FK/PK检测）+ 迭代 LLM 语义精炼（图传播）——统计做骨架，LLM 填语义，多轮迭代直到收敛

方法详解¶

整体框架¶

输入未文档化数据库 → 统计分析阶段（数据分布/值域/唯一性分析检测 PK/FK）→ 构建模式依赖图 → LLM 在图上迭代精炼列描述/表描述/关系语义 → 输出完整文档（列说明、ER 图、关系描述）。

关键设计¶

确定性统计流水线
- 做什么：不依赖 LLM，纯数据驱动地检测主键和外键
- 核心思路：唯一性分析→候选PK；值域重叠+数据类型匹配+基数比→候选FK
- 设计动机：LLM 的 FK 检测不如统计方法可靠（消融显示 +23 F1）
图结构迭代语义传播
- 做什么：在模式依赖图上多轮传播语义信息，使描述全局一致
- 核心思路：第 1 轮各表独立生成粗糙描述；第 2+ 轮将相关联表的描述作为上下文注入，LLM 重新生成；迭代直到描述收敛
- 类比：如反向传播中梯度通过计算图流动，语义通过依赖图流动
多模型评估
- 在 Gemini 和 Claude 两个模型家族上验证，加权得分 96.1%

实验关键数据¶

实验设置¶

在包含 10+ 张表、100+ 列的真实企业数据库上评测
评测维度：PK 检测准确率、FK 检测 F1、列描述质量（人工评分）、ER 图完整性
加权综合得分 = 0.3×PK + 0.3×FK + 0.25×描述 + 0.15×ER 图
对比 baseline：纯 LLM（GPT-4/Claude 直接分析 schema）、纯统计（无 LLM 语义）、单轮 LLM + 统计

主实验¶

指标	DBAutoDoc	纯LLM	纯统计	提升
综合加权得分	96.1%	~73%	~65%	+23%
FK 检测 F1	0.91	0.68	0.83	+23 F1 vs LLM
PK 检测准确率	0.98	0.85	0.95	统计+LLM互补
列描述质量	4.6/5	3.8/5	N/A	LLM精炼关键

消融实验¶

配置	效果	说明
无统计流水线（纯LLM）	-23 F1 (FK)	统计是FK检测关键
无迭代精炼（单轮）	-8% 描述质量	迭代传播推要
单次迭代 vs 多次	3 轮最优后收敛	过多轮次无额外收益

关键发现¶

确定性统计流水线的贡献独立于 LLM 预训练知识——不是 LLM 已经知道数据库结构
迭代约 3 轮后描述收敛，与反向传播的类比有定性支持
跨模型验证（Gemini + Claude）说明方法不依赖特定模型
PK 检测中统计和 LLM 互补：统计方法处理常规主键（唯一性+非空），LLM 处理复合主键和隐式主键
FK 检测中纯 LLM 的主要失败模式是误判列名相似但无引用关系的列对
图传播第 2 轮贡献最大（描述质量 +5%），第 3 轮趋于收敛（+1%），第 4 轮无额外收益

亮点与洞察¶

"统计做骨架+LLM填语义"的混合思路：各取所长，统计方法可靠但不理解语义，LLM 理解语义但在约束检测上不如统计
图传播的迭代精炼：将单次 LLM 调用升级为多轮图上传播，是提升全局一致性的通用技巧
开源贡献：开源实现使得企业可以直接部署到内部数据库治理流程中
实际价值：对于遗留系统迁移和数据治理有直接应用场景，解决了长期困扰 DBA 和数据工程师的痛点

局限性 / 可改进方向¶

对极端无规律命名（如纯数字列名）的处理可能受限
未处理非关系型数据库（NoSQL、文档型、图数据库）
迭代轮次和收敛判断规则较人工——目前固定 3 轮
统计 FK 检测依赖值域重叠——如果 FK 列值域与被引用列仅部分重叠，召回率下降
LLM 精炼的确定性不足——同一输入多次运行可能产生不同描述，需要多次采样取一致

评分¶

新颖性: ⭐⭐⭐⭐ 图传播+统计+LLM 的组合新颖
实验充分度: ⭐⭐⭐⭐ 多模型+消融+benchmark 充分
写作质量: ⭐⭐⭐⭐ 反向传播类比有趣
价值: ⭐⭐⭐⭐ 对企业级数据库运维有实际价值