DGM (Darwin Gödel Machine) 研究记录

状态: 观望中

研究时间: 2026-03-14
决策: 先观望，专注部署 Self-Improving Agent
** revisit时间**: 待 Self-Improving Agent 稳定运行后

核心发现

DGM 是什么:

能够修改自身代码的自我改进系统
使用 SWE-bench 和 Polyglot 自动验证改进
由 Sakana AI 实验室开发

与 Self-Improving Agent 对比:

维度	Self-Improving Agent	DGM
改进层级	行为/工作流	代码级
验证方式	人工回顾	自动化基准测试
风险	低	高（执行自生成代码）
成熟度	可用	实验性
适用场景	生产环境	研究/实验

为什么先观望

风险过高 - 执行自生成代码可能产生意外行为
需要隔离环境 - Docker + 严格权限控制
当前优先级 - Self-Improving Agent 更成熟、更可控
学习曲线 - 需要时间理解其机制和最佳实践

未来可能的应用场景

阶段1: 观察学习

研究论文和代码实现
理解自我改进机制
提取可借鉴的思想

阶段2: 简化实验（远期）

在隔离环境测试
限制改进范围（配置而非核心代码）
建立安全验证机制

阶段3: 谨慎集成（更远期）

选择性集成到工作流
人工审核所有改动
保持核心技能稳定

相关链接

GitHub: https://github.com/jennyzzt/dgm
论文: https://arxiv.org/abs/2505.22954
官网: https://sakana.ai/dgm/
Google Drive: 实验日志和输出

决策记录

决策: 暂不部署 DGM，专注 Self-Improving Agent
原因:

Self-Improving Agent 风险可控，适合当前阶段
DGM 需要更多研究和准备
先建立基础自我改进能力，再考虑代码级优化

触发重新评估的条件:

Self-Improving Agent 稳定运行3个月
有明确的代码级优化需求
建立了安全的隔离测试环境

记录时间: 2026-03-14 19:46 UTC
记录者: 德米
决策者: 伟烨