DGM (Darwin Gödel Machine) 研究记录
状态: 观望中
研究时间: 2026-03-14
决策: 先观望,专注部署 Self-Improving Agent
** revisit时间**: 待 Self-Improving Agent 稳定运行后
核心发现
DGM 是什么:
- 能够修改自身代码的自我改进系统
- 使用 SWE-bench 和 Polyglot 自动验证改进
- 由 Sakana AI 实验室开发
与 Self-Improving Agent 对比:
| 维度 |
Self-Improving Agent |
DGM |
| 改进层级 |
行为/工作流 |
代码级 |
| 验证方式 |
人工回顾 |
自动化基准测试 |
| 风险 |
低 |
高(执行自生成代码) |
| 成熟度 |
可用 |
实验性 |
| 适用场景 |
生产环境 |
研究/实验 |
为什么先观望
- 风险过高 - 执行自生成代码可能产生意外行为
- 需要隔离环境 - Docker + 严格权限控制
- 当前优先级 - Self-Improving Agent 更成熟、更可控
- 学习曲线 - 需要时间理解其机制和最佳实践
未来可能的应用场景
阶段1: 观察学习
- 研究论文和代码实现
- 理解自我改进机制
- 提取可借鉴的思想
阶段2: 简化实验(远期)
- 在隔离环境测试
- 限制改进范围(配置而非核心代码)
- 建立安全验证机制
阶段3: 谨慎集成(更远期)
- 选择性集成到工作流
- 人工审核所有改动
- 保持核心技能稳定
相关链接
- GitHub: https://github.com/jennyzzt/dgm
- 论文: https://arxiv.org/abs/2505.22954
- 官网: https://sakana.ai/dgm/
- Google Drive: 实验日志和输出
决策记录
决策: 暂不部署 DGM,专注 Self-Improving Agent
原因:
- Self-Improving Agent 风险可控,适合当前阶段
- DGM 需要更多研究和准备
- 先建立基础自我改进能力,再考虑代码级优化
触发重新评估的条件:
- Self-Improving Agent 稳定运行3个月
- 有明确的代码级优化需求
- 建立了安全的隔离测试环境
记录时间: 2026-03-14 19:46 UTC
记录者: 德米
决策者: 伟烨