AutoResearch
2026年3月某个清晨,Karpathy 在 X 上发了推文:
“ah yes, this is what post-AGI feels like”
- AI Agent 在他睡觉的 12 小时里,自主提交了 110 次代码变更,把语言模型验证损失从 0.862415 一路压到 0.858039。
- 而 Karpathy 本人呢?去蒸桑拿了。
2026年3月7日,这套方法论打包成仅 630 行代码的开源项目——autoresearch,扔到GitHub 上。48 小时内揽星 9500,截至发文已突破 33k。
这件事之所以炸裂,不在于技术多复杂,而是触及根本问题:
AI 能不能自己搞科研?搞出来的东西到底靠不靠谱?
上一代 AutoML 见站内专题:AutoML
背景
完整的模型实验流程繁琐:
- 在 arXiv 上刷论文,找相关方法
- 顺着引用图追溯数据集和基础技术
- 在 Hugging Face Hub 上搜索合适的数据集,检查数据质量
- 写训练脚本,配置环境
- 提交计算任务,盯着 GPU 跑
- 分析实验结果,排查 reward collapse 等问题
- 调整策略,反复迭代
这一套流程走下来,即使是经验丰富的研究员,往往也要花费数天甚至更长时间。
发展史
时间轴
- 2025 年 10 月:nanochat 项目发布(初始 commit 10 月 13 日)。
- 2026 年 1 月底:推出 “Time to GPT-2” leaderboard,初始记录约 3.04 小时。
- 2026 年 2 月:手动调优(数据集、FP8 等),基准降至约 2 小时。
- 2026 年 2 月 27 日:公开多代理实验尝试(8 agents,tmux 交互式),但当时未成功。
- 2026 年 3 月 5 日:首次宣布 AI 代理已自主迭代 nanochat(12 小时内完成 110 次改动,val loss 从 0.862415 降至 0.858039),称“I’ll just leave this running for a while, go relax a bit and enjoy the feeling of post-agi”。并指出新 meta 是“what is the research org agent code that produces improvements on nanochat the fastest?”
- 2026 年 3 月 7 日:发布 autoresearch 极简仓库(单 GPU、单文件 ~630 行 train.py)。
- 2026 年 3 月 6–8 日:启动首次正式实验,在 depth=12 模型上运行约 2 天(~650–700 次实验)。
- 2026 年 3 月 8 日:初步确认改进可转移至 depth=24 模型。
- 2026 年 3 月 9 日:手动验证所有改动并测量最终结果。
Autoresearch 专题详见飞书文档:autoresearch
介绍
【2026-3-15】Autoresearch 深度解读:Karpathy 的”AI 自主科研”到底有没有戏?
Karpathy 用 630 行代码搭”AI 研究员”的最小可行原型——让 Agent 在你睡觉时自动改代码、跑实验、筛结果,一晚上干完人类一周的活
一个”永不下班的实习生”
- 给定研究方向的说明书(program.md)
- 开始不停改代码、跑实验、看结果、决定保留还是丢弃,然后继续下一轮。
- 整个过程完全自主,不需要人类干预。
效果
经过两天持续自动调优,autoresearch 处理了约 700 次自主更改,发现了约 20 个可迁移的改进,将 “Time to GPT-2” 指标(nanochat社区基准)从 2.02 小时缩短到 1.80 小时——效率提升 11%。
保留率大约 18%
- Agent 每 5-6 次尝试才能找到有效改进。
- 合理,人类做实验的成功率也差不多。
成功的尝试
排名第一的发现很有意思:
- 固定时间预算下,把 batch size 减半反而更好。直觉上 batch size 越大、梯度越稳,效果应该越好。
- 但 Agent 发现反直觉事实:5 分钟约束下,小 batch 更多的训练步数(更多参数更新),这比”每步梯度更新”带来的收益更大。
社区用户 snowkcon 证实
- 一个月前用完全不同的计算设置也独立发现了同样的规律。
- Agent 用一晚上重新发现了这个 insight。
| 排名 | 改进描述 | val_bpb 下降 | 备注 |
|---|---|---|---|
| 1 | 批量大小从 524K 减半到 262K(更多训练步数) | -0.0119 | 收益最高,通过降低批次大小、增加训练步数提升泛化能力 |
| 2 | 深度 9,宽高比 57(增加一层 Transformer) | -0.0043 | 模型规模扩展,增加网络深度,提升表达能力 |
| 3 | 嵌入层学习率从 0.6 提高到 0.8 | -0.0033 | 针对嵌入层的精细调优,加快词向量学习速度 |
| 4 | RoPE 基础频率从 10K 提高到 200K | -0.0012 | 位置编码参数调整,优化长上下文建模效果 |
| 5 | Unembedding 学习率从 0.004 调到 0.006 | -0.001 | 输出层学习率微调,提升预测层收敛效率 |
| 6 | 值嵌入添加微小权重衰减 0.001 | -0.001 | 正则化策略,抑制过拟合,增强模型泛化性 |
| 7 | 短窗口设为 1/8 上下文(256 tokens) | -0.0009 | 注意力窗口策略调整,优化局部依赖建模 |
失败的尝试
- 大模型文献中广泛采用权重共享(embedding 和 unembedding 共享参数)
- 但在这个小模型、短训练的场景下,带来了 +2.24 BPB 的灾难性退化。
- 提醒:很多 ML “最佳实践”是有上下文的,Agent 不迷信教条,纯粹用数据说话。
| 失败尝试 | val_bpb 变化 | 点评 |
|---|---|---|
| 权重共享(weight tying) | 2.24 | 直接爆炸,完全失效 |
| 并行注意力+MLP | 0.011 | 在小模型上不 work |
| 多查询注意力 MQA(n_kv_head=1) | 0.008 | 过于激进的压缩 |
| 移除 careful WD mask | 0.005 | 说明精细的正则化掩码很重要 |
| 5% warmup | 0.0008 | 在本次运行中反而有害 |
反常识结论
- 所有参数施加权重衰减
- PyTorch 官方建议:不要对 bias、layernorm、embedding 参数施加权重衰减。
- 但 Agent 发现:对嵌入层加 0.001 的微小权重衰减,对值嵌入(Value Embeddings)加 0.001-0.003 的权重衰减,都能带来实打实的改进。
- 不过这里有个狭窄的最优区间:VE 权重衰减到 0.005 就开始变差了。这就像调盐一样——一点就好,多了就咸。
- GitHub 用户 aniruddhaadak80 评论说:”通常 folklore 建议排除 biases 和 layernorms 的权重衰减,但 Agent 发现打破这个规则有实证效果——这非常有趣。” 自动化实验的价值:不会被先入为主的偏见束缚。
- 初始化缩放有”甜点”
- Agent 逐步测试 Transformer 初始化缩放比例:0.8x → 0.7x → 0.68x 都在改善,但到 0.66x 和 0.65x 就开始退化了。
- 最终锁定 0.68x 为甜点。这种精细的网格搜索,人类研究员通常没耐心做到这么细。
- 高嵌入层学习率 + 正则化
- 当嵌入层加上了权重衰减(正则化)后,更高的学习率(从 0.6 → 0.8 → 0.9)反而更好。这形成了一个有趣的相互作用:正则化”兜底”,所以可以放心给更大的学习率。
架构
文件
设计上极简,只有 3个文件,像实验室的权限管理
prepare.py是实验室的基础设施(水电气、仪器),不允许任何人动;train.py是实验台上的东西,研究员可以随便折腾;program.md是 PI(导师)写的研究计划书,决定这个实验室的研究方向。
| 文件 | 角色 | 谁来改 | 功能 |
|---|---|---|---|
prepare.py |
基础设施 | 没人改 | 数据下载、BPE 分词器训练、数据加载器、评估函数 |
train.py |
实验对象 | AI Agent 改 | GPT 模型定义、优化器(Muon + AdamW)、训练循环 |
program.md |
研究指令 | 人类改 | 给 Agent 的行为指南,定义实验规则和策略 |
工作流
工作流是无限循环:
while True:
1. 读取当前 train.py 和实验历史
2. 形成改进假设(比如"把学习率调高试试")
3. 修改 train.py
4. git commit(留痕)
5. 运行训练(严格 5 分钟)
6. 检查验证损失(val_bpb)
7. if 改进 → 保留 commit,更新基线
else → git reset,回退到上一个好的版本
8. 记录结果到 results.tsv
9. 继续下一轮
Agent 拿到3样东西:program.md(任务说明)、当前版本的 train.py(要改的文件)、历史实验结果(哪些改动有效)。
然后在 train.py 里面乱改:
n_layer = 12 # 层数,随便改
n_head = 12 # 注意力头数
n_embd = 768 # 隐藏维度
optimizer = Muon(model.parameters(), lr=0.001) # 也可以换 AdamW
batch_size = 64
learning_rate = 3e-4
dropout = 0.1
评估用 bits per byte (bpb),越低越好。这个指标跟模型大小没关系,所以不同架构之间可以直接比——对自动化探索来说刚好合适。
总结
- 深度优先搜索,对初始参数敏感
- 对决策模型强依赖:能力强、窗口大,如 claude code或codex
详见原文:Autoresearch 深度解读:Karpathy 的”AI 自主科研”到底有没有戏?
实践
代码
# 1. 克隆仓库
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
# 2. 安装依赖
curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync
# 3. 准备数据(约 2 分钟)
uv run prepare.py
# 4. 手动跑一次基线实验(约 5 分钟)
uv run train.py
# 5. 启动 AI Agent(以 Claude 为例)
# 在你的 AI 编程助手中指向这个仓库,然后说:
# "Hi have a look at program.md and let's kick off a new experiment!"
Mac 用户可用社区移植版
git clone https://github.com/trevin-creator/autoresearch-mlx.git
进化版
总结
| 方案 | 目标 | 搜索空间 | Agent | 评估标准 | 代码量 | 硬件 | 特色 |
|---|---|---|---|---|---|---|---|
| autoresearch(Karpathy) | 优化小模型的训练配置 | 代码级(改 train.py) | Claude/Codex 等编程 Agent | val_bpb(单一数值) | 630 行 | 单 GPU | 极简、可复现、教育价值高 |
| AI Scientist v2(Sakana AI) | 端到端自动论文生产 | 全流程(想法→实验→写论文) | LLM 驱动的端到端系统 | 同行评审分数 | 大型系统 | 多 GPU | 首次在 ICLR 发表 AI 生成论文(评审分 6/7/6) |
| AutoML/NAS(传统) | 自动搜索模型架构/超参 | 架构/超参空间 | 无 Agent,纯优化算法 | accuracy/loss | 框架级(数万行) | 多 GPU 集群 | 工业成熟度高 |
| Hyperspace AI(分布式 autoresearch) | 分布式 Agent 协作优化 | 代码级 + 多节点 | 多 Agent P2P 网络 | val_bpb | 扩展自 autoresearch | 分布式网络 | GossipSub 协议传播策略 |
AI Scientist v2:另一个极端
Sakana AI 的 AI Scientist v2 完全不同:不只是调超参,而是试图完成从”提出假设”到”写论文”再到”同行评审”的全流程。
- ICLR 2025 Workshop 上成功发表了完全由 AI 生成的论文,评审打分 6/7/6,超过了人类论文的平均水平。 但设计哲学截然相反:
- AI Scientist 追求广度(覆盖研究全流程)
- autoresearch 追求深度(在一个极小的空间里把实验做透)。 Karpathy 的选择更”工程师”——与其做万能但能力平平的系统,不如在可控的沙盒里证明”自主实验循环”这个概念本身可行。
【2026-3-9】Hyperspace 分布式
【2026-3-9】Hyperspace 首个分布式通用人工智能(AGI)系统。
- 数千个自主 AI 智能体协同训练模型,通过点对点(P2P)闲聊协议共享实验成果,并在此推动技术突破。
- 完全点对点架构。可通过浏览器或命令行终端(CLI)接入参与。
- github项目 hyperspaceai
Hyperspace AI 的 Varun Mathur 把 autoresearch 单 Agent 循环扩展到点对点网络。多个节点上的 Agent 各自做实验,通过 GossipSub 协议实时共享有效策略。
结果惊人:
- 不同硬件上的 Agent 发展出了完全不同的策略——高性能 GPU 节点倾向于”暴力破解”(堆参数量),而 CPU 节点被迫在初始化策略上更”聪明”(比如尝试 Kaiming 和 Xavier 初始化)。
- 当一个节点发现 Kaiming 初始化使损失下降 21% 时,这个策略”像病毒一样”在网络中传播。 仅用 17 小时,分布式 Agent 就独立重新发现了人类实验室花费 8 年才正式化的里程碑(如 RMSNorm、绑定嵌入等)。
【2026-5-19】AutoResearchClaw
【2026-5-19】北卡罗来纳大学 推出 AutoResearchClaw 多智能体自动研究框架
- AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
- Github: AutoResearchClaw
AutoResearchClaw 突破现有系统线性流程局限的多智能体自主研究系统。
AutoResearchClaw 把输入端直接拉到“一个原始研究想法”。
- 用户只需在命令行输入一行 CLI 命令,附上 idea,比如“探索新型注意力机制在长上下文建模中的效率”
- 系统就会启动一个 23 阶段的端到端流水线,覆盖 8 个主要阶段:从 idea scoping、文献发现、合成,到实验设计、执行、分析、写作和最终定稿。
五大机制:
- 结构化多智能体辩论用于假设生成与分析;
- 具备自修复能力的执行器可将失败转化为信息;
- 可验证的结果报告防止数据伪造与引用幻觉;
- 提供从全自动到逐步监督的七种人机协作模式;
- 以及能将过往经验转化为未来保障的跨运行进化能力。
实验表明,该系统性能显著优于基线模型,且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。
ml-intern
【2026-4-24】资讯
Hugging Face 开源会自己训练模型的 AI 员工,彻底颠覆 ML 研究工作流
- 只需要一句话,自己去读论文、找数据集、写代码、跑训练,还会自己复盘和改进。
常规实验流程:
- 在 arXiv 上刷论文,找相关方法
- 顺着引用图追溯数据集和基础技术
- 在 Hugging Face Hub 上搜索合适的数据集,检查数据质量
- 写训练脚本,配置环境
- 提交计算任务,盯着 GPU 跑
- 分析实验结果,排查 reward collapse 等问题
- 调整策略,反复迭代
即使是经验丰富的研究员,往往也要花费数天甚至更长时间。
介绍
Hugging Face 把这整个流程,交给 AI 代理来自动完成。
2026 年 4 月开源自主 ML 工程代理(Autonomous ML Agent)ml-intern。
基于 Hugging Face 自家的 smolagents 框架构建,深度集成了整个 HF 生态——Hub 仓库、数据集、文档系统、云计算(HF Jobs)以及实验追踪工具 Trackio。
- 底层框架: smolagents(HF 官方 Agent 框架)
- 接口设计: 接口无关,CLI 和 Web UI 共享同一套 Agent 核心
- 通信机制: 异步队列架构(submission_queue + event_queue)
- 实验追踪: Trackio(HF 原生,开源 W&B 替代方案)
- 云计算集成: HF Jobs(一键提交到 HF 的 GPU 算力池)
- 依赖: fastmcp、fastapi、rich、nbconvert 等
ml-intern 内置面向 ML 工作流的专用工具:
| 工具 | 功能 |
|---|---|
| Research Tool | 爬取 arXiv、HF Papers,遍历引用图 |
| HF Jobs Tool | 提交 GPU 训练任务(支持 A100/H100) |
| Sandbox Tool | 本地安全执行 Python 脚本 |
| Dataset Tool | 搜索、检查、格式化 HF Hub 数据集 |
| Docs Tool | 查询 HF 生态文档(transformers、TRL 等) |
| GitHub Tool | 检索相关代码实现参考 |
原理
核心工作循环(三阶段工作流)
用户输入一个目标
↓
① Research(研究)
· 爬取 arXiv / HF Papers
· 阅读论文方法章节
· 遍历引用图谱
↓
② Plan & Validate(规划与验证)
· 拆解任务
· 搜索 HF Hub 上的数据集
· 检查数据质量与可用算力
↓
③ Implement(实现)
· 编写训练脚本
· 通过 HF Jobs 提交到 GPU 集群
· 读取评估结果,诊断失败
· 自动重训,直到性能提升
这不是一次性执行,而是持续闭环迭代,直到达成目标。
效果
ml-intern 在 PostTrainBench 测试(图宾根大学与马克斯·普朗克研究所),单张 H100 GPU 上的 10 小时内 对基础模型完成后训练。
测试结果令人震惊:
- ml-intern 用仅 1.7B 参数的小模型,在 3 小时内就突破了 27.5%,最终达到 32%
- 不仅大幅超越了 Claude Code,还逼近了使用更大模型(4B)的 SOTA。
这种”数据效率”正是自动化代理的核心优势所在。
| 对比方 | GPQA 得分 |
|---|---|
| Qwen3-1.7B 基线 | ~10% |
| Claude Code | 22.99% |
| ml-intern(Qwen3-1.7B) | 32% |
| PostTrainBench SOTA(Gemma-3-4B) | 33% |
应用
案例一:合成数据生成(医疗领域)对医疗领域模型进行微调时,ml-intern:
- 评估了 HF Hub 上现有医疗数据集的质量
- 判断数据质量不足,无法支撑可靠的微调
- 自主编写脚本生成合成训练数据,重点覆盖边缘案例,包括医疗不确定性语言和多语种急救响应场景
- 对这些数据进行上采样,增强训练分布
- 在 HealthBench 上评估效果 这种”发现问题→自主解决”的能力,是传统自动化脚本无法做到的。
案例二:自主 RLHF(数学推理领域)在数学推理优化任务中,ml-intern:
- 自主选定了 GRPO(Group Relative Policy Optimization) 算法——相比标准 PPO 更节省显存
- 编写完整的 GRPO 训练脚本
- 在 A100 GPU 上启动训练,实时监控 reward 曲线
- 进行消融实验(ablation),隔离有效组件
- 确定最终 checkpoint
安装
三种方式
方式一:在线体验(零门槛)
# 直接访问 HF Spaces:
https://huggingface.co/spaces/smolagents/ml-intern
输入你的 ML 目标,即可开始。
方式二:本地 CLI 安装
环境要求: Python 3.10+,HuggingFace 账号
安装步骤:
# 1. 克隆仓库
git clone git@github.com:huggingface/ml-intern.git
cd ml-intern
# 2. 安装依赖
pip install -e .
# 3. 登录 HF 账号(用于访问 Hub 和 HF Jobs)
huggingface-cli login
# 4. 启动交互式 CLI
ml-intern
CLI 支持两种模式:
- 交互模式:完整的对话环境,支持 /undo、/model 等斜杠命令
- 无头模式(Headless):单次 prompt 执行,适合自动化流水线集成
方式三:Web UI(本地部署)
项目内置了 FastAPI 后端 + React 前端,支持本地部署 Web 界面:
# 启动 Web 后端
cd web && uvicorn app:app --reload
# 启动前端(另开终端)
cd frontend && npm install && npm run dev
Web UI 功能更丰富,包括:
- 实时流式展示代理的思考过程和工具调用日志
- 代码编辑器,用于在提交前审查训练脚本
- 可视化计划追踪,实时看到任务执行进度
- 硬件费用实时显示,让你在提交付费计算任务前心里有数
【2026-5-27】DeliAutoResearch SKILL
【2026-5-27】DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时
DeepSeek 研究员陈德里在X上发布第二篇论文聚焦持续学习与自我迭代
DeliAutoResearch SKILL 系统从6分跃升至8分,人工干预大幅减少,自主性显著增强。
- 论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。
- 103个参考文献,全部已验证。论文现为46页,538KB,含7个图表+4个表格。
论文提出三轴统一框架、形式化收敛条件,并指出六大开放挑战,为AGI时代的学习范式指明方向。
自动研究智能体L1–L5自主度分类体系
- L1: 最基础的自动补全,最早的GitHub Copilot,预测下一行代码。
- L2: 任务执行,ChatGPT/Claude聊天机器人加上各种工具,能分解任务,但每步都得人类批准。
- L3: 多步骤执行,目前最主流 Claude Code、Cursor Agent这种,能自主执行10到100步,只在关键点请求人类审核
- L4: 受限领域内全自主执行,人类仅提供研究目标、评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选择研究问题。
- L5: 完全自定研究议程,智能体可自主选题、分配资源、长期积累知识、跨领域持续研究,是当前未实现的理想状态,核心瓶颈为持续知识积累、可靠自我评估、架构规模化。
目前行业前沿初步达到L4,L5还只是个设想。真正的瓶颈不是模型能力,而是「持续知识积累」和「可靠自我评估」。
Code Agent 导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。

支付宝打赏
微信打赏