OpenClaw 使用笔记
介绍
详见飞书文档 OpenClaw笔记
原理
详见飞书文档 OpenClaw工作原理
应用
详见飞书文档 OpenClaw笔记
进化
基于 OpenClaw 改进论文
- 【2026-3-10】普林斯顿 OpenClaw-RL 实时回收利用这两类被浪费的信号,构建从任何交互流中持续学习的统一系统。
- 【2026-3-17】CMU+伯克利 推出持续元学习框架MetaClaw,联合维护基础 LLM 策略和不断演变的、包含可重用行为指令的技能库,实现 agent 自我进化
【2026-3-10】普林斯顿 OpenClaw-RL
解决什么问题?
现有 agent 强化学习系统大多依赖于预先收集的批量数据或最终结果奖励,忽视了真实交互中实时产生的、富含信息量的过程信号。
- 评价性信号:隐式地评价前一个动作的好坏。用户再次提问可能意味着不满意,通过的测试意味着成功,错误堆栈则意味着失败。这构成了一个天然的过程奖励,无需额外的人工标注。
- 指导性信号:指明动作应如何改进。用户说“你应该先检查文件”,不仅说明回答错了,更具体指出了改进方向。详细的软件错误追踪也常常暗示了具体的修正路径。
就像老师只根据期末考试成绩来评判学生,却完全忽略了日常作业、课堂提问和即时反馈的价值。
普林斯顿大学新研究——OpenClaw-RL,终结这种“数据浪费”,让AI智能体能够简单地通过被使用来学习与进化。无论是个人对话助手,还是执行终端、GUI、软件工程或工具调用任务的通用智能体,都能在同一套框架下,从实时交互信号中持续学习。
OpenClaw-RL 核心创新: 实时回收利用这两类被浪费的信号,构建从任何交互流中持续学习的统一系统。
2026-3-10】普林斯顿 OpenClaw-RL
- OpenClaw-RL: Train Any Agent Simply by Talking
- 代码 OpenClaw-RL
- 解读 OpenClaw-RL:让智能体在对话中自我进化,实现统一的智能体强化学习框架
OpenClaw-RL 框架: 完全解耦的异步架构。
- 下一状态信号是通用的,同一个策略可以同时从所有类型的信号中学习。
- 个人对话、终端执行、GUI交互、软件工程任务和工具调用轨迹,不再是各自独立的训练问题,而是可以用于在同一循环中训练同一策略的交互流。
完全解耦的异步架构
- 策略服务、环境交互、PRM(过程奖励模型)评判和策略训练作为四个独立的循环运行,彼此之间没有阻塞依赖。
- 模型在服务下一个用户请求的同时,PRM正在评判上一个响应,训练器则在应用梯度更新——三者互不等待。
- 正是这种设计,使得从实时、异构的交互流中进行连续训练变得可行。
OpenClaw-RL基础设施概览。
- 交互流来自两种智能体:部署在个人设备上的个人智能体(对话式、单用户),以及托管在云服务上的通用智能体(终端、GUI、SWE和工具调用智能体)。
- 收集的样本流入基于异步slime框架构建的RL服务器,该服务器由四个解耦的组件构成,支持优雅的权重更新,并能与任何智能体框架协同训练。

OpenClaw-RL 标志着智能体训练范式的重要转变。不再将训练和部署视为两个割裂的阶段,而是构建了实时交互中持续学习、自我演进的闭环系统。
【2026-3-17】CMU+伯克利 MetaClaw
解决什么问题?
- 现有agent部署后,保持静态,能力逐步过时
OpenClaw 平台上,单个智能体连接 20 多个消息渠道并处理多样化、不断变化的工作负载,现有方法
- 要么存储原始轨迹而不提炼可迁移的行为知识
- 要么维护与权重优化脱节的静态技能库
- 要么在重新训练期间导致服务中断。
【2026-3-17】CMU+伯克利
MetaClaw 持续元学习框架,联合维护基础 LLM 策略和不断演变的、包含可重用行为指令的技能库,并通过两种互补的机制对两者进行改进。
- 技能驱动的快速适应分析失败轨迹,并通过一个 LLM 进化器合成新技能,这些技能立即生效,实现零服务中断。
- 机会性策略优化通过机会性元学习调度器(OMLS)在用户非活动窗口期间被触发,利用带过程奖励模型(PRM)的强化学习(RL)在云端执行基于梯度的 LoRA 微调权重更新。
两种机制相互促进:更好的策略能为技能合成提供更多信息丰富的失败案例,而更丰富的技能则能为策略优化提供更高回报的轨迹。
MetaClaw 基于代理架构构建,无需本地 GPU 即可扩展到生产规模的 LLM。

MetaClaw-Bench(934 个问题,44 个模拟工作日)和 AutoResearchClaw(23 阶段自主研究流水线)上的实验显示出一致的改进:仅技能驱动适应就将准确率相对提升了高达 32%;完整流水线将 Kimi-K2.5 的准确率从 21.4% 提升至 40.6%(对比 GPT-5.2 基线 41.1%),端到端任务完成率提升了 8.25 倍;并且仅技能注入就将 AutoResearchClaw 的综合鲁棒性提升了 18.3%。
支付宝打赏
微信打赏