鹤啸九天 自律更自由,平凡不平庸 Less is More

OpenClaw 使用笔记

2026-01-05
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


OpenClaw 使用笔记

介绍

详见飞书文档 OpenClaw笔记

原理

详见飞书文档 OpenClaw工作原理

应用

详见飞书文档 OpenClaw笔记

进化

基于 OpenClaw 改进论文

【2026-3-10】普林斯顿 OpenClaw-RL

解决什么问题?

现有 agent 强化学习系统大多依赖于预先收集的批量数据或最终结果奖励,忽视了真实交互中实时产生的、富含信息量的过程信号。

  • 评价性信号:隐式地评价前一个动作的好坏。用户再次提问可能意味着不满意,通过的测试意味着成功,错误堆栈则意味着失败。这构成了一个天然的过程奖励,无需额外的人工标注。
  • 指导性信号:指明动作应如何改进。用户说“你应该先检查文件”,不仅说明回答错了,更具体指出了改进方向。详细的软件错误追踪也常常暗示了具体的修正路径。

就像老师只根据期末考试成绩来评判学生,却完全忽略了日常作业、课堂提问和即时反馈的价值。

普林斯顿大学新研究——OpenClaw-RL,终结这种“数据浪费”,让AI智能体能够简单地通过被使用来学习与进化。无论是个人对话助手,还是执行终端、GUI、软件工程或工具调用任务的通用智能体,都能在同一套框架下,从实时交互信号中持续学习。

OpenClaw-RL 核心创新: 实时回收利用这两类被浪费的信号,构建从任何交互流中持续学习的统一系统。

2026-3-10】普林斯顿 OpenClaw-RL

OpenClaw-RL 框架: 完全解耦的异步架构。

  • 下一状态信号是通用的,同一个策略可以同时从所有类型的信号中学习。
  • 个人对话、终端执行、GUI交互、软件工程任务和工具调用轨迹,不再是各自独立的训练问题,而是可以用于在同一循环中训练同一策略的交互流。

完全解耦的异步架构

  • 策略服务、环境交互、PRM(过程奖励模型)评判和策略训练作为四个独立的循环运行,彼此之间没有阻塞依赖。
  • 模型在服务下一个用户请求的同时,PRM正在评判上一个响应,训练器则在应用梯度更新——三者互不等待。
  • 正是这种设计,使得从实时、异构的交互流中进行连续训练变得可行。

OpenClaw-RL基础设施概览。

  • 交互流来自两种智能体:部署在个人设备上的个人智能体(对话式、单用户),以及托管在云服务上的通用智能体(终端、GUI、SWE和工具调用智能体)。
  • 收集的样本流入基于异步slime框架构建的RL服务器,该服务器由四个解耦的组件构成,支持优雅的权重更新,并能与任何智能体框架协同训练。

OpenClaw-RL 标志着智能体训练范式的重要转变。不再将训练和部署视为两个割裂的阶段,而是构建了实时交互中持续学习、自我演进的闭环系统。

【2026-3-17】CMU+伯克利 MetaClaw

解决什么问题?

  • 现有agent部署后,保持静态,能力逐步过时

OpenClaw 平台上,单个智能体连接 20 多个消息渠道并处理多样化、不断变化的工作负载,现有方法

  • 要么存储原始轨迹而不提炼可迁移的行为知识
  • 要么维护与权重优化脱节的静态技能库
  • 要么在重新训练期间导致服务中断。

【2026-3-17】CMU+伯克利

MetaClaw 持续元学习框架,联合维护基础 LLM 策略和不断演变的、包含可重用行为指令的技能库,并通过两种互补的机制对两者进行改进。

  • 技能驱动的快速适应分析失败轨迹,并通过一个 LLM 进化器合成新技能,这些技能立即生效,实现零服务中断。
  • 机会性策略优化通过机会性元学习调度器(OMLS)在用户非活动窗口期间被触发,利用带过程奖励模型(PRM)的强化学习(RL)在云端执行基于梯度的 LoRA 微调权重更新。

两种机制相互促进:更好的策略能为技能合成提供更多信息丰富的失败案例,而更丰富的技能则能为策略优化提供更高回报的轨迹。

MetaClaw 基于代理架构构建,无需本地 GPU 即可扩展到生产规模的 LLM。

MetaClaw-Bench(934 个问题,44 个模拟工作日)和 AutoResearchClaw(23 阶段自主研究流水线)上的实验显示出一致的改进:仅技能驱动适应就将准确率相对提升了高达 32%;完整流水线将 Kimi-K2.5 的准确率从 21.4% 提升至 40.6%(对比 GPT-5.2 基线 41.1%),端到端任务完成率提升了 8.25 倍;并且仅技能注入就将 AutoResearchClaw 的综合鲁棒性提升了 18.3%。

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Related Posts

标题:Claude 使用笔记

摘要:Claude 使用笔记

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题

Comments

--disqus--

    Content
    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天