「技能」(skill)正在成为 Agent 系统里一个越来越关键的抽象:它把能力从庞大的模型权重里解耦出来,封装成可执行的代码、操作流程或领域指令,让 Agent 能像搭积木一样组合调用。逻辑上,这是 Agent 持续变强的天然路径——它应该能自己造技能、自己存、自己挑、自己改,而不必每一步都等人来写。
但现实是,这条路基本没走通。主流的自动造技能方法——从 Minecraft 里的 Voyager,到通用 Agent 上的 AutoSkill、EvoSkill、SkillGen,再到用强化学习联合优化的 Skill1、SkillOS——都只覆盖了技能生命周期的一部分。MUSE-Autoskill 这篇论文把它们漏掉的环节归纳成四个实打实的缺口:技能生成时拿不到运行时上下文,造出来就和实际场景对不上(creation–usage mismatch);没有结构化的「单技能记忆」去沉淀这个技能在历次任务里的经验;技能是静态、未经验证的,没有单元测试驱动的评估和修正;以及上下文管理粗糙,长任务里对话历史一截断或溢出就丢信息。
它把「技能」当成有生命周期的资产
MUSE-Autoskill(Memory-Utilizing Skill Evolution)的核心主张是:技能不该是一次性的生成产物,而应是 Agent 系统里长期存活、持续演化的基础设施。为此它定义了一套统一的「技能生命周期」,五个阶段——创建、记忆、管理、评估、精炼——闭环运转。
落到机制上,有四处值得记:
第一,把造技能塞进了运行时回路。它内置一个 skill_create 工具,直接在 Agent 推理执行的循环里被调用,让技能在真实上下文中诞生,从源头上消掉了「生成和使用对不上」的毛病。
第二,多层记忆,且单独给技能配了一层记忆。除了常见的短期记忆和长期记忆,它引入了独有的「技能级记忆」(skill-level memory),把每个技能在不同任务里积累的经验单独存下来,反过来指导这个技能下一次怎么用。这是它和其它方法拉开差距的关键设计之一。
第三,用单元测试和执行反馈来兜可靠性。评估子系统不靠模型自我感觉良好,而是跑单测、看运行结果;一旦测试失败,自动触发精炼。技能因此从「写完就定型」变成了「能被测、会自己改」。
第四,结构化上下文管理。配了自适应压缩和跨会话状态持久化,让长程任务不至于因为上下文窗口爆掉或被粗暴截断而丢信息。
这套组合拳的共同目的,是让能力外化成可测试、可迁移的资产,而不是锁死在模型权重里那种看不见、搬不走的内部行为。
数据说了什么,以及没说什么
论文在 SkillsBench 上做了评测——这是一套 51 个真实任务的基准,在标准化 Docker 环境里由自动验证器打分,覆盖科学工程、数据分析、文档处理、运维规划四个大领域。对比的三个 Agent(Codex、Hermes、MUSE)统一用 GPT-5.5 作底座。
主要结果有三组:
- 带人类技能时,MUSE 总分 68.40%,比自己不带技能的版本高 15.21 个百分点,在四个领域里三个领先(总分上对比 Codex 的 67.3% 和 Hermes 的 61.2%)。
- 让 MUSE 从自己跑成功的轨迹里造技能,在「技能生成成功的 35 个任务」上准确率冲到 87.94%,超过了人类写技能的上限。
- 生成的技能能迁移:把它们注入另一个 Agent(Hermes),后者准确率涨 10.51 个百分点,补上了它和「人类技能版 Hermes」差距的 79%——这是技能确实被外化成知识资产、而非绑死在某个运行时上的证据。
但越是漂亮的数字,越要看清它的边界。
那个「超过人类上限」的 87.94%,是在技能生成成功的 35 个任务上算的——也就是说,51 个任务里有 16 个,它压根没能造出可用的技能(论文附录专门列了这「16 个未覆盖任务」)。换句话说,这个数字描述的是「当它能造出技能时有多强」,不是「它在所有任务上有多强」,两者不能混着读。
其余几处也得摆出来:这是一篇标注「working in progress」的预印本(v1),出自字节跳动这样的产业团队,对自家框架的呈现天然偏正面;所有结果都建立在 GPT-5.5 这一个底座、SkillsBench 这一套 51 个任务的基准上,换模型、换任务分布能否复现仍是未知数;而生命周期管理本身要付出的代价——技能记忆的存储、单测的生成、技能的组织与调度——论文虽有专门章节讨论成本与质量的权衡,但落到自己的系统里值不值,还得各自掂量。
对在搭长期 Agent 系统的人意味着什么
抛开具体数字,这篇论文真正值得记一笔的是它的定位判断:技能要可测试、带经验、能长期演化。
一个有意思的对照是,它把 Anthropic 的 Agent Skills(也就是那套 SKILL.md 指令 + 脚本的可移植文件夹、按需渐进加载)列为「最接近的实践对照」,但同时点出它的短板——评估和精炼仍然全靠人写。这恰好划出了一条可操作的改进线:如果你已经在用 SKILL.md 这类技能文件体系,那么给每个技能补上单元测试、补上一份记录历次调用经验的「技能级记忆」、再接一个测试失败就自动修正的回路,大概就是从「静态脚本库」走向「会自己进化的能力资产」的最短路径。
这件事的本质,是 Agent 能不能跨任务、跨会话、甚至跨系统地积累能力。MUSE 给的还只是初步证据,但它把问题问对了。
把技能当一次性脚本,是 Agent 能力难以积累的根因 MUSE-Autoskill 用「创建 - 记忆 - 管理 - 评估 - 精炼」闭环 + 独有的技能级记忆,让技能可复用、带经验、能跑单测自我修正 SkillsBench(51 任务 / GPT-5.5)上带技能总分 68.40%(+15.21pp)、生成技能跨 Agent 迁移补上 79% 差距,但 87.94% 只算在技能生成成功的 35 个任务上,且仍是单底座单基准的预印本证据
原文:MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation