「技能」（skill）正在成为 Agent 系统里一个越来越关键的抽象：它把能力从庞大的模型权重里解耦出来，封装成可执行的代码、操作流程或领域指令，让 Agent 能像搭积木一样组合调用。逻辑上，这是 Agent 持续变强的天然路径——它应该能自己造技能、自己存、自己挑、自己改，而不必每一步都等人来写。

但现实是，这条路基本没走通。主流的自动造技能方法——从 Minecraft 里的 Voyager，到通用 Agent 上的 AutoSkill、EvoSkill、SkillGen，再到用强化学习联合优化的 Skill1、SkillOS——都只覆盖了技能生命周期的一部分。MUSE-Autoskill 这篇论文把它们漏掉的环节归纳成四个实打实的缺口：技能生成时拿不到运行时上下文，造出来就和实际场景对不上（creation–usage mismatch）；没有结构化的「单技能记忆」去沉淀这个技能在历次任务里的经验；技能是静态、未经验证的，没有单元测试驱动的评估和修正；以及上下文管理粗糙，长任务里对话历史一截断或溢出就丢信息。

它把「技能」当成有生命周期的资产

MUSE-Autoskill（Memory-Utilizing Skill Evolution）的核心主张是：技能不该是一次性的生成产物，而应是 Agent 系统里长期存活、持续演化的基础设施。为此它定义了一套统一的「技能生命周期」，五个阶段——创建、记忆、管理、评估、精炼——闭环运转。

落到机制上，有四处值得记：

第一，把造技能塞进了运行时回路。它内置一个 skill_create 工具，直接在 Agent 推理执行的循环里被调用，让技能在真实上下文中诞生，从源头上消掉了「生成和使用对不上」的毛病。

第二，多层记忆，且单独给技能配了一层记忆。除了常见的短期记忆和长期记忆，它引入了独有的「技能级记忆」（skill-level memory），把每个技能在不同任务里积累的经验单独存下来，反过来指导这个技能下一次怎么用。这是它和其它方法拉开差距的关键设计之一。

第三，用单元测试和执行反馈来兜可靠性。评估子系统不靠模型自我感觉良好，而是跑单测、看运行结果；一旦测试失败，自动触发精炼。技能因此从「写完就定型」变成了「能被测、会自己改」。

第四，结构化上下文管理。配了自适应压缩和跨会话状态持久化，让长程任务不至于因为上下文窗口爆掉或被粗暴截断而丢信息。

这套组合拳的共同目的，是让能力外化成可测试、可迁移的资产，而不是锁死在模型权重里那种看不见、搬不走的内部行为。

数据说了什么，以及没说什么

论文在 SkillsBench 上做了评测——这是一套 51 个真实任务的基准，在标准化 Docker 环境里由自动验证器打分，覆盖科学工程、数据分析、文档处理、运维规划四个大领域。对比的三个 Agent（Codex、Hermes、MUSE）统一用 GPT-5.5 作底座。

主要结果有三组：

带人类技能时，MUSE 总分 68.40%，比自己不带技能的版本高 15.21 个百分点，在四个领域里三个领先（总分上对比 Codex 的 67.3% 和 Hermes 的 61.2%）。
让 MUSE 从自己跑成功的轨迹里造技能，在「技能生成成功的 35 个任务」上准确率冲到 87.94%，超过了人类写技能的上限。
生成的技能能迁移：把它们注入另一个 Agent（Hermes），后者准确率涨 10.51 个百分点，补上了它和「人类技能版 Hermes」差距的 79%——这是技能确实被外化成知识资产、而非绑死在某个运行时上的证据。

但越是漂亮的数字，越要看清它的边界。

那个「超过人类上限」的 87.94%，是在技能生成成功的 35 个任务上算的——也就是说，51 个任务里有 16 个，它压根没能造出可用的技能（论文附录专门列了这「16 个未覆盖任务」）。换句话说，这个数字描述的是「当它能造出技能时有多强」，不是「它在所有任务上有多强」，两者不能混着读。

其余几处也得摆出来：这是一篇标注「working in progress」的预印本（v1），出自字节跳动这样的产业团队，对自家框架的呈现天然偏正面；所有结果都建立在 GPT-5.5 这一个底座、SkillsBench 这一套 51 个任务的基准上，换模型、换任务分布能否复现仍是未知数；而生命周期管理本身要付出的代价——技能记忆的存储、单测的生成、技能的组织与调度——论文虽有专门章节讨论成本与质量的权衡，但落到自己的系统里值不值，还得各自掂量。

对在搭长期 Agent 系统的人意味着什么

抛开具体数字，这篇论文真正值得记一笔的是它的定位判断：技能要可测试、带经验、能长期演化。

一个有意思的对照是，它把 Anthropic 的 Agent Skills（也就是那套 SKILL.md 指令 + 脚本的可移植文件夹、按需渐进加载）列为「最接近的实践对照」，但同时点出它的短板——评估和精炼仍然全靠人写。这恰好划出了一条可操作的改进线：如果你已经在用 SKILL.md 这类技能文件体系，那么给每个技能补上单元测试、补上一份记录历次调用经验的「技能级记忆」、再接一个测试失败就自动修正的回路，大概就是从「静态脚本库」走向「会自己进化的能力资产」的最短路径。

这件事的本质，是 Agent 能不能跨任务、跨会话、甚至跨系统地积累能力。MUSE 给的还只是初步证据，但它把问题问对了。

把技能当一次性脚本，是 Agent 能力难以积累的根因 MUSE-Autoskill 用「创建 - 记忆 - 管理 - 评估 - 精炼」闭环 + 独有的技能级记忆，让技能可复用、带经验、能跑单测自我修正 SkillsBench（51 任务 / GPT-5.5）上带技能总分 68.40%（+15.21pp）、生成技能跨 Agent 迁移补上 79% 差距，但 87.94% 只算在技能生成成功的 35 个任务上，且仍是单底座单基准的预印本证据

原文：MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

为什么「Agent 越用越强」这件事，至今没真正发生

它把「技能」当成有生命周期的资产

数据说了什么，以及没说什么

对在搭长期 Agent 系统的人意味着什么

准备好开始您的 AI 之旅了吗？