Peter Skoett 完整工作流体系调研报告
Peter Skoett 完整工作流体系调研报告
来源:ClawHub 第一 Skill 的幕后哲学——从单点 Skill 到完整 Agent 工作流体系
作者:@pskoett(Peter Skoett)
GitHub: https://github.com/pskoett/pskoett-ai-skills
下载量:425K+(self-improving-agent 单项),全系列累计 80 万+
一、缘起:为什么会有这套体系?
Peter Skoett 不是一个只写一个 Skill 的作者。他观察到 AI Agent 开发中有一个根本性问题:Agent 天然没有「高峰上下文」意识,也学不会自己的错误。
他的核心洞察是:Agent 在四个时刻上下文质量最高——
- 规划完成后 — 刚理解完任务,思路最清晰
- 执行中途 — 正在编码,手头热
- 完成时 — 全部改动写完,可以全局审视
- 学到新东西时 — 刚被纠正,记忆最新鲜
大多数 Agent 工作流在这些时刻什么都不做。Peter 的整套体系就是在正确的时刻插入结构化的工作流,把高峰上下文榨干。
为此他设计了两层反馈循环:
- 内循环(同一会话内) :检测问题 → 机器验证 → 自我修复 → 记录教训
- 外循环(跨会话) :聚合教训 → 提炼规则 → 回归测试 → 会话启动自动检查
每一层环的每一步都有一个独立的 Skill。
二、完整 Skill 全家桶
A. 内循环 Skills(会话内保障质量)
1. plan-interview — 规划阶段
预防:「做了错误的东西」
在开始编码之前,以一个结构化面试的形式和用户对齐:约束条件、范围边界、风险点、成功标准。输出一份 docs/plans/ 下的计划文件。
这是全系列中唯一需要手动触发的 Skill(通过 /plan-interview),因为规划必须有人参与。后续所有 Skill 只要装上就自动激活,但也可以独立运行。
适用场景:任何非 trivial 的功能开发、重构、架构决策。
2. intent-framed-agent — 执行监控
预防:「做了超出范围的东西」
在执行开始时捕获一个轻量的「意图契约」(intent frame),然后在编码过程中持续监控范围漂移。
当 Agent 开始做规划外的事情时,它自己会发现并提醒用户,而不是埋头做完再说。本质上是代码层面的「Check your scope before you check your code」。
适用场景:长任务、重构、跨文件修改。
3. context-surfing — 上下文健康监控
预防:「上下文污染导致质量崩溃」
这是整套体系里最容易被忽略但最实用的小工具。它持续监控 Agent 的上下文窗口健康度:
- 上下文接近满载时自动退出,避免幻觉和遗漏
- 在上下文质量最高峰(比如刚执行完关键步骤)时利用峰值输出
- 如果上下文监控和范围监控同时触发,上下文退出优先——上下文坏了,什么检查都不可靠
适用场景:大型代码库操作、多轮对话的后期。
4. verify-gate — 机器验证门
预防:「交付了不能编译/测试失败的代码」
一个硬性的机器验证关卡。在 Agent 说「做好了」之后、交给人检查之前,自动运行编译→测试→lint。
如果任何环节失败,进入修复循环(每个阶段最多 3 次尝试)。只有全部通过才标记工作完成。
这里的设计哲学很关键——Agent 不应该等人告诉它「测试没过」 。机器能验证的东西,交给机器。
适用场景:所有代码变更的出口。
5. simplify-and-harden — 完成时质量审视
预防:「交付了粗糙/不安全的代码」
在 verify-gate 通过之后,利用完成时刻的高峰上下文,对改动做三轮扫描:
- Simplify — 消除死代码、冗余逻辑、不必要的复杂度
- Harden — 检查安全模式(输入验证、异常处理、边界条件)
- Document — 补充微文档、改动说明
这三轮都在 Agent 仍然「手热」的时候完成,质量和效率都最高。
适用场景:所有代码变更提交前。
6. self-improvement — 错误与教训记录(ClawHub 第一)
预防:「同一个错误重复犯」
会话结束后最后的关卡。把本次会话中的错误、纠正、最佳实践记录到三个文件:
-
.learnings/LEARNINGS.md— 纠正、洞察、最佳实践 -
.learnings/ERRORS.md— 命令失败、集成错误 -
.learnings/FEATURE_REQUESTS.md— 用户想要的功能
每条记录有标准格式:ID(LRN-YYYYMMDD-XXX)、优先级、状态、影响域。普适性的教训会「晋升」到 AGENTS.md、SOUL.md、TOOLS.md 等永久文件中。
B. 外循环 Skills(跨会话持续进化)
7. learning-aggregator — 跨会话教训聚合
预防:「积累了教训但没人读」
定期扫描 .learnings/ 目录下的所有记录,按模式分组(重复出现的相同或类似错误)、排序、推荐晋升候选人。
它解决的是「记了但没用的」问题——记了一百条等于零条,除非有人把模式提炼出来。
8. harness-updater — 教训规则化
预防:「模式提炼了但没人写到配置文件里」
接收 learning-aggregator 推荐的候选人,自动将其编码为规则写入:
-
CLAUDE.md(项目级别约定) -
AGENTS.md(工作流与自动化规则) -
.github/copilot-instructions.md(Copilot 上下文)
这一步是把「经验」变成「基础设施」的关键环节。
9. eval-creator — 回归测试生成
预防:「修过的问题静默回归」
把晋升后的规则转化为永久的测试用例,存放在 .evals/ 目录下。后续可以定期运行回归检查。
比如:如果学到「不要在代码里硬编码 API Key」,就创建一个 eval 自动扫描所有新增代码是否有 API Key 泄漏。下次同样的错误提交时自动拦截。
10. pre-flight-check — 会话启动检查
预防:「带着已知问题开始新工作」
在新会话启动时,自动扫描 .learnings/、.evals/,展示:
- 当前待处理的高优先级错误
- 需要注意的已知模式
- 上一次回归测试的状态
- 建议复习的教训
相当于每次上工前给你一份「当前隐患清单」。
C. 编排层
11. skill-pipeline — 全流程编排
把以上所有 Skill 串起来的调度器。根据任务类型(新功能 / 重构 / 修 Bug / 调研)自动选择正确的 Skill 组合和执行深度。
如果只装一个 Skill 但想要全流程,装这个就行。
D. CI 变体(GitHub Agentic Workflows)
Peter 还提供了一批 CI 版本 Skill(带 -ci 后缀),跑在 GitHub Agentic Workflows 上,不需要人在场:
- self-improvement-ci — 在 CI 中自动化捕获重复失败模式
- simplify-and-harden-ci — 自动对 PR 做质量和安全扫描
- learning-aggregator-ci — 定时聚合跨会话学习记录
- eval-creator-ci — PR 级别的回归测试 + 定时生成新 eval
这些把「内循环」的一部分自动化成 CI 流程,适合团队项目和持续集成。
三、安装方式
OpenClaw
# 安装单个
clawhub install self-improving-agent
# 安装全流程编排(推荐,一个顶所有)
clawhub install skill-pipeline
Claude Code
/plugin marketplace add pskoett/pskoett-skills
/plugin install pskoett-ai-skills@pskoett-skills
/reload-plugins
Codex / Copilot CLI / Cursor
均通过各自插件机制或 gh skill install 安装,详阅作者的 GitHub README。
四、为什么这套体系能拿 ClawHub 第一?
4.1 从单点工具到操作系统
大多数 ClawHub 上的 Skill 是单点工具:天气查询、搜索增强、PDF 编辑。而 Peter 的 self-improvement 是一个操作系统层面的基础设施——它改变了 Agent 的行为模式,而不只是增加一个能力。
4.2 简单到极致
虽然背后是完整的两层循环哲学,但用户层面的感知只是「装一个 Skill → Agent 开始长记性」。不需要配置文件、不需要 API Key、不需要数据库。三个 Markdown 文件搞定。
4.3 渐进式应用
新手只用 self-improvement 就能获得价值。高级用户加装 learning-aggregator + harness-updater + eval-creator 组装出完整外循环。CI 用户再加 CI 变体。每一个层级独立可用,不强制。
4.4 模型无关
不依赖特定 LLM 的「长期记忆」或「自我反省」能力——甚至可以说,它补的正是 LLM 在这两方面的天然缺陷。换个模型照样工作,因为这完全是工程机制层面的设计。
4.5 平台无关
OpenClaw、Claude Code、Codex、Copilot CLI、GitHub CLI、Cursor、Gemini CLI 全部支持。作者的哲学是「Skill 标准应该是跨平台的」,他只管写好特定格式的工作流,剩下的由各个 Agent 平台去加载。
五、总分总一张图
┌─────────────────────────────────────┐
│ skill-pipeline │
│ 全流程编排调度 │
└─────────────────────────────────────┘
│
┌ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ┼ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ┐
▼ ▼
┌──────────────┐ ┌──────────────────┐
│ 内循环 │ │ 外循环 │
│ (同一会话内) │ │ (跨会话) │
└──────────────┘ └──────────────────┘
│ │
▼ ▼
[plan-interview] .learnings/ (积累教训)
│ │
▼ ▼
[intent-framed-agent] [learning-aggregator]
[context-surfing] (聚合 → 发现模式)
│ │
▼ ▼
[verify-gate] [harness-updater]
(编译+测试+lint) (编码为永久规则)
│ │
▼ ▼
[simplify-and-harden] [eval-creator]
(质量+安全审视) (生成回归测试)
│ │
▼ ▼
[self-improvement] [pre-flight-check]
(记录教训) (新会话主动检查)
↑
│
[CI 变体: -ci skills]
(CI 上的自动质量门+教训聚合)
六、对 OpenClaw 用户的建议
如果你只想装一个 → clawhub install self-improving-agent。零成本获得 Agent 持续记忆能力。
如果你想全流程 → clawhub install skill-pipeline。它会自动引入依赖的所有子 Skill。
如果你是团队开发者 → 再加装 CI 变体,在 GitHub Workflows 上跑质量门和教训聚合。
潜在注意点:
- .learnings/ 文件会随着时间增长,建议定期归档旧条目
- 晋升机制需要偶尔人工介入(Agent 可能把偶发性错误推向全局规则)
- 多人项目中每个开发者各自维护 .learnings/,建议团队约定统一.learnings/ 共享
七、总结
Peter Skoett 的 Self-Improving Agent 能拿 ClawHub 下载量第一(425K),是因为它背后站着一整套深思熟虑的 Agent 工作流哲学,而不是一个孤立的功能点。这套体系回答了 Agent 开发中最根本的两个问题:
- 怎么让 Agent 在不退步? → 内循环:规划→监控→验证→审视→记录
- 怎么让 Agent 在进化? → 外循环:聚合→编码→测试→启动检查
在「Agent 越来越强,但记忆和组织能力天生薄弱」的时代,这套工程化的解决方案比任何模型侧的「长期记忆」都来得可靠和透明。