Peter Skoett 完整工作流体系调研报告

来源：ClawHub 第一 Skill 的幕后哲学——从单点 Skill 到完整 Agent 工作流体系
作者：@pskoett（Peter Skoett）
GitHub: https://github.com/pskoett/pskoett-ai-skills
下载量：425K+（self-improving-agent 单项），全系列累计 80 万+

一、缘起：为什么会有这套体系？

Peter Skoett 不是一个只写一个 Skill 的作者。他观察到 AI Agent 开发中有一个根本性问题：Agent 天然没有「高峰上下文」意识，也学不会自己的错误。

他的核心洞察是：Agent 在四个时刻上下文质量最高——

规划完成后 — 刚理解完任务，思路最清晰
执行中途 — 正在编码，手头热
完成时 — 全部改动写完，可以全局审视
学到新东西时 — 刚被纠正，记忆最新鲜

大多数 Agent 工作流在这些时刻什么都不做。Peter 的整套体系就是在正确的时刻插入结构化的工作流，把高峰上下文榨干。

为此他设计了两层反馈循环：

内循环（同一会话内） ：检测问题 → 机器验证 → 自我修复 → 记录教训
外循环（跨会话） ：聚合教训 → 提炼规则 → 回归测试 → 会话启动自动检查

每一层环的每一步都有一个独立的 Skill。

二、完整 Skill 全家桶

A. 内循环 Skills（会话内保障质量）

1. plan-interview — 规划阶段

预防：「做了错误的东西」

在开始编码之前，以一个结构化面试的形式和用户对齐：约束条件、范围边界、风险点、成功标准。输出一份 docs/plans/ 下的计划文件。

这是全系列中唯一需要手动触发的 Skill（通过 /plan-interview），因为规划必须有人参与。后续所有 Skill 只要装上就自动激活，但也可以独立运行。

适用场景：任何非 trivial 的功能开发、重构、架构决策。

2. intent-framed-agent — 执行监控

预防：「做了超出范围的东西」

在执行开始时捕获一个轻量的「意图契约」（intent frame），然后在编码过程中持续监控范围漂移。

当 Agent 开始做规划外的事情时，它自己会发现并提醒用户，而不是埋头做完再说。本质上是代码层面的「Check your scope before you check your code」。

适用场景：长任务、重构、跨文件修改。

3. context-surfing — 上下文健康监控

预防：「上下文污染导致质量崩溃」

这是整套体系里最容易被忽略但最实用的小工具。它持续监控 Agent 的上下文窗口健康度：

上下文接近满载时自动退出，避免幻觉和遗漏
在上下文质量最高峰（比如刚执行完关键步骤）时利用峰值输出
如果上下文监控和范围监控同时触发，上下文退出优先——上下文坏了，什么检查都不可靠

适用场景：大型代码库操作、多轮对话的后期。

4. verify-gate — 机器验证门

预防：「交付了不能编译/测试失败的代码」

一个硬性的机器验证关卡。在 Agent 说「做好了」之后、交给人检查之前，自动运行编译→测试→lint。

如果任何环节失败，进入修复循环（每个阶段最多 3 次尝试）。只有全部通过才标记工作完成。

这里的设计哲学很关键——Agent 不应该等人告诉它「测试没过」 。机器能验证的东西，交给机器。

适用场景：所有代码变更的出口。

5. simplify-and-harden — 完成时质量审视

预防：「交付了粗糙/不安全的代码」

在 verify-gate 通过之后，利用完成时刻的高峰上下文，对改动做三轮扫描：

Simplify — 消除死代码、冗余逻辑、不必要的复杂度
Harden — 检查安全模式（输入验证、异常处理、边界条件）
Document — 补充微文档、改动说明

这三轮都在 Agent 仍然「手热」的时候完成，质量和效率都最高。

适用场景：所有代码变更提交前。

6. self-improvement — 错误与教训记录（ClawHub 第一）

预防：「同一个错误重复犯」

会话结束后最后的关卡。把本次会话中的错误、纠正、最佳实践记录到三个文件：

.learnings/LEARNINGS.md — 纠正、洞察、最佳实践
.learnings/ERRORS.md — 命令失败、集成错误
.learnings/FEATURE_REQUESTS.md — 用户想要的功能

每条记录有标准格式：ID（LRN-YYYYMMDD-XXX）、优先级、状态、影响域。普适性的教训会「晋升」到 AGENTS.md、SOUL.md、TOOLS.md 等永久文件中。

B. 外循环 Skills（跨会话持续进化）

7. learning-aggregator — 跨会话教训聚合

预防：「积累了教训但没人读」

定期扫描 .learnings/ 目录下的所有记录，按模式分组（重复出现的相同或类似错误）、排序、推荐晋升候选人。

它解决的是「记了但没用的」问题——记了一百条等于零条，除非有人把模式提炼出来。

8. harness-updater — 教训规则化

预防：「模式提炼了但没人写到配置文件里」

接收 learning-aggregator 推荐的候选人，自动将其编码为规则写入：

CLAUDE.md（项目级别约定）
AGENTS.md（工作流与自动化规则）
.github/copilot-instructions.md（Copilot 上下文）

这一步是把「经验」变成「基础设施」的关键环节。

9. eval-creator — 回归测试生成

预防：「修过的问题静默回归」

把晋升后的规则转化为永久的测试用例，存放在 .evals/ 目录下。后续可以定期运行回归检查。

比如：如果学到「不要在代码里硬编码 API Key」，就创建一个 eval 自动扫描所有新增代码是否有 API Key 泄漏。下次同样的错误提交时自动拦截。

10. pre-flight-check — 会话启动检查

预防：「带着已知问题开始新工作」

在新会话启动时，自动扫描 .learnings/、.evals/，展示：

当前待处理的高优先级错误
需要注意的已知模式
上一次回归测试的状态
建议复习的教训

相当于每次上工前给你一份「当前隐患清单」。

C. 编排层

11. skill-pipeline — 全流程编排

把以上所有 Skill 串起来的调度器。根据任务类型（新功能 / 重构 / 修 Bug / 调研）自动选择正确的 Skill 组合和执行深度。

如果只装一个 Skill 但想要全流程，装这个就行。

D. CI 变体（GitHub Agentic Workflows）

Peter 还提供了一批 CI 版本 Skill（带 -ci 后缀），跑在 GitHub Agentic Workflows 上，不需要人在场：

self-improvement-ci — 在 CI 中自动化捕获重复失败模式
simplify-and-harden-ci — 自动对 PR 做质量和安全扫描
learning-aggregator-ci — 定时聚合跨会话学习记录
eval-creator-ci — PR 级别的回归测试 + 定时生成新 eval

这些把「内循环」的一部分自动化成 CI 流程，适合团队项目和持续集成。

三、安装方式

OpenClaw

# 安装单个
clawhub install self-improving-agent

# 安装全流程编排（推荐，一个顶所有）
clawhub install skill-pipeline

Claude Code

/plugin marketplace add pskoett/pskoett-skills
/plugin install pskoett-ai-skills@pskoett-skills
/reload-plugins

Codex / Copilot CLI / Cursor

均通过各自插件机制或 gh skill install 安装，详阅作者的 GitHub README。

四、为什么这套体系能拿 ClawHub 第一？

4.1 从单点工具到操作系统

大多数 ClawHub 上的 Skill 是单点工具：天气查询、搜索增强、PDF 编辑。而 Peter 的 self-improvement 是一个操作系统层面的基础设施——它改变了 Agent 的行为模式，而不只是增加一个能力。

4.2 简单到极致

虽然背后是完整的两层循环哲学，但用户层面的感知只是「装一个 Skill → Agent 开始长记性」。不需要配置文件、不需要 API Key、不需要数据库。三个 Markdown 文件搞定。

4.3 渐进式应用

新手只用 self-improvement 就能获得价值。高级用户加装 learning-aggregator + harness-updater + eval-creator 组装出完整外循环。CI 用户再加 CI 变体。每一个层级独立可用，不强制。

4.4 模型无关

不依赖特定 LLM 的「长期记忆」或「自我反省」能力——甚至可以说，它补的正是 LLM 在这两方面的天然缺陷。换个模型照样工作，因为这完全是工程机制层面的设计。

4.5 平台无关

OpenClaw、Claude Code、Codex、Copilot CLI、GitHub CLI、Cursor、Gemini CLI 全部支持。作者的哲学是「Skill 标准应该是跨平台的」，他只管写好特定格式的工作流，剩下的由各个 Agent 平台去加载。

五、总分总一张图

                       ┌─────────────────────────────────────┐
                       │            skill-pipeline            │
                       │           全流程编排调度              │
                       └─────────────────────────────────────┘
                                       │
     ┌ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ┼ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ┐

     ▼                                    ▼
┌──────────────┐                  ┌──────────────────┐
│  内循环       │                  │   外循环           │
│ (同一会话内)   │                  │ (跨会话)           │
└──────────────┘                  └──────────────────┘
     │                                    │
     ▼                                    ▼
[plan-interview]              .learnings/ (积累教训)
     │                              │
     ▼                              ▼
[intent-framed-agent]    [learning-aggregator]
[context-surfing]           (聚合 → 发现模式)
     │                              │
     ▼                              ▼
[verify-gate]              [harness-updater]
(编译+测试+lint)               (编码为永久规则)
     │                              │
     ▼                              ▼
[simplify-and-harden]     [eval-creator]
(质量+安全审视)              (生成回归测试)
     │                              │
     ▼                              ▼
[self-improvement]        [pre-flight-check]
(记录教训)                    (新会话主动检查)
                                       ↑
                                       │
                              [CI 变体: -ci skills]
                          (CI 上的自动质量门+教训聚合)

六、对 OpenClaw 用户的建议

如果你只想装一个 → clawhub install self-improving-agent。零成本获得 Agent 持续记忆能力。

如果你想全流程 → clawhub install skill-pipeline。它会自动引入依赖的所有子 Skill。

如果你是团队开发者 → 再加装 CI 变体，在 GitHub Workflows 上跑质量门和教训聚合。

潜在注意点：

.learnings/ 文件会随着时间增长，建议定期归档旧条目
晋升机制需要偶尔人工介入（Agent 可能把偶发性错误推向全局规则）
多人项目中每个开发者各自维护 .learnings/，建议团队约定统一.learnings/ 共享

七、总结

Peter Skoett 的 Self-Improving Agent 能拿 ClawHub 下载量第一（425K），是因为它背后站着一整套深思熟虑的 Agent 工作流哲学，而不是一个孤立的功能点。这套体系回答了 Agent 开发中最根本的两个问题：

怎么让 Agent 在不退步？ → 内循环：规划→监控→验证→审视→记录
怎么让 Agent 在进化？ → 外循环：聚合→编码→测试→启动检查

在「Agent 越来越强，但记忆和组织能力天生薄弱」的时代，这套工程化的解决方案比任何模型侧的「长期记忆」都来得可靠和透明。