知识
← 返回

Peter Skoett 完整工作流体系调研报告

2026-05-17 金融
#金融 #githubfetch

Peter Skoett 完整工作流体系调研报告

来源:ClawHub 第一 Skill 的幕后哲学——从单点 Skill 到完整 Agent 工作流体系
作者:@pskoett(Peter Skoett)
GitHub: https://github.com/pskoett/pskoett-ai-skills
下载量:425K+(self-improving-agent 单项),全系列累计 80 万+


一、缘起:为什么会有这套体系?

Peter Skoett 不是一个只写一个 Skill 的作者。他观察到 AI Agent 开发中有一个根本性问题:Agent 天然没有「高峰上下文」意识,也学不会自己的错误。

他的核心洞察是:Agent 在四个时刻上下文质量最高——

  1. 规划完成后 — 刚理解完任务,思路最清晰
  2. 执行中途 — 正在编码,手头热
  3. 完成时 — 全部改动写完,可以全局审视
  4. 学到新东西时 — 刚被纠正,记忆最新鲜

大多数 Agent 工作流在这些时刻什么都不做。Peter 的整套体系就是在正确的时刻插入结构化的工作流,把高峰上下文榨干。

为此他设计了两层反馈循环:

  • 内循环(同一会话内) :检测问题 → 机器验证 → 自我修复 → 记录教训
  • 外循环(跨会话) :聚合教训 → 提炼规则 → 回归测试 → 会话启动自动检查

每一层环的每一步都有一个独立的 Skill。


二、完整 Skill 全家桶

A. 内循环 Skills(会话内保障质量)

1. plan-interview — 规划阶段

预防:「做了错误的东西」

在开始编码之前,以一个结构化面试的形式和用户对齐:约束条件、范围边界、风险点、成功标准。输出一份 docs/plans/ 下的计划文件。

这是全系列中唯一需要手动触发的 Skill(通过 /plan-interview),因为规划必须有人参与。后续所有 Skill 只要装上就自动激活,但也可以独立运行。

适用场景:任何非 trivial 的功能开发、重构、架构决策。


2. intent-framed-agent — 执行监控

预防:「做了超出范围的东西」

在执行开始时捕获一个轻量的「意图契约」(intent frame),然后在编码过程中持续监控范围漂移

当 Agent 开始做规划外的事情时,它自己会发现并提醒用户,而不是埋头做完再说。本质上是代码层面的「Check your scope before you check your code」。

适用场景:长任务、重构、跨文件修改。


3. context-surfing — 上下文健康监控

预防:「上下文污染导致质量崩溃」

这是整套体系里最容易被忽略但最实用的小工具。它持续监控 Agent 的上下文窗口健康度:

  • 上下文接近满载时自动退出,避免幻觉和遗漏
  • 在上下文质量最高峰(比如刚执行完关键步骤)时利用峰值输出
  • 如果上下文监控和范围监控同时触发,上下文退出优先——上下文坏了,什么检查都不可靠

适用场景:大型代码库操作、多轮对话的后期。


4. verify-gate — 机器验证门

预防:「交付了不能编译/测试失败的代码」

一个硬性的机器验证关卡。在 Agent 说「做好了」之后、交给人检查之前,自动运行编译→测试→lint。

如果任何环节失败,进入修复循环(每个阶段最多 3 次尝试)。只有全部通过才标记工作完成。

这里的设计哲学很关键——Agent 不应该等人告诉它「测试没过」 。机器能验证的东西,交给机器。

适用场景:所有代码变更的出口。


5. simplify-and-harden — 完成时质量审视

预防:「交付了粗糙/不安全的代码」

在 verify-gate 通过之后,利用完成时刻的高峰上下文,对改动做三轮扫描:

  • Simplify — 消除死代码、冗余逻辑、不必要的复杂度
  • Harden — 检查安全模式(输入验证、异常处理、边界条件)
  • Document — 补充微文档、改动说明

这三轮都在 Agent 仍然「手热」的时候完成,质量和效率都最高。

适用场景:所有代码变更提交前。


6. self-improvement — 错误与教训记录(ClawHub 第一)

预防:「同一个错误重复犯」

会话结束后最后的关卡。把本次会话中的错误、纠正、最佳实践记录到三个文件:

  • .learnings/LEARNINGS.md — 纠正、洞察、最佳实践
  • .learnings/ERRORS.md — 命令失败、集成错误
  • .learnings/FEATURE_REQUESTS.md — 用户想要的功能

每条记录有标准格式:ID(LRN-YYYYMMDD-XXX)、优先级、状态、影响域。普适性的教训会「晋升」到 AGENTS.md、SOUL.md、TOOLS.md 等永久文件中。


B. 外循环 Skills(跨会话持续进化)

7. learning-aggregator — 跨会话教训聚合

预防:「积累了教训但没人读」

定期扫描 .learnings/ 目录下的所有记录,按模式分组(重复出现的相同或类似错误)、排序、推荐晋升候选人。

它解决的是「记了但没用的」问题——记了一百条等于零条,除非有人把模式提炼出来。


8. harness-updater — 教训规则化

预防:「模式提炼了但没人写到配置文件里」

接收 learning-aggregator 推荐的候选人,自动将其编码为规则写入:

  • CLAUDE.md(项目级别约定)
  • AGENTS.md(工作流与自动化规则)
  • .github/copilot-instructions.md(Copilot 上下文)

这一步是把「经验」变成「基础设施」的关键环节。


9. eval-creator — 回归测试生成

预防:「修过的问题静默回归」

把晋升后的规则转化为永久的测试用例,存放在 .evals/ 目录下。后续可以定期运行回归检查。

比如:如果学到「不要在代码里硬编码 API Key」,就创建一个 eval 自动扫描所有新增代码是否有 API Key 泄漏。下次同样的错误提交时自动拦截。


10. pre-flight-check — 会话启动检查

预防:「带着已知问题开始新工作」

在新会话启动时,自动扫描 .learnings/​、.evals/,展示:

  • 当前待处理的高优先级错误
  • 需要注意的已知模式
  • 上一次回归测试的状态
  • 建议复习的教训

相当于每次上工前给你一份「当前隐患清单」。


C. 编排层

11. skill-pipeline — 全流程编排

把以上所有 Skill 串起来的调度器。根据任务类型(新功能 / 重构 / 修 Bug / 调研)自动选择正确的 Skill 组合和执行深度。

如果只装一个 Skill 但想要全流程,装这个就行。


D. CI 变体(GitHub Agentic Workflows)

Peter 还提供了一批 CI 版本 Skill(带 -ci​ 后缀),跑在 GitHub Agentic Workflows 上,不需要人在场

  • self-improvement-ci — 在 CI 中自动化捕获重复失败模式
  • simplify-and-harden-ci — 自动对 PR 做质量和安全扫描
  • learning-aggregator-ci — 定时聚合跨会话学习记录
  • eval-creator-ci — PR 级别的回归测试 + 定时生成新 eval

这些把「内循环」的一部分自动化成 CI 流程,适合团队项目和持续集成。


三、安装方式

OpenClaw

# 安装单个
clawhub install self-improving-agent

# 安装全流程编排(推荐,一个顶所有)
clawhub install skill-pipeline

Claude Code

/plugin marketplace add pskoett/pskoett-skills
/plugin install pskoett-ai-skills@pskoett-skills
/reload-plugins

Codex / Copilot CLI / Cursor

均通过各自插件机制或 gh skill install 安装,详阅作者的 GitHub README。


四、为什么这套体系能拿 ClawHub 第一?

4.1 从单点工具到操作系统

大多数 ClawHub 上的 Skill 是单点工具:天气查询、搜索增强、PDF 编辑。而 Peter 的 self-improvement 是一个操作系统层面的基础设施——它改变了 Agent 的行为模式,而不只是增加一个能力。

4.2 简单到极致

虽然背后是完整的两层循环哲学,但用户层面的感知只是「装一个 Skill → Agent 开始长记性」。不需要配置文件、不需要 API Key、不需要数据库。三个 Markdown 文件搞定。

4.3 渐进式应用

新手只用 self-improvement 就能获得价值。高级用户加装 learning-aggregator + harness-updater + eval-creator 组装出完整外循环。CI 用户再加 CI 变体。每一个层级独立可用,不强制。

4.4 模型无关

不依赖特定 LLM 的「长期记忆」或「自我反省」能力——甚至可以说,它补的正是 LLM 在这两方面的天然缺陷。换个模型照样工作,因为这完全是工程机制层面的设计。

4.5 平台无关

OpenClaw、Claude Code、Codex、Copilot CLI、GitHub CLI、Cursor、Gemini CLI 全部支持。作者的哲学是「Skill 标准应该是跨平台的」,他只管写好特定格式的工作流,剩下的由各个 Agent 平台去加载。


五、总分总一张图

                       ┌─────────────────────────────────────┐
                                   skill-pipeline            
                                  全流程编排调度              
                       └─────────────────────────────────────┘
                                       
                                    

                                         
┌──────────────┐                  ┌──────────────────┐
  内循环                            外循环           
 (同一会话内)                      (跨会话)           
└──────────────┘                  └──────────────────┘
                                         
                                         
[plan-interview]              .learnings/ (积累教训)
                                   
                                   
[intent-framed-agent]    [learning-aggregator]
[context-surfing]           (聚合  发现模式)
                                   
                                   
[verify-gate]              [harness-updater]
(编译+测试+lint)               (编码为永久规则)
                                   
                                   
[simplify-and-harden]     [eval-creator]
(质量+安全审视)              (生成回归测试)
                                   
                                   
[self-improvement]        [pre-flight-check]
(记录教训)                    (新会话主动检查)
                                       
                                       
                              [CI 变体: -ci skills]
                          (CI 上的自动质量门+教训聚合)

六、对 OpenClaw 用户的建议

如果你只想装一个clawhub install self-improving-agent。零成本获得 Agent 持续记忆能力。

如果你想全流程clawhub install skill-pipeline。它会自动引入依赖的所有子 Skill。

如果你是团队开发者 → 再加装 CI 变体,在 GitHub Workflows 上跑质量门和教训聚合。

潜在注意点

  • .learnings/ 文件会随着时间增长,建议定期归档旧条目
  • 晋升机制需要偶尔人工介入(Agent 可能把偶发性错误推向全局规则)
  • 多人项目中每个开发者各自维护 .learnings/,建议团队约定统一.learnings/ 共享

七、总结

Peter Skoett 的 Self-Improving Agent 能拿 ClawHub 下载量第一(425K),是因为它背后站着一整套深思熟虑的 Agent 工作流哲学,而不是一个孤立的功能点。这套体系回答了 Agent 开发中最根本的两个问题:

  1. 怎么让 Agent 在不退步? → 内循环:规划→监控→验证→审视→记录
  2. 怎么让 Agent 在进化? → 外循环:聚合→编码→测试→启动检查

在「Agent 越来越强,但记忆和组织能力天生薄弱」的时代,这套工程化的解决方案比任何模型侧的「长期记忆」都来得可靠和透明。