引言:为什么需要Harness Engineering?
2026年初,AI工程圈发生了一件大事:
OpenAI宣布用AI写了100万行代码,0%人工编码,0%人工审查。
这不是科幻,这是真实发生的事情。但问题是:
如果AI能写100万行代码,那工程师的价值在哪里?
答案是:驾驭工程(Harness Engineering)。
三个时代的演进
Prompt Engineering时代(2022-2024)
核心思想:优化提示词,让AI输出更好的结果。
典型工作:
- 写清楚指令
- 提供示例(Few-shot)
- 调整输出格式
局限性:
- 只关注单次对话
- 忽略上下文管理
- 无法处理复杂任务
类比:就像教一个人做一道菜,你只告诉他步骤,但没给他厨房、食材和工具。
Context Engineering时代(2024-2025)
核心思想:管理上下文窗口,让AI获得足够的信息。
典型工作:
- RAG(检索增强生成)
- 长上下文管理
- 信息筛选和压缩
局限性:
- 只关注信息输入
- 忽略执行环境
- 缺乏反馈机制
类比:你给了他完整的菜谱和食材,但还是没给他厨房。
Harness Engineering时代(2026+)
核心思想:构建完整的执行环境,让AI可靠地完成任务。
典型工作:
- 设计执行环境
- 构建反馈循环
- 管理工具和权限
- 监控和调试
核心公式:Agent = Model + Harness
类比:你给他一个完整的厨房、食材、工具、菜谱,还告诉他怎么检查菜有没有做好。
什么是Harness?
定义
Harness(驾驭环境):围绕AI模型构建的所有系统、工具、配置和基础设施。
简单说:除了模型本身,其他所有东西都是Harness。
六层架构
Harness Engineering的核心是六层架构:
`
┌─────────────────────────────────────┐
│ 6. Observability(可观测性) │ ← 监控、日志、追踪
├─────────────────────────────────────┤
│ 5. Eval(评估) │ ← 测试、验证、质量保证
├─────────────────────────────────────┤
│ 4. Memory(记忆) │ ← 短期/长期记忆、知识库
├─────────────────────────────────────┤
│ 3. Tool(工具) │ ← API、MCP、外部能力
├─────────────────────────────────────┤
│ 2. Context(上下文) │ ← 信息管理、RAG
├─────────────────────────────────────┤
│ 1. Prompt(提示词) │ ← 指令设计、输出格式
└─────────────────────────────────────┘
`
每层的作用
| 层 | 作用 | 类比 |
|---|
|—|——|——|
| Prompt | 告诉AI做什么 | 菜谱 |
|---|---|---|
| Context | 给AI需要的信息 | 食材 |
| Tool | 给AI可用的工具 | 厨具 |
| Memory | 让AI记住经验 | 厨师的记忆 |
| Eval | 检查AI做得好不好 | 品尝检查 |
| Observability | 监控整个过程 | 厨房监控 |
大厂实践
OpenAI的实践
案例:用AI写100万行代码
Harness设计:
- Prompt层:清晰的代码规范和约束
- Context层:完整的项目结构和文档
- Tool层:代码执行、测试、部署工具
- Memory层:代码库知识、历史经验
- Eval层:自动化测试、代码审查
- Observability层:执行日志、性能监控
关键洞察:
“工程师的价值不在于写代码,而在于设计让AI可靠写代码的环境。”
—— OpenAI
Anthropic的实践
案例:长时间运行的Agent系统
Harness设计:
- 会话管理:Agent可以运行数小时
- 状态持久化:中断后能恢复
- 错误处理:自动重试和回滚
- 资源管理:控制成本和时间
关键洞察:
“长时间运行的Agent需要更robust的Harness设计。”
—— Anthropic
HashiCorp的实践
案例:基础设施即代码的AI化
Harness设计:
- 声明式配置:用自然语言描述基础设施
- 计划-执行分离:AI生成计划,人工确认后执行
- 回滚机制:出错时能恢复到之前状态
Harness vs 传统软件工程
| 维度 | 传统软件工程 | Harness Engineering |
|---|
|——|————-|———————|
| 核心 | 写代码 | 设计环境 |
|---|---|---|
| 输入 | 需求文档 | 自然语言意图 |
| 输出 | 可执行程序 | 可靠的AI系统 |
| 调试 | 断点、日志 | 追踪、评估 |
| 测试 | 单元测试 | 评估测试 |
| 部署 | CI/CD | 持续迭代 |
为什么现在需要学Harness Engineering?
行业趋势
- 2026年2月:Mitchell Hashimoto首次提出概念
- 2026年3月:OpenAI发布百万行代码实验
- 2026年4月:Anthropic发布长时间运行Agent指南
- 2026年5月:各大厂纷纷跟进
职业影响
传统工程师:
- 写代码 → 被AI替代
- 调试代码 → 被AI替代
- 代码审查 → 被AI替代
Harness工程师:
- 设计环境 → 无法替代
- 构建反馈循环 → 无法替代
- 管理AI系统 → 无法替代
学习路径
`
第1阶段:理解概念(1-2周)
├── 读官方文档
├── 理解六层架构
└── 看大厂案例
第2阶段:动手实践(2-4周)
├── 搭建简单Harness
├── 设计反馈循环
└── 做评估测试
第3阶段:深入研究(1-2月)
├── 研究开源项目
├── 参与社区讨论
└── 写博客分享
第4阶段:生产应用(持续)
├── 应用到实际项目
├── 优化和迭代
└── 形成最佳实践
`
核心概念总结
三个关键公式
- Agent = Model + Harness
- Harness = Prompt + Context + Tool + Memory + Eval + Observability
- Loop Engineering = 设计Agent的迭代循环
五个核心原则
- 环境优先:设计环境比写代码更重要
- 反馈驱动:没有反馈的系统无法改进
- 可观测性:能看到才能优化
- 渐进式:从小系统开始,逐步扩展
- 人机协作:AI执行,人类监督
三个常见误区
- ❌ 只关注Prompt:Prompt只是六层中的一层
- ❌ 忽略Eval:没有评估的系统无法保证质量
- ❌ 过度自动化:有些决策需要人类参与
下一讲预告
下一讲:《Harness Engineering(二):六层架构详解》
我们将深入讲解:
- 每层的具体职责
- 层与层之间的关系
- 如何设计每层
- 实际案例分析
参考资料
官方文档
- OpenAI: Harness Engineering
- Anthropic: Effective harnesses for long-running agents
- Anthropic: Harness design for long-running application development
中文资料
GitHub项目
💡 一句话总结:Harness Engineering不是让AI更聪明,而是让AI更可靠。
发表回复