Google Agent Quality 白皮书阅读摘要

本文包含 AI 辅助创作内容

前言

这个文章是一个多月前对谷歌的 Agent Quality 白皮书的阅读摘要。

原文阅读：https://www.kaggle.com/whitepaper-agent-quality

系列文章汇总：https://cloud.google.com/blog/products/ai-machine-learning/a-devs-guide-to-production-ready-ai-agents

建议直接阅读原文，这里是一个读书笔记，比较粗糙。

解读

衡量 Agent 质量，不是最终输出的评估，真正标注是整个决策过程
观测性是基础
1. 无法观察的过程无法评估
2. 观测性三大支柱
  1. 日志记录
  2. 追踪
  3. 指标
评估是一个持续循环
1. 可扩展的 AI 驱动评估器
2. 人类参与（human in the loop）

第一章：智能体质量的四大支柱

四大支柱

有效性
效率
鲁棒性
安全

要点

传统 QA 对确定性系统有效
失败并非代码错误，而是判断出错
传统 QA 按照固定规范来验证逻辑
Agent 的评估，在动态和不确定的世界中验证、评估质量、稳健型、可信度
Agent 面对的问题
- 质量细微退化
  - 具有隐蔽性
- 算法偏见 → 训练中的系统性偏见的数据
- 事实性的幻觉 → 高置信度给出事实错误和虚假信息
- 概念漂移 → 真实世界的变化导致原始训练数据逐渐失效
- 突发意外 → 无限循环 or 反复编辑
根本原因需要 1. 深度数据分析 2. 模型再训练 3. 系统性评估
范式转变
- 评估算法与评估 AI Agent 有本质区别，因为 AI Agent 是一个系统
- LLM 输出结果具有概率性
- Agent 涉及
  - 规划与多步推理 → 思维→行动→观察→思考
  - 工具使用与调用 → API 外部可能会变化
  - 记忆功能 → 记忆存在变换，同样的输入可能到第二天就不一样了
- 多 Agent
  - 系统故障
  - 协同评估/竞争评估
评估单位不再是模型，而是整个系统轨迹
评价框架
- 这个 Agent 是否提供了可衡量到价值，并与用户的意图一致
- 四个支柱定义 Agent 质量
  1. 有效性（目标达成） → 最终的结果，不是写出了代码，而是写出的代码是否有效
  2. 效率（运营成本）
    1. 资源消耗量 token
    2. 实际运行时间（耗时）
    3. 轨迹复杂度（步数）
  3. 鲁棒性（可靠性）
    1. API 超时/用户模糊指令/外部网站布局异常，能否优雅退出
    2. 在需要时主动求证用户意图，并清晰说明错误原因
    3. 而非直接崩溃或者错误感知
  4. 安全性与合规性（可信度）
    1. 伦理规范
    2. 确保公平性/偏见规避
    3. 拒绝有害指令
关注点从验证（检查规格）转向确认（评估价值）。
好的评估是什么样子？

第二章：由外而内的战略框架

由外而内的战略框架
- 唯一真正重要的指标 实际成功 → 有效性
- 输出评估
  - 任务成功率 → 二元或者分级的评估
  - 用户满意度
- 过程评估
  - 规划（Plan）→ 上下文污染 or 重复输出循环
  - 工具
    - （选择与参数化）调用错误工具、遗漏必要工具、误判工具名称或参数类型，或调用冗余工具
    - 工具调用结果解析错误
  - 记忆
  - RAG 性能 → 检索到无关文档、获取过时或错误信息，或是大语言模型完全忽略上下文却仍生成虚假答案。
  - 轨迹效率与稳健性 →
- 评估的方法
  - 自动化指标
  - LLM-as-a-Judge
  - Agent-as-a-Judge
  - Human-in-the-loop
  - 用户反馈和 Reviewer UI
- 合规和安全性评估
知道要评估什么（轨迹）是成功的一半，另一半是如何评估
- 基于字符串的相似度（ROUGE、BLEU），用于将生成文本与参考文本进行比较。
- 基于嵌入的相似性（BERTScore，余弦相似度），用于衡量语义接近度。
LLM-as-a-Judge
- 我们向”法官”大语言模型（LLM）提供以下内容：智能体的输出、原始提示、标准答案或参考答案（如存在），以及详细的评估标准（例如：”请用 1-5 分的评分标准评估该回答的有用性、正确性和安全性，并说明你的理由。”）该方法能提供可扩展、快速且出人意料地细致的反馈，尤其适用于评估智能体的’思维’质量或其对工具响应的解读等中间环节。虽然无法替代人工判断，但数据科学团队可借此快速评估数千种场景下的性能表现，从而实现迭代评估流程。
Agent-as-a-Judge
- 计划质量：计划是否具有逻辑结构和可行性？
- 工具使用：是否选择了正确的工具并正确使用？
- 上下文处理：代理是否有效利用了先前信息？
Human-in-the-loop
User Feedback 和 Reviewer UI
- 低摩擦反馈：向上/向下滑动拇指、快速滑动或简短评论。
- 具体情境的审查：反馈应与完整对话及智能体推理轨迹相结合。
- 审核者用户界面（UI）：采用双面板设计：左侧显示对话内容，右侧呈现推理步骤，并支持”计划不周”或”工具误用”等问题的内嵌标记。
- 治理仪表板：汇总反馈，突出反复出现的问题和风险。

第三章：可观察性

探视代理人的内心世界

日志
traces
- span
- 上下文传播
指标
- 性能
  - 延迟时间
  - P50 P99
  - 错误率
- 费用
  - 每个任务的 token 数
  - 成本
- 有效性
  - 任务完成率
  - 工具使用频率
质量指标
- 正确性与准确性
- 轨迹遵循性
- 有用性与相关性：Agent 的最终响应是否对用户真正有用且与他们的查询相关？
仪表盘与警报：系统健康与模型质量的分离
- 运营仪表盘（系统指标）
  - 它追踪的内容：P99 延迟、错误率、API 成本、Token 消耗。
  - 目的：及时发现系统故障、性能下降或预算超支。
  - 示例警报：警报：P99 延迟>3 秒持续 5 分钟。这表明系统存在瓶颈，需要立即进行工程处理。
- 质量仪表盘（用于质量指标）：该类别追踪智能体效能与正确性的细微且变化缓慢的指标。对于负责智能体决策与输出质量的产品负责人、数据科学家及 AgentOps 团队而言，该功能至关重要。
  - 其追踪指标包括：事实正确性评分、轨迹依从性、有用性评分、幻觉发生率。
  - 目的：检测智能体质量的细微变化，特别是在部署新模型或提示后。
  - 示例警报：”有用性评分”在过去 24 小时内下降了 10%。这表明虽然系统可能运行良好（系统指标正常），但代理输出的质量正在下降，需要对其逻辑或数据进行调查。
核心业务：粒度与开销
- 最佳实践 - 动态抽样
  - 选择仅追踪 10% 的成功请求，同时记录全部错误事件。

第四章：结论

步骤

步骤 1：定义质量目标（目标）

一个飞轮需要明确方向。正如我们在第一章所述，这一切都始于质量的四大支柱：
1. 有效性
2. 成本效益
3. 安全性
4. 用户信任
这些支柱并非抽象的理想，而是具体的目标，它们赋予我们的评估工作以意义，并使 flywheel 与真正的商业价值保持一致。

步骤 2：可见性工具（基础）

无法看见的事物，自然无法掌控。正如我们在可观察性章节所述，必须要求智能体生成结构化日志（智能体的日记）和端到端追踪（叙事线索）。这种可观察性是基础性实践，它能生成衡量四大支柱所需的丰富证据，为智能体的运转提供必要动力。
- 日志
- trace 端到端追踪

步骤 3：评估流程（引擎）

在建立可见性后，我们即可对性能进行评判。正如评估章节所述，这需要采用战略性的”由外而内”评估方法，既要考察最终输出结果，也要全面评估整个推理流程。这是推动变革的强大动力——采用可扩展的 LLM-as-a-Judge 系统（人工智能辅助裁判系统）提升速度，同时运用人机协作（HITL）的’黄金标准’确保数据真实可靠。
- 既要考察最终输出结果，也要全面评估整个推理流程

步骤 4：构建反馈循环（动力源）

这正是第一章提出的”可评估设计架构”得以实现的关键环节。通过搭建关键反馈循环，我们确保所有生产故障在被捕获并标注后，都能通过程序化转换成为”黄金”评估集中的永久回归测试。每一次故障都让系统更智能，加速故障排查机制的运转，推动持续改进的永不停歇。

可信 Agent 的三个原则

原则 1：将评估视为架构支柱而非最终步骤

还记得第一章提到的赛车比喻吗？你不会先造好一级方程式赛车再加装传感器，而是从头开始设计，一开始就内置遥测接口。智能工作负载同样需要这种 DevOps 范式。可靠的智能体必须”通过设计可评估”，从代码第一行就植入日志和追踪功能，这些数据是判断质量的关键。质量是架构设计的选择，而非最终的质量保证环节。

原则 2：轨迹即真相

对于智能体而言，最终答案不过是漫长故事的句号。正如我们在评估章节所述，衡量智能体逻辑性、安全性和效率的真正标准，在于其端到端的”思维过程”——即轨迹。这正是过程评估的精髓。要真正理解智能体成败的原因，必须剖析这条路径。而唯有通过第三章详述的深度可观测性实践，才能实现这一目标。

原则 3：人类是仲裁者

自动化是我们的规模工具；人性是我们的真理来源。
自动化技术从 LLM 法官系统到安全分级系统都不可或缺。但正如我们在深度解析人机协作（HITL）评估时所阐明的，’优秀’的定义、对细微差别的验证，以及最终对安全性和公平性的判断，都必须以人类价值观为根基。AI 可以辅助评分，但评分标准由人制定，’A+’ 的真正含义也由人决定。

做点有意义的事