Google Agent Quality 白皮书阅读摘要
本文包含 AI 辅助创作内容
目录
前言
这个文章是一个多月前对谷歌的 Agent Quality 白皮书的阅读摘要。
原文阅读:https://www.kaggle.com/whitepaper-agent-quality
系列文章汇总:https://cloud.google.com/blog/products/ai-machine-learning/a-devs-guide-to-production-ready-ai-agents
建议直接阅读原文,这里是一个读书笔记,比较粗糙。
解读
- 衡量 Agent 质量,不是最终输出的评估,真正标注是整个决策过程
- 观测性是基础
- 无法观察的过程无法评估
- 观测性三大支柱
- 日志记录
- 追踪
- 指标
- 评估是一个持续循环
- 可扩展的 AI 驱动评估器
- 人类参与(human in the loop)
第一章:智能体质量的四大支柱
四大支柱
- 有效性
- 效率
- 鲁棒性
- 安全
要点
- 传统 QA 对确定性系统有效
- 失败并非代码错误,而是判断出错
- 传统 QA 按照固定规范来验证逻辑
- Agent 的评估,在动态和不确定的世界中验证、评估质量、稳健型、可信度
- Agent 面对的问题
- 质量细微退化
- 具有隐蔽性
- 算法偏见 → 训练中的系统性偏见的数据
- 事实性的幻觉 → 高置信度给出事实错误和虚假信息
- 概念漂移 → 真实世界的变化导致原始训练数据逐渐失效
- 突发意外 → 无限循环 or 反复编辑
- 质量细微退化
- 根本原因需要 1. 深度数据分析 2. 模型再训练 3. 系统性评估
- 范式转变
- 评估算法与评估 AI Agent 有本质区别,因为 AI Agent 是一个系统
- LLM 输出结果具有概率性
- Agent 涉及
- 规划与多步推理 → 思维→行动→观察→思考
- 工具使用与调用 → API 外部可能会变化
- 记忆功能 → 记忆存在变换,同样的输入可能到第二天就不一样了
- 多 Agent
- 系统故障
- 协同评估/竞争评估
- 评估单位不再是模型,而是整个系统轨迹
- 评价框架
- 这个 Agent 是否提供了可衡量到价值,并与用户的意图一致
- 四个支柱定义 Agent 质量
- 有效性(目标达成) → 最终的结果,不是写出了代码,而是写出的代码是否有效
- 效率(运营成本)
- 资源消耗量 token
- 实际运行时间(耗时)
- 轨迹复杂度(步数)
- 鲁棒性(可靠性)
- API 超时/用户模糊指令/外部网站布局异常,能否优雅退出
- 在需要时主动求证用户意图,并清晰说明错误原因
- 而非直接崩溃或者错误感知
- 安全性与合规性(可信度)
- 伦理规范
- 确保公平性/偏见规避
- 拒绝有害指令
- 关注点从验证(检查规格)转向确认(评估价值)。
- 好的评估是什么样子?
第二章:由外而内的战略框架
- 由外而内的战略框架
- 唯一真正重要的指标 实际成功 → 有效性
- 输出评估
- 任务成功率 → 二元或者分级的评估
- 用户满意度
- 过程评估
- 规划(Plan)→ 上下文污染 or 重复输出循环
- 工具
- (选择与参数化)调用错误工具、遗漏必要工具、误判工具名称或参数类型,或调用冗余工具
- 工具调用结果解析错误
- 记忆
- RAG 性能 → 检索到无关文档、获取过时或错误信息,或是大语言模型完全忽略上下文却仍生成虚假答案。
- 轨迹效率与稳健性 →
- 评估的方法
- 自动化指标
- LLM-as-a-Judge
- Agent-as-a-Judge
- Human-in-the-loop
- 用户反馈和 Reviewer UI
- 合规和安全性评估
- 知道要评估什么(轨迹)是成功的一半,另一半是如何评估
- 基于字符串的相似度(ROUGE、BLEU),用于将生成文本与参考文本进行比较。
- 基于嵌入的相似性(BERTScore,余弦相似度),用于衡量语义接近度。
- LLM-as-a-Judge
- 我们向”法官”大语言模型(LLM)提供以下内容:智能体的输出、原始提示、标准答案或参考答案(如存在),以及详细的评估标准(例如:”请用 1-5 分的评分标准评估该回答的有用性、正确性和安全性,并说明你的理由。”)该方法能提供可扩展、快速且出人意料地细致的反馈,尤其适用于评估智能体的’思维’质量或其对工具响应的解读等中间环节。虽然无法替代人工判断,但数据科学团队可借此快速评估数千种场景下的性能表现,从而实现迭代评估流程。
- Agent-as-a-Judge
- 计划质量:计划是否具有逻辑结构和可行性?
- 工具使用:是否选择了正确的工具并正确使用?
- 上下文处理:代理是否有效利用了先前信息?
-
Human-in-the-loop
- User Feedback 和 Reviewer UI
- 低摩擦反馈:向上/向下滑动拇指、快速滑动或简短评论。
- 具体情境的审查:反馈应与完整对话及智能体推理轨迹相结合。
- 审核者用户界面(UI):采用双面板设计:左侧显示对话内容,右侧呈现推理步骤,并支持”计划不周”或”工具误用”等问题的内嵌标记。
- 治理仪表板:汇总反馈,突出反复出现的问题和风险。
第三章:可观察性
探视代理人的内心世界
- 日志
- traces
- span
- 上下文传播
- 指标
- 性能
- 延迟时间
- P50 P99
- 错误率
- 费用
- 每个任务的 token 数
- 成本
- 有效性
- 任务完成率
- 工具使用频率
- 性能
- 质量指标
- 正确性与准确性
- 轨迹遵循性
- 有用性与相关性:Agent 的最终响应是否对用户真正有用且与他们的查询相关?
- 仪表盘与警报:系统健康与模型质量的分离
- 运营仪表盘(系统指标)
- 它追踪的内容:P99 延迟、错误率、API 成本、Token 消耗。
- 目的:及时发现系统故障、性能下降或预算超支。
- 示例警报:警报:P99 延迟>3 秒持续 5 分钟。这表明系统存在瓶颈,需要立即进行工程处理。
- 质量仪表盘(用于质量指标):该类别追踪智能体效能与正确性的细微且变化缓慢的指标。对于负责智能体决策与输出质量的产品负责人、数据科学家及 AgentOps 团队而言,该功能至关重要。
- 其追踪指标包括:事实正确性评分、轨迹依从性、有用性评分、幻觉发生率。
- 目的:检测智能体质量的细微变化,特别是在部署新模型或提示后。
- 示例警报:”有用性评分”在过去 24 小时内下降了 10%。这表明虽然系统可能运行良好(系统指标正常),但代理输出的质量正在下降,需要对其逻辑或数据进行调查。
- 运营仪表盘(系统指标)
- 核心业务:粒度与开销
- 最佳实践 - 动态抽样
- 选择仅追踪 10% 的成功请求,同时记录全部错误事件。
- 最佳实践 - 动态抽样
第四章:结论
步骤
步骤 1:定义质量目标(目标)
- 一个飞轮需要明确方向。正如我们在第一章所述,这一切都始于质量的四大支柱:
- 有效性
- 成本效益
- 安全性
- 用户信任
- 这些支柱并非抽象的理想,而是具体的目标,它们赋予我们的评估工作以意义,并使 flywheel 与真正的商业价值保持一致。
步骤 2:可见性工具(基础)
- 无法看见的事物,自然无法掌控。正如我们在可观察性章节所述,必须要求智能体生成结构化日志(智能体的日记)和端到端追踪(叙事线索)。这种可观察性是基础性实践,它能生成衡量四大支柱所需的丰富证据,为智能体的运转提供必要动力。
- 日志
- trace 端到端追踪
步骤 3:评估流程(引擎)
- 在建立可见性后,我们即可对性能进行评判。正如评估章节所述,这需要采用战略性的”由外而内”评估方法,既要考察最终输出结果,也要全面评估整个推理流程。这是推动变革的强大动力——采用可扩展的 LLM-as-a-Judge 系统(人工智能辅助裁判系统)提升速度,同时运用人机协作(HITL)的’黄金标准’确保数据真实可靠。
- 既要考察最终输出结果,也要全面评估整个推理流程
步骤 4:构建反馈循环(动力源)
- 这正是第一章提出的”可评估设计架构”得以实现的关键环节。通过搭建关键反馈循环,我们确保所有生产故障在被捕获并标注后,都能通过程序化转换成为”黄金”评估集中的永久回归测试。每一次故障都让系统更智能,加速故障排查机制的运转,推动持续改进的永不停歇。
可信 Agent 的三个原则
原则 1:将评估视为架构支柱而非最终步骤
- 还记得第一章提到的赛车比喻吗?你不会先造好一级方程式赛车再加装传感器,而是从头开始设计,一开始就内置遥测接口。智能工作负载同样需要这种 DevOps 范式。可靠的智能体必须”通过设计可评估”,从代码第一行就植入日志和追踪功能,这些数据是判断质量的关键。质量是架构设计的选择,而非最终的质量保证环节。
原则 2:轨迹即真相
- 对于智能体而言,最终答案不过是漫长故事的句号。正如我们在评估章节所述,衡量智能体逻辑性、安全性和效率的真正标准,在于其端到端的”思维过程”——即轨迹。这正是过程评估的精髓。要真正理解智能体成败的原因,必须剖析这条路径。而唯有通过第三章详述的深度可观测性实践,才能实现这一目标。
原则 3:人类是仲裁者
- 自动化是我们的规模工具;人性是我们的真理来源。
- 自动化技术从 LLM 法官系统到安全分级系统都不可或缺。但正如我们在深度解析人机协作(HITL)评估时所阐明的,’优秀’的定义、对细微差别的验证,以及最终对安全性和公平性的判断,都必须以人类价值观为根基。AI 可以辅助评分,但评分标准由人制定,’A+’ 的真正含义也由人决定。