Future AGI 教程：把 Agent 评测、追踪和防护放进同一个闭环

Agent 应用最怕“演示很好，上线就飘”。本地试十次都对，真实用户换个问法就错；工具调用在测试里正常，生产里突然走偏；你知道它失败了，却不知道失败发生在哪一步。

Future AGI 想做的是一条完整质量闭环：评测、追踪、模拟、数据集、网关、防护都放在一个平台里。它不是单点 eval 工具，而是更像 Agent 应用的质量工作台。

本地先起平台，再接一个小 Agent

项目还处在早期阶段，适合先用非生产服务试跑。自托管路径可以用 Docker Compose 起环境。

git clone https://github.com/future-agi/future-agi.git
cd future-agi
cp futureagi/.env.example futureagi/.env
docker compose up -d

然后选一个最小 Agent 接入：比如一个 RAG 问答、一个客服路由、一个代码审查摘要。不要一开始就接全量业务。质量平台最重要的是建立基线，而不是把所有链路一次性迁进去。

要让 Future AGI 这类平台发挥作用，先准备三类数据：

1. Golden set：标准问题、期望答案、禁止回答边界
2. Trace sample：真实调用链路，包含工具调用和失败案例
3. Simulation cases：恶意输入、边界输入、长上下文输入、格式破坏输入

没有这些数据，平台只会变成漂亮仪表盘。有了这些数据，你才能回答：新版 prompt 是否退步？换模型后工具调用是否更稳定？guardrail 是否误伤正常用户？上线前是否能拦住高风险输出？

Agent 质量不能只用“准确率”概括。更有用的指标包括：工具调用是否选对、是否遵守权限、回答是否可追溯、失败时是否安全退出、是否出现幻觉引用、成本是否超预算。

Future AGI 把 evals、tracing、gateway 和 guardrails 放在一起，意义就在于能把问题连起来看。一次错误回答，可能不是模型差，而是检索差；一次工具误调，可能不是工具问题，而是路由 prompt 太松；一次成本飙升，可能是重试策略没上限。

这类平台适合在 Agent 从 demo 走向生产前接入。别等用户已经开始报错，再补评测。更稳的节奏是：先建 baseline，再接 trace，再上 guardrail，最后把关键 eval 放进 CI。Agent 应用要上线，质量闭环得先上线。