大模型成本控制最常见的错误,是只盯单价。单价当然重要,但真正烧钱的,是简单任务也走最贵模型,失败重试又继续走最贵模型,最后账单一看,像开了水龙头。
UncommonRoute 的思路是加一层自动路由。它作为 OpenAI 兼容代理,帮你判断请求复杂度,把简单任务交给便宜模型,把复杂任务交给更强模型。项目强调最高可以节省 82% 成本,这个数字别直接当承诺,应该用自己的任务集验证。
安装 CLI
推荐用 pipx 安装,避免污染系统 Python:
pipx install uncommon-route如果机器还没有 pipx,可以先安装并写入 PATH:
python3 -m pip install --user pipx
python3 -m pipx ensurepath已经在项目虚拟环境里,也可以用 pip:
python3 -m pip install uncommon-route装完先跑初始化和诊断:
uncommon-route init
uncommon-route doctordoctor 很重要。路由层如果自己配置不稳,后面所有模型调用都会跟着抖。
把客户端指向代理
UncommonRoute 的价值,是尽量少改上层应用。你可以把原本指向 OpenAI 的客户端,改到本地或自托管代理地址。
一个典型接入思路:
应用继续使用 OpenAI 兼容接口
base_url 改成 UncommonRoute 代理
上游配置多个模型提供方
路由层根据请求选择模型先不要接太多供应商。第一轮选一个强模型、一个中等模型、一个便宜模型就够了。模型太多,评测成本也会上来。
先准备自己的小评测集
路由系统不能只看演示。你需要一组自己的任务样本。
可以按业务拆成几类:
摘要:短文本总结、长文本提纲
抽取:JSON 字段、表格信息、实体识别
客服:常见问题、复杂投诉
代码:解释报错、修改小函数、生成测试
推理:多条件判断、策略建议每类准备二十到五十条。标注预期输出,至少标注“可用”和“不可用”。没有评测集,自动路由就是凭感觉省钱。
路由策略要保守起步
一开始不要让路由层过于激进。建议先把低风险任务交给便宜模型,高风险任务继续走强模型。
低风险:摘要、改写、分类、格式转换
中风险:结构化抽取、普通客服、简单代码解释
高风险:法律财务建议、生产代码修改、复杂推理、外部发送等日志足够,再逐步下放。省钱不是目的,稳定完成任务才是目的。
失败回退要写清楚
自动路由一定会选错。关键是选错后怎么办。
可以设置三种回退:
格式失败:换强模型重试一次
事实不确定:要求引用来源或交给人工
连续失败:固定走强模型并记录样本不要无限重试。便宜模型连错三次,成本和延迟可能比一开始用强模型还高。
Dashboard 看什么
UncommonRoute 提供 dashboard。看板不要只看节省了多少钱,还要看质量和失败。
建议盯这些指标:
各模型命中比例
每类任务平均成本
回退率
人工复核率
错误样本 TOP
延迟分布如果低价模型命中很高,但人工复核也飙升,那不是省钱,是把成本转嫁给人。
上线前做灰度
把 10% 流量交给路由层,剩下继续走旧链路。对比一周,再决定是否扩大。
灰度期间记录:
同一请求旧链路和新链路输出差异
用户投诉或人工改写次数
平均成本变化
平均延迟变化
失败样本归因UncommonRoute 这类工具的意义,不是让你盲目追便宜模型,而是把模型选择变成可观测、可回退、可优化的工程问题。便宜模型能不能用,不靠信仰,靠任务验收。