UncommonRoute 教程：给 LLM 请求加一层自动路由，先把便宜模型用明白

大模型成本控制最常见的错误，是只盯单价。单价当然重要，但真正烧钱的，是简单任务也走最贵模型，失败重试又继续走最贵模型，最后账单一看，像开了水龙头。

UncommonRoute 的思路是加一层自动路由。它作为 OpenAI 兼容代理，帮你判断请求复杂度，把简单任务交给便宜模型，把复杂任务交给更强模型。项目强调最高可以节省 82% 成本，这个数字别直接当承诺，应该用自己的任务集验证。

安装 CLI

推荐用 pipx 安装，避免污染系统 Python：

pipx install uncommon-route

如果机器还没有 pipx，可以先安装并写入 PATH：

python3 -m pip install --user pipx
python3 -m pipx ensurepath

已经在项目虚拟环境里，也可以用 pip：

python3 -m pip install uncommon-route

装完先跑初始化和诊断：

uncommon-route init
uncommon-route doctor

doctor 很重要。路由层如果自己配置不稳，后面所有模型调用都会跟着抖。

UncommonRoute 的价值，是尽量少改上层应用。你可以把原本指向 OpenAI 的客户端，改到本地或自托管代理地址。

一个典型接入思路：

应用继续使用 OpenAI 兼容接口
base_url 改成 UncommonRoute 代理
上游配置多个模型提供方
路由层根据请求选择模型

先不要接太多供应商。第一轮选一个强模型、一个中等模型、一个便宜模型就够了。模型太多，评测成本也会上来。

路由系统不能只看演示。你需要一组自己的任务样本。

可以按业务拆成几类：

摘要：短文本总结、长文本提纲
抽取：JSON 字段、表格信息、实体识别
客服：常见问题、复杂投诉
代码：解释报错、修改小函数、生成测试
推理：多条件判断、策略建议

每类准备二十到五十条。标注预期输出，至少标注“可用”和“不可用”。没有评测集，自动路由就是凭感觉省钱。

一开始不要让路由层过于激进。建议先把低风险任务交给便宜模型，高风险任务继续走强模型。

低风险：摘要、改写、分类、格式转换
中风险：结构化抽取、普通客服、简单代码解释
高风险：法律财务建议、生产代码修改、复杂推理、外部发送

等日志足够，再逐步下放。省钱不是目的，稳定完成任务才是目的。

自动路由一定会选错。关键是选错后怎么办。

可以设置三种回退：

格式失败：换强模型重试一次
事实不确定：要求引用来源或交给人工
连续失败：固定走强模型并记录样本

不要无限重试。便宜模型连错三次，成本和延迟可能比一开始用强模型还高。

UncommonRoute 提供 dashboard。看板不要只看节省了多少钱，还要看质量和失败。

建议盯这些指标：

各模型命中比例
每类任务平均成本
回退率
人工复核率
错误样本 TOP
延迟分布

如果低价模型命中很高，但人工复核也飙升，那不是省钱，是把成本转嫁给人。

把 10% 流量交给路由层，剩下继续走旧链路。对比一周，再决定是否扩大。

灰度期间记录：

同一请求旧链路和新链路输出差异
用户投诉或人工改写次数
平均成本变化
平均延迟变化
失败样本归因

UncommonRoute 这类工具的意义，不是让你盲目追便宜模型，而是把模型选择变成可观测、可回退、可优化的工程问题。便宜模型能不能用，不靠信仰，靠任务验收。