DeepSeek V4 缓存价打到 2 分：模型价格战，开始从“输出”转向“复用”

DeepSeek V4 这次降价，最值得看的不是“又便宜了”，而是便宜的位置。

DeepSeek V4 Flash 的百万输入缓存命中价格，从 0.2 元降到 0.02 元；V4 Pro 的百万输入缓存命中价格，也从 1 元降到 0.1 元。未命中输入和输出价格没有同等幅度下调。

这说明价格战开始从“所有 token 一起打折”，转向“鼓励你复用上下文”。

缓存命中便宜，代表什么

大模型成本里，输入并不都是一次性的。

很多 Agent 和企业应用，每次请求都会带一大段固定内容：系统提示、工具说明、项目规范、用户画像、产品文档、代码片段、合同条款。它们每次都差不多，只是在后面追加一个新问题或新任务。

如果这些固定前缀能被缓存，供应商就不需要每次都按完整成本处理。于是缓存命中价格可以压得很低，用户也会被鼓励把高频、重复、可复用的上下文组织得更好。

这不是简单让利，而是在改变应用开发方式。

聊天应用可能一次问答就结束了，缓存收益有限。Agent 不一样。

一个 coding agent 可能反复带项目规则、工具 schema、仓库摘要；一个客服 Agent 可能反复带产品手册和话术边界；一个 RAG 系统可能反复带相同的任务模板和引用格式。

只要这些内容能稳定命中缓存，单位任务成本会明显下降。反过来，如果应用每次都拼一段随机 prompt，或者上下文顺序乱变，缓存命中率就上不去，便宜价也吃不到。

所以未来模型成本优化，不只是“选哪家 API”，还包括“你的上下文有没有工程化”。

缓存命中价很诱人，但别把它理解成随便塞上下文。

首先，输出仍然贵。很多任务真正烧钱的地方在长输出、反复修正和失败重试。输入再便宜，如果模型一次次答偏，成本照样上去。

其次，未命中仍然要付正常价。开发者如果没有做好 prompt 稳定、上下文分层和缓存策略，账单可能并不会像想象中那样降。

最后，能力仍要看任务。便宜模型适合高频、标准化、可验证任务；需要深推理、复杂工具调用、长链路执行时，仍要看稳定性，不能只按单价拍脑袋。

比较模型价格，别只看“百万 token 多少钱”。更靠谱的是按任务算：一次需求分析、一次代码修改、一次客服会话、一次报告生成，到底需要多少输入、多少输出、多少重试、多少人工复查。

尤其是 Agent 场景，要把缓存命中率单独列出来：固定前缀多长，能命中多少次，未命中比例多少，失败重试几次。

当缓存命中被打到极低价格，工程团队就有动力重新设计 prompt 和上下文结构。固定规则尽量稳定，动态信息尽量后置；常用工具说明不要每次随机改写；长文档不要全量乱塞，而要拆成可复用块。

DeepSeek V4 这次价格动作，本质是在告诉市场：模型供应商不只争“谁的输出更便宜”，也在争“谁能承接更多可复用上下文”。

这对开发者是好事，但也提出了新要求。省钱不再只是换一家 API，而是把应用里的上下文、缓存、路由和验收一起做成工程。价格战打到这里，才算真进入下半场。