DeepSeek V4 这次降价,最值得看的不是“又便宜了”,而是便宜的位置。
DeepSeek V4 Flash 的百万输入缓存命中价格,从 0.2 元降到 0.02 元;V4 Pro 的百万输入缓存命中价格,也从 1 元降到 0.1 元。未命中输入和输出价格没有同等幅度下调。
这说明价格战开始从“所有 token 一起打折”,转向“鼓励你复用上下文”。
缓存命中便宜,代表什么
大模型成本里,输入并不都是一次性的。
很多 Agent 和企业应用,每次请求都会带一大段固定内容:系统提示、工具说明、项目规范、用户画像、产品文档、代码片段、合同条款。它们每次都差不多,只是在后面追加一个新问题或新任务。
如果这些固定前缀能被缓存,供应商就不需要每次都按完整成本处理。于是缓存命中价格可以压得很低,用户也会被鼓励把高频、重复、可复用的上下文组织得更好。
这不是简单让利,而是在改变应用开发方式。
对 Agent 应用尤其敏感
聊天应用可能一次问答就结束了,缓存收益有限。Agent 不一样。
一个 coding agent 可能反复带项目规则、工具 schema、仓库摘要;一个客服 Agent 可能反复带产品手册和话术边界;一个 RAG 系统可能反复带相同的任务模板和引用格式。
只要这些内容能稳定命中缓存,单位任务成本会明显下降。反过来,如果应用每次都拼一段随机 prompt,或者上下文顺序乱变,缓存命中率就上不去,便宜价也吃不到。
所以未来模型成本优化,不只是“选哪家 API”,还包括“你的上下文有没有工程化”。
低价不等于可以乱用
缓存命中价很诱人,但别把它理解成随便塞上下文。
首先,输出仍然贵。很多任务真正烧钱的地方在长输出、反复修正和失败重试。输入再便宜,如果模型一次次答偏,成本照样上去。
其次,未命中仍然要付正常价。开发者如果没有做好 prompt 稳定、上下文分层和缓存策略,账单可能并不会像想象中那样降。
最后,能力仍要看任务。便宜模型适合高频、标准化、可验证任务;需要深推理、复杂工具调用、长链路执行时,仍要看稳定性,不能只按单价拍脑袋。
真正该做的成本账
比较模型价格,别只看“百万 token 多少钱”。更靠谱的是按任务算:一次需求分析、一次代码修改、一次客服会话、一次报告生成,到底需要多少输入、多少输出、多少重试、多少人工复查。
尤其是 Agent 场景,要把缓存命中率单独列出来:固定前缀多长,能命中多少次,未命中比例多少,失败重试几次。
当缓存命中被打到极低价格,工程团队就有动力重新设计 prompt 和上下文结构。固定规则尽量稳定,动态信息尽量后置;常用工具说明不要每次随机改写;长文档不要全量乱塞,而要拆成可复用块。
DeepSeek V4 这次价格动作,本质是在告诉市场:模型供应商不只争“谁的输出更便宜”,也在争“谁能承接更多可复用上下文”。
这对开发者是好事,但也提出了新要求。省钱不再只是换一家 API,而是把应用里的上下文、缓存、路由和验收一起做成工程。价格战打到这里,才算真进入下半场。