2026 年 6 月,MiniMax M3、GLM-5.1 与 Claude Opus 4.8 加入最新对比,DeepSeek V4 和小米 MiMo-V2.5 继续刷新低价区间。DeepSeek V4 Flash 与 MiMo-V2.5 的缓存命中输入都低至 $0.0028/M,厂商之间的价格差距空前悬殊。
这篇文章会帮你理清当前所有主流 AI API 的真实价格、不同场景下的月度成本估算,以及如何在不牺牲质量的前提下大幅削减 API 开支。
2026 年 6 月 AI API 厂商最新动态
先快速过一遍各家的产品线:
OpenAI 依然是体量最大的玩家。GPT-5.5($5/$30 每百万 Token,缓存命中输入 $0.50)是复杂编程和专业工作的前沿模型;GPT-5.3-Codex($1.75/$14)则是公开可查的 Codex API 专用编程模型。当前表格还覆盖 GPT-5.4、GPT-5、GPT-4o,以及专注推理的 o3 系列。
Anthropic 当前由 Claude 4.8/4.6 产品线领衔:Opus 4.8($5/$25)是最高能力选项;Sonnet 4.6($3/$15)是新一代最佳性价比旗舰;Haiku 4.5($1/$5)负责低延迟和低成本任务。
Google 当前新增 Gemini 3.5 Flash($1.50/$9,缓存输入 $0.15),并覆盖 Gemini 3.1 Pro(本文表格按 $2.00/$12 展示)、Gemini 3.1 Flash-Lite,以及 Gemini 2.5 系列。注意 Gemini 2.5 Flash 当前标准价是 $0.30/$2.50,不再是旧文里的 $0.15/$0.60。
xAI 当前以 Grok 4.3 和面向编程的 Grok Build 0.1 为主。
DeepSeek 用 V4 Flash 和 V4 Pro 重新定义低价 Agent 成本。V4 Flash 缓存未命中输入 $0.14/M、缓存命中 $0.0028/M、输出 $0.28/M,缓存重的编程 Agent 会比旧 V3.2 估算便宜很多。
小米 MiMo 已在北京时间 2026 年 5 月 27 日下调 V2.5 系列按量 API 价格。MiMo-V2.5-Pro 现在是 $0.435/M 输入、$0.87/M 输出,MiMo-V2.5 现在是 $0.14/M 输入、$0.28/M 输出,并且缓存命中价降到 $0.0028/M。
Mistral 当前 Large 3 为 $0.50/$1.50,Small 4 为 $0.10/$0.30。
MiniMax 推出 M3,提供 1M 上下文、图片/视频输入,以及 $0.30/$1.20 的国际站标准价格。
Z.AI 用 GLM-5.1 主打持续编程与 Agent 工作流,国际站价格为 $1.40/$4.40。
完整价格表(每百万 Token)
以下是截至 2026 年 6 月的定价,所有价格单位为美元/百万 token。
旗舰级 / 最高能力模型
模型厂商输入价格输出价格上下文窗口状态GPT-5.5OpenAI$5.00$30.001.05M4月新Claude Opus 4.8Anthropic$5.00$25.001M5月新Gemini 3.1 Pro PreviewGoogle$2.00$12.001.05M2月新GPT-5.5 ProOpenAI$30.00$180.001.05M4月新GPT-5.4OpenAI$2.50$15.001.05MGPT-5OpenAI$1.25$10.00400KGemini 2.5 ProGoogle$1.25$10.001.05MGrok 4.3xAI$1.25$2.501M5月新o3OpenAI$2.00$8.00200K
旗舰级模型的核心变化是锚点切换:Claude 4.6、GPT-5.5、Gemini 3.1 Pro、Grok 4 才是当前应优先比较的对象,旧的 Claude 4.5 和 GPT-4.1 不应再作为主推荐基准。
中端 / 最佳性价比模型
模型厂商输入价格输出价格上下文窗口状态Claude Sonnet 4.6Anthropic$3.00$15.001M2月新GPT-5.3-CodexOpenAI$1.75$14.00400K4月新Gemini 3.5 FlashGoogle$1.50$9.001.05M5月新GLM-5.1Z.AI$1.40$4.40200K4月新Mistral Large 3Mistral$0.50$1.50128KDeepSeek V4 ProDeepSeek$0.435$0.871M5月31日后正式为原定价 1/4Xiaomi MiMo-V2.5-Pro小米 MiMo$0.435$0.871M5月27日降价Grok Build 0.1xAI$1.00$2.00256K5月新
中端档的主力应切到 Claude Sonnet 4.6、GPT-5.4、GPT-5.3-Codex、Mistral Large 3 和 Grok 4.3。DeepSeek V4 Pro 和小米 MiMo-V2.5-Pro 则是新的国产 Agent 模型观察重点。
经济型 / 高吞吐模型
模型厂商输入价格输出价格上下文窗口DeepSeek V4 FlashDeepSeek$0.14$0.281MXiaomi MiMo-V2.5小米 MiMo$0.14$0.281MMiniMax M3MiniMax$0.30$1.201MGemini 3.1 Flash-LiteGoogle$0.25$1.501MGemini 2.5 FlashGoogle$0.30$2.501MGemini 2.5 Flash-LiteGoogle$0.10$0.401MMistral Small 4Mistral$0.10$0.30128KClaude Haiku 4.5Anthropic$1.00$5.00200K
经济型这一档出现了真正的低价选择。DeepSeek V4 Flash 和 MiMo-V2.5 现在同为 $0.14/$0.28,Gemini 2.5 Flash-Lite 和 Mistral Small 4 则是更成熟平台上的经济型选择。
想针对自己的使用场景做精确对比?用我们的 AI 模型价格计算器 输入你的实际用量,一键生成各模型的月度成本估算。
不同预算怎么选模型
企业级(月 API 开支 $5,000 以上)
企业场景要的是最高能力和最大稳定性。GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro Preview 是当前高能力锚点,适合复杂分析、长篇内容生成和多步骤 Agent 工作流。
实际操作建议:不要把所有请求都打到旗舰模型上。用 GPT-5.5/Opus 4.8 处理最复杂任务,日常生产流量走 Sonnet 4.6、GPT-5.4 或 Mistral Large 3,简单请求路由到 Haiku/Flash/Small 级模型。
创业公司(月 $500-$5,000)
这个阶段模型路由策略最关键。主力用 Claude Sonnet 4.6、GPT-5.4、GPT-5.3-Codex、Gemini 3.5 Flash 或 Mistral Large 3,它们比旧的 GPT-4.1 / Claude 4.5 锚点更适合当前产品场景。高频低复杂度的任务交给 Gemini 2.5 Flash-Lite、DeepSeek V4 Flash、MiMo-V2.5 或 Grok 4.3。
如果你的产品主要面向中国用户,DeepSeek 系列值得重点考虑——不仅价格低,中文理解能力也是一线水平,而且国内访问延迟更低。
个人开发者 / 副业项目(月 $500 以下)
预算有限时,优先比较 DeepSeek V4 Flash($0.14/$0.28)、MiMo-V2.5($0.14/$0.28)、Gemini 2.5 Flash-Lite($0.10/$0.40)和 Mistral Small 4($0.10/$0.30)。
月度成本实测估算
光看每百万 token 的单价可能没什么直观感受。下面我们按三种典型用量来算一下月度开支(假设输入输出 1:1)。
轻度使用(每月 100 万输入 + 100 万输出 token)
适合个人项目、内部工具原型。
模型月费用DeepSeek V4 Flash$0.42Xiaomi MiMo-V2.5$0.42Gemini 2.5 Flash-Lite$0.50Mistral Small 4$0.40Llama 3.3 70B$1.76Gemini 2.5 Flash$2.80Gemini 3.5 Flash$10.50GPT-5$11.25Claude Sonnet 4.6$18.00
中度使用(每月 5000 万输入 + 5000 万输出 token)
适合早期创业产品、B 端 SaaS。
模型月费用DeepSeek V4 Flash$21Xiaomi MiMo-V2.5$21Gemini 2.5 Flash-Lite$25Mistral Small 4$20Llama 3.3 70B$88Gemini 2.5 Flash$140Gemini 3.5 Flash$525GPT-5$563Claude Sonnet 4.6$900
重度使用(每月 5 亿输入 + 5 亿输出 token)
适合大规模线上产品。
模型月费用DeepSeek V4 Flash$210Xiaomi MiMo-V2.5$210Gemini 2.5 Flash-Lite$250Mistral Small 4$200Llama 3.3 70B$880Gemini 2.5 Flash$1,400Gemini 3.5 Flash$5,250GPT-5$5,625Claude Sonnet 4.6$9,000
数据说话:在重度使用场景下,选 Gemini 2.5 Flash-Lite 还是 Claude Sonnet 4.6,月费差了 36 倍。
想精确计算你的实际 prompt 会消耗多少 token?用 Token 计数器 测量你的 prompt 长度,然后在 价格计算器 里模拟不同模型的月度开支。
隐藏成本:比单价更重要的事
裸的每 token 价格只是冰山一角。以下几个因素在实际生产中影响更大:
速率限制(Rate Limits)
几乎所有厂商都对低等级账号设置了 RPM(每分钟请求数)和 TPM(每分钟 token 数)限制。OpenAI 和 Anthropic 都需要一定的历史用量或预付费才能解锁更高的限额。如果你的应用需要突发并发能力,要提前升级 tier 或购买预付额度。
DeepSeek 这方面相对宽松,但在高峰期(尤其是国内流量高峰时段)可能会出现排队和延迟增加的情况,需要做好降级方案。
Prompt 缓存
Anthropic 和 OpenAI 都提供了 prompt 缓存机制——重复使用的 system prompt 在首次调用后会以大幅折扣价格计费。DeepSeek V4 和小米 MiMo 现在也公开区分缓存命中价:DeepSeek V4 Flash 和 MiMo-V2.5 缓存命中输入都是 $0.0028/M。对于反复发送仓库上下文的 Agent,这个数字比表格里的未命中输入价更接近真实账单。
批量 API(Batch API)
OpenAI 的 Batch API 对非实时任务提供 50% 折扣(24 小时内完成),Anthropic 的 Message Batches API 也有类似优惠。数据标注、内容批量生成、周报汇总等不需要实时响应的任务,永远应该走批量端点。
推理 Token(Reasoning Tokens)
o3、o3-mini、DeepSeek V4 thinking mode 这类推理模型会在内部消耗大量「思考 token」——你要为这些看不见的 token 付费,但它们不会出现在最终输出里。使用推理模型时一定要监控实际 token 消耗,而不是只看输出长度。
国内中转 / 代理成本
对于使用 OpenAI、Anthropic 等海外 API 的国内开发者,还需要考虑中转代理的成本。主流中转服务通常会在原价基础上加 10-30% 的溢价。相比之下,DeepSeek 可以直接国内调用,没有这层额外开支,这也是它在国内开发者中特别受欢迎的原因之一。
6 个实战省钱策略
1. 按复杂度路由请求
不是每个请求都需要用你最贵的模型。建一个简单的分类器(哪怕只是关键词匹配或正则),把简单查询分发给 Flash/Small/V4 Flash,只把真正复杂的任务升级到 Opus/GPT-5。很多团队实测下来,70-80% 的请求其实用经济型模型就够了。
2. 用好 Prompt 缓存
如果你每次请求都发送相同的 system prompt,务必启用 prompt 缓存。在 Anthropic 的实现中,缓存后的 prompt 后续调用成本降低 90%。在应用层面,也可以对相同或高度相似的查询做结果缓存。
3. 非实时任务走批量 API
内容审核队列、文档处理、批量翻译——任何不需要实时响应的任务都应该用批量 API,直接省一半钱。
4. 优化 Prompt 长度
更短的 prompt 意味着更少的花费。去掉冗余指令,压缩示例,使用结构化格式。一个经过精心工程化的 prompt 可以比初稿短 30-50%,同时产出质量更好。用 Token 计数器 测量每个版本的 prompt 实际 token 消耗,做到心中有数。
5. 对重复任务做微调
如果你在大量调用同一类请求,微调一个小模型通常比用通用大模型更便宜且效果更好。OpenAI 和 Mistral 都提供了微调 API,DeepSeek 的开源版本也可以自行微调部署。
6. 设置预算上限
所有主流厂商都提供用量仪表板和消费告警。设置硬性月度上限,防止开发测试阶段的意外账单。特别是在接入推理模型的初期,token 消耗可能比你预期的高得多。
关于本地部署:另一种省钱路径
如果你有 GPU 资源(自有或租用),本地部署开源模型是绕过 API 定价的另一条路。DeepSeek 开源权重、Xiaomi MiMo-V2.5 和 Llama 3.3 70B 都可以在自己的基础设施上运行。在重度使用场景下,本地部署的总拥有成本可能比 API 调用更低。
不过本地部署需要考虑 GPU 显存需求。想评估你的硬件能否跑得动目标模型?可以用我们的 VRAM 计算器 快速估算所需显存。
总结
2026 年的 AI API 市场,选择比以往任何时候都多,价格区间也比以往任何时候都宽。从 Gemini 2.5 Flash-Lite 或 Mistral Small 4 的 $0.10/百万输入 token,到 GPT-5.5 或 Claude Opus 4.8 的 $5.00/百万,旗舰层已经差了 50 倍;如果算上 GPT-5.5 Pro,价差更大。
管理成本的关键不是死盯一个模型,而是建立一套按任务复杂度智能路由的策略——让旗舰模型只处理真正需要它的请求,把 70% 以上的流量交给经济型模型。
对于国内开发者,DeepSeek 系列目前是综合考虑价格、中文能力、访问便利性后的最优选择之一。 但不要忽略 Gemini Flash 和 Mistral Small 等海外经济型模型——在英文场景下它们的性价比可能更高。
现在就用 AI 模型价格计算器 模拟你的实际使用场景,找到最适合你的模型组合。定价在持续变化,建议每季度重新评估一次你的模型选择。
新模型深度解析:
Gemini 3.5 Flash vs DeepSeek V4 - 价格与 Agent 路由对比
Gemini 3.1 Pro 价格指南 — $2.00/M,ARC-AGI-2 77.1%,原生视频理解,1M 上下文
GPT-5.5 在 Codex 中的价格指南 — GPT-5.5、GPT-5.3-Codex 与 DeepSeek 路由成本
按厂商深度解析:
DeepSeek API 价格 2026 完全指南 — V4 Flash、V4 Pro 永久降价与缓存命中成本拆解
小米 MiMo-V2.5 Agent 模型指南 — MiMo 定价、Token Plan、Claude Code 和 OpenCode 配置
Claude API 价格 2026 完全指南 — Opus/Sonnet/Haiku 对比,Prompt Caching 90% 省钱攻略
OpenAI API 定价指南 2026 — GPT-5.5、GPT-5.4、o3,批量 API 半价优惠
Google Gemini API 定价指南 2026 - Gemini 3.5 Flash、3.1 Pro、2.5 Flash、Flash-Lite 和免费额度
Grok API 定价指南 2026 — Grok 4 与 Grok 4.3 定价
Mistral API 定价指南 2026 — Large 3 $2/M、Small 3.1 $0.20/M,欧盟 GDPR 合规
AI API 降本 80%:8 个省钱策略 — 含代码示例的实战降本指南
自建大模型 vs API 成本对比
AI API 速率限制对比