无尘阁日记

无尘阁日记

各大模型最大上下文-2026年3月最新官方/API口径
2026-03-23

按我刚核过的2026年3月最新官方/API口径,目前主流前沿模型的最大上下文窗口大致是这样:

一、先给你结论

现在“最大”的第一梯队是:
Llama 4、Qwen-Long:1000万 tokens
但这两者都不是“所有普通聊天场景下都这么用”,尤其 Qwen-Long 更偏长文档/文件引用机制。(阿里云帮助中心)

第二梯队是:
Grok 4.20 / Grok 4.1 Fast:200万 tokens。(xAI)

第三梯队是:
OpenAI GPT-5.4、Claude 4.6、Gemini 2.5 Pro/Flash、Qwen 3.5 Plus / Qwen3 Coder Plus:100万 tokens 左右。(OpenAI开发者)

DeepSeek API 目前明显更短:
128K。(DeepSeek API Docs)

二、各家代表模型对比

厂商代表模型最大上下文
MetaLlama 410M (Llama)
阿里 QwenQwen-Long10M (阿里云帮助中心)
xAIGrok 4.20 / Grok 4.1 Fast2M (xAI)
OpenAIGPT-5.41M (OpenAI开发者)
AnthropicClaude Opus 4.6 / Sonnet 4.61M (Claude API Docs)
GoogleGemini 2.5 Pro1,048,576(约 1M) (Google Cloud Documentation)
GoogleGemini 2.5 Flash1,048,576(约 1M) (Google Cloud Documentation)
阿里 Qwenqwen3.5-plus1M (阿里云帮助中心)
阿里 Qwenqwen3-coder-plus1M (阿里云帮助中心)
阿里 Qwenqwen3-max262,144 (阿里云帮助中心)
DeepSeekdeepseek-chat / deepseek-reasoner(API)128K (DeepSeek API Docs)

三、你最该注意的几个坑

1. “官网聊天页” 和 “API” 不是一回事

很多人看到网上说某模型“支持超长上下文”,但那有时说的是:
一是 API;
二是企业版;
三是文件上传引用模式;
四是特定 beta 或高等级权限。
所以真正对比时,最好只看官方 API 文档里的 context window。这一点在 Anthropic 和 Qwen 上尤其明显。(Claude API Docs)

2. “上下文长度”不等于“你真能稳定用满”

比如 1M、2M、10M 是理论上限,但在真实使用里:
一是成本会非常高;
二是延迟会明显增加;
三是模型在超长输入下的“有效注意力”未必线性增长。
所以能塞进去,不等于效果最好

3. Qwen 要分开看

阿里这边不能一句话概括成“Qwen 支持多少”:
qwen3-max 是 262K,qwen3.5-plus 是 1M,qwen3-coder-plus 是 1M,Qwen-Long 是 10M。(阿里云帮助中心)

四、如果你只想记一个最实用版本

你可以直接记成下面这组:

10M:Llama 4、Qwen-Long
2M:Grok 4.20 / 4.1 Fast
1M:GPT-5.4、Claude 4.6、Gemini 2.5、Qwen3.5 Plus / Qwen3 Coder Plus
128K:DeepSeek API