长上下文窗口

大语言模型一次推理可处理的最大 token 数。2023 普遍 4K-8K，2024-2026 主流模型已达 200K-200 万 token。中国月之暗面是长上下文先发者，Google Gemini 1.5 Pro 突破 100 万 token。

定义

Context Window = LLM 单次推理能"看到"的输入 + 输出 token 总数。受限于 Attention 计算复杂度（O(n²)）和 KV Cache 显存。

技术细节

Attention 优化：FlashAttention / Sliding Window / Ring Attention
位置编码：RoPE / ALiBi / YaRN（外推法）
KV Cache 压缩：MLA（DeepSeek 提出）/ GQA / MQA
稀疏注意力：Longformer / BigBird

主要玩家及上下文长度

模型	Context Window
GPT-4o	128K token
Claude 4.5 Sonnet	200K token
Gemini 1.5 Pro / 2.5	100 万 - 200 万 token
Kimi（月之暗面）	200 万字（约 200K-500K token）
Qwen 2.5 Max	100 万 token
DeepSeek V3	128K token

[!info] 口径说明（2026-06-02 核）表中 GPT-4o 128K / Gemini 1.5 Pro 200 万 / DeepSeek V3 128K 经 web 核对一致。Claude 200K 为标准上下文档；截至 2026-03-13 Claude Sonnet 已开放 100 万 token（1M context，beta/标准定价），超 200K 请求自动启用扩展上下文。原表 200K 仍为标准档真实值，1M 为时点新增的扩展能力，两值并存非矛盾（据 Anthropic/行业 2026-03，T2）。

在 AI 产业链中的角色

长上下文是 4-02-模型工厂中关键能力维度。其驱动场景：

整本书 / 长文档分析
整个代码仓库理解（AI 编码 Agent 必备）
长视频理解
复杂多轮 Agent 任务

演进历史

2023 GPT-3.5 4K → GPT-4 32K
2023-03 月之暗面 Kimi 20 万字
2024-02 Gemini 1.5 Pro 100 万 token
2024 Claude 200K
2024-2025 长上下文成标配

∈ belongs_to::4-02-模型工厂

长上下文窗口

定义

技术细节

主要玩家及上下文长度

在 AI 产业链中的角色

演进历史

相关推荐