长上下文窗口
大语言模型 一次推理可处理的最大 token 数。2023 普遍 4K-8K,2024-2026 主流模型已达 200K-200 万 token。中国 月之暗面 是长上下文先发者,Google Gemini 1.5 Pro 突破 100 万 token。
定义
Context Window = LLM 单次推理能"看到"的输入 + 输出 token 总数。受限于 Attention 计算复杂度(O(n²))和 KV Cache 显存。
技术细节
- Attention 优化:FlashAttention / Sliding Window / Ring Attention
- 位置编码:RoPE / ALiBi / YaRN(外推法)
- KV Cache 压缩:MLA(DeepSeek 提出)/ GQA / MQA
- 稀疏注意力:Longformer / BigBird
主要玩家及上下文长度
| 模型 | Context Window |
|---|---|
| GPT-4o | 128K token |
| Claude 4.5 Sonnet | 200K token |
| Gemini 1.5 Pro / 2.5 | 100 万 - 200 万 token |
| Kimi(月之暗面) | 200 万字(约 200K-500K token) |
| Qwen 2.5 Max | 100 万 token |
| DeepSeek V3 | 128K token |
[!info] 口径说明(2026-06-02 核) 表中 GPT-4o 128K / Gemini 1.5 Pro 200 万 / DeepSeek V3 128K 经 web 核对一致。Claude 200K 为标准上下文档;截至 2026-03-13 Claude Sonnet 已开放 100 万 token(1M context,beta/标准定价),超 200K 请求自动启用扩展上下文。原表 200K 仍为标准档真实值,1M 为时点新增的扩展能力,两值并存非矛盾(据 Anthropic/行业 2026-03,T2)。
在 AI 产业链中的角色
长上下文是 4-02-模型工厂 中关键能力维度。其驱动场景:
- 整本书 / 长文档分析
- 整个代码仓库理解(AI 编码 Agent 必备)
- 长视频理解
- 复杂多轮 Agent 任务
演进历史
- 2023 GPT-3.5 4K → GPT-4 32K
- 2023-03 月之暗面 Kimi 20 万字
- 2024-02 Gemini 1.5 Pro 100 万 token
- 2024 Claude 200K
- 2024-2025 长上下文成标配
∈ belongs_to::4-02-模型工厂