Pre-training(预训练)
大模型训练的第一阶段。用 海量、低单价、多样化 的文本/图像/视频数据,让模型学会语言/视觉的基础模式。预训练数据量是 SFT 数据量的 10000x 量级。
是什么
GPT 等大模型的训练范式起源于 2018 年 BERT / GPT-1 论文:
数据规模
- GPT-3(2020):3000 亿 tokens(GPT-3 论文/Wikipedia 核实,T2:原始语料约 4990 亿、加权采样训练见 3000 亿 token)
- GPT-4(2023):估计 13 万亿 tokens
- Llama 3.1(2024):15 万亿 tokens
- Llama 4 / GPT-5 级(2025+):30-50 万亿 tokens 预期
数据来源
- 网络爬取(Common Crawl 等)— 主要来源,但含大量低质量
- 书籍(Books3 等)— 高质量但有版权风险
- 维基百科 — 高质量公开数据
- 代码(GitHub)— Code LLM 训练核心
- 学术论文(arXiv、PubMed)— 专业知识
- 社交媒体 — 对话风格语料(Reddit 等)
- 专有合规数据(版权数据 授权)— 越来越重要
在数据引擎产业中的角色
- 量大 + 单价低 — 对应 龙猫数据 等众包标注模式
- 质量过滤是关键 — 数据清洗、去重、去毒比数据量本身更影响效果
- 版权数据资产化方向 — 合规授权数据成为差异化来源
- 高质量数据枯竭 主要发生在预训练数据这一层
演进
- 2018-2020:BERT / GPT-1/2/3,预训练范式确立
- 2022:ChatGPT 引爆,预训练规模军备竞赛
- 2024:Llama 3.1 15 万亿 tokens,逼近高质量文本数据上限
- 2025+:合成数据 / 多模态扩展 / 测试时计算成为应对路径
相关概念
∈ belongs_to::4-01-数据引擎