AI产业链地图·知识库 Pre-training · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/Pre-training
更新 2026·06·17
概念 技术 / 术语

Pre-training

预训练 · 大模型预训练 · Pretraining

GPT 等大模型的训练范式起源于 2018 年 BERT / GPT-1 论文:

Pre-training CONCEPT · 概念
首次提出
2018
关键参与方
[[OpenAI]] · [[Google]] · [[Meta]]
反向引用
7 处 · 来自 4
归属 Pre-training大模型AI数据第四层

Pre-training(预训练)

大模型训练的第一阶段。用 海量、低单价、多样化 的文本/图像/视频数据,让模型学会语言/视觉的基础模式。预训练数据量是 SFT 数据量的 10000x 量级。

是什么

GPT 等大模型的训练范式起源于 2018 年 BERT / GPT-1 论文:

  1. 在数千亿到数万亿 token 的语料上做自监督学习(next-token prediction)
  2. 模型学会语言的语法、语义、世界知识
  3. 之后通过 SFT + RLHF 微调到具体任务

数据规模

  • GPT-3(2020):3000 亿 tokens(GPT-3 论文/Wikipedia 核实,T2:原始语料约 4990 亿、加权采样训练见 3000 亿 token)
  • GPT-4(2023):估计 13 万亿 tokens
  • Llama 3.1(2024):15 万亿 tokens
  • Llama 4 / GPT-5 级(2025+):30-50 万亿 tokens 预期

数据来源

  • 网络爬取(Common Crawl 等)— 主要来源,但含大量低质量
  • 书籍(Books3 等)— 高质量但有版权风险
  • 维基百科 — 高质量公开数据
  • 代码(GitHub)— Code LLM 训练核心
  • 学术论文(arXiv、PubMed)— 专业知识
  • 社交媒体 — 对话风格语料(Reddit 等)
  • 专有合规数据版权数据 授权)— 越来越重要

在数据引擎产业中的角色

  • 量大 + 单价低 — 对应 龙猫数据 等众包标注模式
  • 质量过滤是关键 — 数据清洗、去重、去毒比数据量本身更影响效果
  • 版权数据资产化方向 — 合规授权数据成为差异化来源
  • 高质量数据枯竭 主要发生在预训练数据这一层

演进

  • 2018-2020:BERT / GPT-1/2/3,预训练范式确立
  • 2022:ChatGPT 引爆,预训练规模军备竞赛
  • 2024:Llama 3.1 15 万亿 tokens,逼近高质量文本数据上限
  • 2025+:合成数据 / 多模态扩展 / 测试时计算成为应对路径

相关概念

∈ belongs_to::4-01-数据引擎