AI产业链地图·知识库 Pre-training · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/Pre-training

更新 2026·06·17

概念技术 / 术语

Pre-training

预训练 · 大模型预训练 · Pretraining

GPT 等大模型的训练范式起源于 2018 年 BERT / GPT-1 论文：

Pre-training CONCEPT · 概念

首次提出: 2018
关键参与方: [[OpenAI]] · [[Google]] · [[Meta]]
反向引用: 7 处 · 来自 4 页

归属 Pre-training大模型AI数据第四层

Pre-training（预训练）

大模型训练的第一阶段。用 海量、低单价、多样化 的文本/图像/视频数据，让模型学会语言/视觉的基础模式。预训练数据量是 SFT 数据量的 10000x 量级。

是什么

GPT 等大模型的训练范式起源于 2018 年 BERT / GPT-1 论文：

在数千亿到数万亿 token 的语料上做自监督学习（next-token prediction）
模型学会语言的语法、语义、世界知识
之后通过 SFT + RLHF 微调到具体任务

数据规模

GPT-3（2020）：3000 亿 tokens（GPT-3 论文/Wikipedia 核实，T2：原始语料约 4990 亿、加权采样训练见 3000 亿 token）
GPT-4（2023）：估计 13 万亿 tokens
Llama 3.1（2024）：15 万亿 tokens
Llama 4 / GPT-5 级（2025+）：30-50 万亿 tokens 预期

数据来源

网络爬取（Common Crawl 等）— 主要来源，但含大量低质量
书籍（Books3 等）— 高质量但有版权风险
维基百科 — 高质量公开数据
代码（GitHub）— Code LLM 训练核心
学术论文（arXiv、PubMed）— 专业知识
社交媒体 — 对话风格语料（Reddit 等）
专有合规数据（版权数据授权）— 越来越重要

在数据引擎产业中的角色

量大 + 单价低 — 对应龙猫数据等众包标注模式
质量过滤是关键 — 数据清洗、去重、去毒比数据量本身更影响效果
版权数据资产化方向 — 合规授权数据成为差异化来源
高质量数据枯竭 主要发生在预训练数据这一层

演进

2018-2020：BERT / GPT-1/2/3，预训练范式确立
2022：ChatGPT 引爆，预训练规模军备竞赛
2024：Llama 3.1 15 万亿 tokens，逼近高质量文本数据上限
2025+：合成数据 / 多模态扩展 / 测试时计算成为应对路径

相关概念

SFT / RLHF（后续训练阶段）
高质量数据枯竭（核心瓶颈）
版权数据 / 合成数据（数据来源）

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 7

按引用量 ↓

… # SFT（Supervised Fine-Tuning） > **监督微调**。大模型训练的第二阶段（Pre-training 之后、[[RLHF]] 之前）。用高质量"指令 - 回答"对（instruction-response pairs）让 LLM 学会服从指令、按要求回答。 …

… 用高质量"指令 - 回答"对（instruction-response pairs）让 LLM 学会服从指令、按要求回答。 ## 是什么经典三段式训练： 1. **Pre-training** — 海量低质量数据，让模型学会语言模式 2. **SFT** — 中等规模高质量指令数据（万到百万级），让模型学会"服从指令" 3. **[[RLHF]]** / [[DPO]] — 偏好数据，让模型学会"按人类偏好回答" …

… - **2024**：高质量 SFT 数据稀缺成为大模型差异化关键 - **2025**：合成 SFT 数据兴起，但仍需人工筛选高质量样本 ## 相关概念 - Pre-training / [[RLHF]] / [[DPO]] - [[数据标注]] / [[Auto-labeling]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 层** — 把原始非结构化信息转化为可供大模型学习的训练语料，决定 AI 模型质量上限。涵盖**版权数据 / 数据标注 / 合成数据 / 数据治理**四大细分板块。 ## 一句话定位第四层（AI 基础模型）的**最上游**，是大模型 Pre-training / [[SFT]] / [[RLHF]] 三阶段的数据供给基础。全球数据标注由 [[Scale AI]]（估值 $290 亿）一家独大，数据治理由 [[Databricks]]（估值 **$1340 亿**）/ [[Snowflake]] …

… - [[智领云]] ★★☆☆☆（数据中台 + 治理，2028+ 北交所） - [[数说故事]] ★★★☆☆（消费品营销 + 合成数据） ## 核心技术维度 1. **预训练与对齐**：Pre-training / [[SFT]] / [[RLHF]] / [[DPO]] / [[RLAIF]] 2. **数据标注技术**：[[数据标注]] / [[Auto-labeling]]（AI 预标注 + 人工审核混合）/ 3D 点云标注 / 多模态标注 …

查看原文 →

… > AI 基础模型产业链的最上游环节。把原始非结构化信息转化为可供大模型训练的高质量结构化语料，是决定 AI 模型质量上限的基础保障层。 ## 定义 **数据引擎** = 为大模型 Pre-training / [[SFT]] / [[RLHF]] 提供高质量训练数据的完整产业生态。涵盖四大细分板块： 1. **版权数据 / IP 资产** — 拥有大规模优质文本、图像、音视频版权内容的企业（如 [[Reddit]] / [[阅文集团]] …

查看原文 →

… - **悲观派**：高质量数据（书籍、学术、新闻）增长慢，大模型增长快，缺口扩大 - **务实派**：测试时计算 + 合成数据可缓解，但不能完全解决 ## 相关概念 - [[合成数据]] / [[版权数据]] - Pre-training / [[Scale AI]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →