AI产业链地图·知识库 数据湖仓 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/数据湖仓
更新 2026·06·17
概念 技术 / 术语

数据湖仓

Data Lakehouse · 湖仓一体 · 湖仓架构

数据湖仓 CONCEPT · 概念
首次提出
2020
关键参与方
[[Databricks]] · [[Snowflake]] · [[星环科技]]
反向引用
6 处 · 来自 6
归属 数据湖仓数据架构AI数据第四层

数据湖仓(Data Lakehouse)

统一数据湖(非结构化)和数据仓库(结构化)的新一代数据架构。由 Databricks 在 2020 年提出 Lakehouse 概念。支持结构化与非结构化数据的统一管理,是 AI 训练数据治理的基础设施。

定义

数据湖 = 存什么都行的存储(包括视频、图片、文本、日志,便宜但难分析) 数据仓库 = 高度结构化的存储(适合 BI 查询但贵且僵化) 数据湖仓 = 在数据湖之上加 ACID 事务层、元数据管理、SQL 引擎,既便宜又能像数据仓库一样查询

核心技术

  • 存储格式:Apache Parquet / ORC(列式存储)
  • ACID 事务层Delta Lake(Databricks)/ Apache Iceberg / Apache Hudi
  • 查询引擎Apache Spark / Trino / Presto
  • 元数据:Unity Catalog / Snowflake Horizon Catalog

为什么对 AI 关键

  • 非结构化数据统一管理 — 大模型训练用的文本、图像、视频本来分散在数据湖里,Lakehouse 让它们和结构化数据一起管理
  • 支持 ML 工作负载 — 不仅能 SQL 查询,还能直接用 Python/PyTorch 训练
  • 训练数据版本管理 — Delta Lake 让数据集像代码一样可版本化

主要玩家

  • Databricks — Lakehouse 概念缔造者,主导 Delta Lake、MLflow、Unity Catalog 生态
  • Snowflake — 从数据仓库切入湖仓,2024 通过 Polaris Catalog(Iceberg)布局
  • AWS — Lake Formation + Athena 提供湖仓能力
  • 中国星环科技 TDC / 阿里云 MaxCompute / 华为云 DataLake

演进

  • 2020Databricks 首次提出 Lakehouse 概念
  • 2021-2023:Iceberg / Hudi / Delta Lake 三大开源事务层竞争
  • 2024:Snowflake 收购 Tabular(Iceberg 创始团队),Lakehouse 战场升级
  • 2025:AI 训练数据治理推动 Lakehouse 成为标配

相关概念

∈ belongs_to::4-01-数据引擎