数据湖仓(Data Lakehouse)
统一数据湖(非结构化)和数据仓库(结构化)的新一代数据架构。由 Databricks 在 2020 年提出 Lakehouse 概念。支持结构化与非结构化数据的统一管理,是 AI 训练数据治理的基础设施。
定义
数据湖 = 存什么都行的存储(包括视频、图片、文本、日志,便宜但难分析) 数据仓库 = 高度结构化的存储(适合 BI 查询但贵且僵化) 数据湖仓 = 在数据湖之上加 ACID 事务层、元数据管理、SQL 引擎,既便宜又能像数据仓库一样查询
核心技术
- 存储格式:Apache Parquet / ORC(列式存储)
- ACID 事务层:Delta Lake(Databricks)/ Apache Iceberg / Apache Hudi
- 查询引擎:Apache Spark / Trino / Presto
- 元数据:Unity Catalog / Snowflake Horizon Catalog
为什么对 AI 关键
- 非结构化数据统一管理 — 大模型训练用的文本、图像、视频本来分散在数据湖里,Lakehouse 让它们和结构化数据一起管理
- 支持 ML 工作负载 — 不仅能 SQL 查询,还能直接用 Python/PyTorch 训练
- 训练数据版本管理 — Delta Lake 让数据集像代码一样可版本化
主要玩家
- Databricks — Lakehouse 概念缔造者,主导 Delta Lake、MLflow、Unity Catalog 生态
- Snowflake — 从数据仓库切入湖仓,2024 通过 Polaris Catalog(Iceberg)布局
- AWS — Lake Formation + Athena 提供湖仓能力
- 中国:星环科技 TDC / 阿里云 MaxCompute / 华为云 DataLake
演进
- 2020:Databricks 首次提出 Lakehouse 概念
- 2021-2023:Iceberg / Hudi / Delta Lake 三大开源事务层竞争
- 2024:Snowflake 收购 Tabular(Iceberg 创始团队),Lakehouse 战场升级
- 2025:AI 训练数据治理推动 Lakehouse 成为标配
相关概念
∈ belongs_to::4-01-数据引擎