Lakehouse
Databricks 在 2020 年提出的术语,描述新一代数据架构:在数据湖(cheap object storage)之上叠加 ACID 事务层、元数据 catalog 和 SQL 引擎,让数据湖具备数据仓库的查询能力。
提出背景
2020 年 Databricks 创始人 Matei Zaharia 等发表论文《Lakehouse: A New Generation of Open Platforms》,正式命名这一架构。Lakehouse 试图解决数据湖(便宜但乱)和数据仓库(贵但严)之间的对立。
核心特征
- 开放存储格式(Parquet / ORC)
- ACID 事务(Delta Lake / Iceberg / Hudi 提供)
- 统一元数据(Unity Catalog 等)
- 支持 BI + ML + AI 工作负载
- 存算分离
主要实现
- Databricks Lakehouse Platform — 概念主导者
- Snowflake — 通过 Polaris Catalog 切入
- Apache Iceberg / Apache Hudi / Delta Lake — 三大开源 ACID 事务层
- Microsoft Fabric — 微软版本
中文术语
参见 数据湖仓(中文常用术语)。Lakehouse 是英文原始术语。
∈ belongs_to::4-01-数据引擎