home..

「湖仓一体#01」认识湖仓一体

0. 写在前面

面对新东西，我总是习惯闭着眼睛问如下几个问题：

⚠️ 超浓 AI 味儿预警……

湖仓一体 (Lakehouse) 是一种新型的数据存储架构。它就像是“数据湖”的低成本存储与“数据仓库”的高性能管理生下的“混血儿”。它直接在用于数据湖的廉价存储（如 S3、OSS）上，实现类似数据仓库的数据结构和数据管理功能。

过去我们要么用数据湖（存海量原始数据，但乱、慢、没事务），要么用数据仓库（快、规范，但贵、存不下非结构化数据）。它解决的核心问题是：数据重复建设和“孤岛”问题。不用再为了分析数据，辛苦地把数据从湖里搬到仓里（ETL），省时省钱省心。

因为数据爆发和需求多样化。

在它出现前，主流方案是“湖仓并存”。

它通过在存储层之上加了一个“元数据管理/事务层”（如 Delta Lake, Iceberg, Hudi）。这一层赋予了廉价存储以往不具备的能力，比如：ACID 事务（保证数据不出错）、版本控制（数据快照回滚）和索引优化等。

存储层基础：对象存储 (Object Storage)

湖仓一体是盖在“湖”上的，你得知道地基长啥样。
- 核心概念：理解什么是 S3 (AWS)、OSS (阿里云) 或 HDFS。
- 文件格式：重点了解 Parquet 和 Avro（列式存储 vs 行式存储）。湖仓一体的底层数据几乎都是这些格式。
核心架构：数据湖 vs 数据仓库

如果你不知道“旧痛”，就无法理解“新药”的精妙。
- 数据仓库：了解什么是 Schema-on-write（写入时建模）和 SQL 标准。
- 数据湖：了解什么是 Schema-on-read（读取时建模）和存储与计算分离。
查询引擎与计算框架

湖仓一体本身不计算，它需要引擎来“驱动”。
- SQL 能力：必须熟练掌握 SQL，因为湖仓一体的核心目标之一就是让湖也能用 SQL 丝滑查询。
- 主流引擎：至少了解 Spark、Flink 或 Trino (Presto) 其中的一种，知道它们是怎么读取数据的。
数据库底层原理（进阶关键）

这是区分“调包侠”和“架构师”的分水岭。
- ACID 事务：理解什么是原子性、一致性、隔离性、持久性。湖仓一体通过元数据管理实现这些。
- 并发控制：简单了解乐观锁 (Optimistic Concurrency Control)，这是主流湖仓格式（如 Iceberg）解决多人同时读写冲突的常用手段。