数据湖与数据仓库的区别

Question

请比较数据湖（Data Lake）和数据仓库（Data Warehouse）的核心差异，以及Lakehouse架构如何融合两者优势。。大数据 面试题。字节跳动 面试题

我还是少年 · Accepted Answer

数据仓库（Data Warehouse）： Schema on Write： 写入时定义模式，数据经过ETL清洗 存储格式： 结构化，列式存储（ORC/Parquet） 数据类型： 仅结构化数据 处理方式： ETL清洗后加载 目的： 支撑BI报表和业务决策分析 ACID： 支持（Hive ACID/Greenplum） 典型技术： Hive、Greenplum、Snowflake、ClickHouse 数据湖（Data Lake）： Schema on Read： 读时定义模式，原始数据直接存储 存储格式： 原始格式（CSV/JSON/Avro/Parquet等） 数据类型： 结构化+半结构化+非结构化（文本/图片/视频/音频） 处理方式： ELT（先加载再转换） 目的： 数据探索、机器学习、数据科学 ACID： 传统不支持（新方案如Delta Lake支持） 典型技术： HDFS/S3 + Spark/Hive 对比表： | 维度 | 数据仓库 | 数据湖 | |------|----------|--------| | 数据模式 | Schema on Write | Schem...

数据湖与数据仓库的区别

回答

我还是少年