如何理解大数据技术中的CAP理论与最终一致性

Question

在大数据分布式系统中，CAP理论（一致性/可用性/分区容忍性）如何指导技术选型？请举例说明HDFS、Cassandra、Kafka、Doris等大数据组件分别偏重CAP中的哪两个维度。为什么大数据系统往往选择AP而放松C？最终一致性在大数据场景中如何实现？。大数据 面试题

编译有声 · Accepted Answer

CAP理论与大数据 CAP理论回顾： C（Consistency）：所有节点同时看到相同数据 A（Availability）：每个请求都能获得非错误的响应 P（Partition Tolerance）：系统在网络分区时仍能运行 定理：三者最多同时满足两个 大数据组件CAP倾向： | 组件 | 偏向 | 说明 | |------|------|------| | HDFS | CP | 强一致性（NameNode协调），可用性略低 | | Cassandra | AP | 最终一致性，高可用无单点 | | Kafka | CP（分区内） | ISR机制保证分区内一致 | | HBase | CP | RegionServer + ZK协调 | | DynamoDB | AP | 最终一致或强一致可选 | | Elasticsearch | AP | 近实时搜索，最终一致 | | Doris | CP | MPP数据库，强一致性 | 为什么大数据偏AP： 分布式数据量大，网络分区不可避免 多数场景可以接受最终一致性换取高可用 通过补偿机制（如CDC重放、离线校验）保证最终正确 最终一致性...

如何理解大数据技术中的CAP理论与最终一致性

回答

编译有声