Ceph分布式存储在大数据场景的应用

Question

Ceph是开源分布式存储系统，可同时提供对象/块/文件三种接口。请介绍Ceph在大数据场景下的角色定位，如何作为HDFS的替代方案使用，其RADOS底层架构和CRUSH算法如何保证数据的高可靠性和自动恢复。Ceph + Spark/Flink存算分离架构有什么优劣？。大数据 面试题

苦行僧 · Accepted Answer

Ceph在大数据场景的应用 Ceph三大接口： RADOS（对象）：S3兼容API，直接替代HDFS做数据湖存储 RBD（块）：K8s PV存储，Spark Shuffle本地盘 CephFS（文件）：POSIX兼容，HDFS替换方案 核心架构： RADOS：Ceph的核心分布式存储层，数据自动分片为PG CRUSH算法：确定性数据分布算法，无需元数据服务器，解决单点瓶颈 自愈能力：检测故障后自动修复，数据重新均衡 优劣势分析： | 优势 | 劣势 | |------|------| | 无单点故障，高可用 | 运维复杂度高于HDFS | | 统一存储（对象/块/文件） | 小文件性能不佳 | | 无限扩展，PB-EB级 | 大数据场景成熟度不及HDFS | | 与S3兼容，云原生友好 | 参数调优复杂 | 存算分离实践： Ceph RGW（S3接口）作为数据湖底座 Alluxio缓存加速热数据访问 Spark/Flink通过S3A连接器读写Ceph 适用场景：私有云HDFS替代、中小集群、需要统一存储的企业 注意：网络带宽是关键瓶颈，建议10GbE以上网络

Ceph分布式存储在大数据场景的应用

回答

苦行僧