OLAP大查询优化策略

Question

OLAP系统中大查询（扫描大量数据/复杂聚合/大表Join）会出现哪些性能问题？请从查询优化器、数据布局、并行度调整、资源管理四个角度给出系统性的大查询优化策略。如何在StarRocks/ClickHouse/Doris中处理大查询？。大数据 面试题。百度 面试题

编译有声 · Accepted Answer

1. 大查询性能问题 常见表现： - 扫描数据量过大（TB级全表扫描） - 内存溢出（HashJoin/HashAgg消耗过大） - 磁盘Spill过多 - 长时间占用CPU资源 - 影响其他小查询响应时间 2. 查询优化器策略 谓词下推 -- StarRocks: 分区裁剪+Min-Max索引自动生效 SELECT * FROM orders WHERE dt = '2024-01-01'; -- 只扫描当天分区 -- ClickHouse: 分区裁剪 + 主键索引 SELECT * FROM events WHERE event_date = '2024-01-01'; 物化视图 -- StarRocks: 透明改写 CREATE MATERIALIZED VIEW mv AS SELECT dt, COUNT(*), SUM(amount) FROM orders GROUP BY dt; 3. 数据布局优化 分区策略：按时间分区（天/小时） 分桶策略：按查询维度分桶（UUID/用户ID） 排序键：按查询过滤条件设计 ClickHouse: ORDER BY (dt, user...

OLAP大查询优化策略

回答

编译有声