Doris Colocate Join的原理与数据本地性优化

Question

Doris的Colocate Join（Colocation Join）如何通过数据本地性避免Shuffle？请解释Colocate Group的创建方式、分桶一致性的要求、以及Colocate Join在实时大宽表场景下的性能优势。与普通分布式Join相比，Colocate Join在查询计划和数据分布上有什么区别...

Yahuda · Accepted Answer

Doris Colocate Join原理： 1. 核心思想：将Join相关的表按相同方式分桶（相同分桶数+相同分桶列），使Join Key相同的数据分布在同一个BE节点上，实现本地Join，消除网络Shuffle。 2. Colocate Group建表： -- 设置Colocate Group CREATE TABLE orders ( order_id BIGINT, user_id INT, amount DOUBLE ) DISTRIBUTED BY HASH(user_id) BUCKETS 10 PROPERTIES ( 'colocate_with' = 'group1' ); CREATE TABLE users ( user_id INT, name STRING, level INT ) DISTRIBUTED BY HASH(user_id) BUCKETS 10 PROPERTIES ( 'colocate_with' = 'group1' ); 3. Colocate Join前提条件： 同一Colocate Group内的表分桶数必须相同 分桶列（DIS...

Doris Colocate Join的原理与数据本地性优化

回答

Yahuda