Flink SQL Top-N与窗口Top-N的实现与优化

Question

Flink SQL中Top-N（排名查询）和窗口Top-N（窗口内排名）的实现方式是什么？请分别给出ROW_NUMBER() OVER实现Top-N的语法、PARTITION BY和ORDER BY的作用、以及在流处理模式下如何保证结果正确性（更新与撤回）。给出一个『每5分钟统计商品PV Top10』的Flink S...

苦行僧 · Accepted Answer

Flink SQL Top-N与窗口Top-N实现： 1. 全局Top-N（ROW_NUMBER OVER）： SELECT * FROM ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY window_start -- 按窗口分组 ORDER BY pv DESC -- 按PV降序 ) AS rank_num FROM ( SELECT window_start, product_id, COUNT(*) AS pv FROM TABLE(TUMBLE(TABLE orders, DESCRIPTOR(event_time), INTERVAL '5' MINUTE)) GROUP BY window_start, product_id ) ) WHERE rank_num <= 10; -- 取Top10 2. 窗口Top-N（Flink 1.13+ TVF语法）： SELECT * FROM ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY window_start, window_end -...

Flink SQL Top-N与窗口Top-N的实现与优化

回答

苦行僧