海量数据TopK问题：从1TB数据中找出出现频率最高的100个单词

Question

给定1TB的文本文件，每行一个单词。单机内存只有8GB，请设计算法找出出现频率最高的100个单词。请解释MapReduce、堆(Heap/HashMap)和Trie树的多种解法，以及如何通过HashMap+小顶堆优化内存占用。。大数据 面试题。Google 面试题

屠龙少年 · Accepted Answer

海量数据TopK经典解法： 解法1：MapReduce分治 分片：将1TB文件按行Hash分片到100个节点，每片~10GB 每个节点：统计单词频次→取TopK 合并：汇总所有节点的TopK，全局排序取Top100 解法2：单机HashMap+小顶堆（8GB内存优化） import heapq, collections class TopK: def __init__(self, k=100): self.k = k self.min_heap = [] # 小顶堆 self.counter = collections.defaultdict(int) def process_chunk(self, chunk_words): # 1. 统计本批次频率 local_counter = {} for w in chunk_words: local_counter[w] = local_counter.get(w, 0) + 1 # 2. 合并到全局counter for w, c in local_counter.items(): self.counter[w] += c # 3. 清...

海量数据TopK问题：从1TB数据中找出出现频率最高的100个单词

回答

屠龙少年