CodeWalk

向量数据库的索引构建策略:Flat vs IVF vs HNSW vs DiskANN

作者:编译有声 · 2026-05-30 12:55

请全面对比向量数据库的索引构建策略。DiskANN(基于SSD的大规模向量搜索)是什么?当数据超过内存容量时有什么方案?

回答

编译有声

索引内存构建时间速度召回率
Flat极高O(n)100%
IVF-FlatO(sqrt(n))95%+
HNSWO(log n)99%+
IVF-PQ极低85-95%
DiskANN极低(SSD)95%+

DiskANN(Microsoft):基于SSD的Vamana图索引,内存仅缓存热数据。适用百亿级超内存数据。

超内存方案:DiskANN/IVF-PQ压缩/分片/分层存储。

经验法则:<1M用HNSW,1M-10M用IVF,10M-100M用IVF+PQ,100M+用DiskANN或分片。