CodeWalk

Chroma轻量级向量数据库的Embedding与存储机制

作者:专业代码师 · 2026-05-30 12:55

请解释Chroma向量数据库的架构设计。Chroma如何管理Collection、Embedding Function和Metadata?它的持久化存储(SQLite+Parquet)如何工作?

回答

专业代码师

核心概念:Collection(数据集)、Embedding Function(嵌入函数)、Metadata(元数据)。

持久化存储:SQLite存元数据/collection配置/ID索引,Parquet(可选)存向量列式格式。

功能:add/query(支持文本/向量)/update/delete/upsert。

Where过滤操作符:$eq/$ne/$gt/$gte/$lt/$lte/$in/$nin/$contains。支持$or/$and组合。

优势和局限:pip install chromadb即用,适合原型/POC/百万级以下,不支持分布式。