Chroma轻量级向量数据库的Embedding与存储机制
请解释Chroma向量数据库的架构设计。Chroma如何管理Collection、Embedding Function和Metadata?它的持久化存储(SQLite+Parquet)如何工作?
回答
专业代码师
核心概念:Collection(数据集)、Embedding Function(嵌入函数)、Metadata(元数据)。
持久化存储:SQLite存元数据/collection配置/ID索引,Parquet(可选)存向量列式格式。
功能:add/query(支持文本/向量)/update/delete/upsert。
Where过滤操作符:$eq/$ne/$gt/$gte/$lt/$lte/$in/$nin/$contains。支持$or/$and组合。
优势和局限:pip install chromadb即用,适合原型/POC/百万级以下,不支持分布式。