GitHub user i18n-now added a comment to the discussion: [Proposal] Vector Similarity Search Indexing
FreshDiskANN:一种用于流式相似性搜索的快速、准确的基于图的 ANN 索引 https://www.modb.pro/db/1719906010751115264 文章提出了 FreshDiskANN 系统,用于解决欧几里得空间中具有实时新鲜数据点的fresh-ANNS问题,并且所需机器的数量相比其他先进技术少 5 到 10 倍。文章做出了以下几点技术贡献: 演示了简单的图更新规则如何导致 HNSW 和 NSG 等流行的基于图的算法在插入和删除流上的索引质量下降。 开发了 FreshVamana,这是第一个支持插入和删除的基于图的索引,并实证了其在长时间更新流中的稳定性。 系统将大部分图形索引存储在 SSD 上,仅将最新更新存储在内存中。为了支持这一点,设计了一种新颖的两遍 StreamingMerge 算法,该算法以一种非常高效的写入方式将内存中索引与 SSD 索引合并。合并过程的时间和空间复杂度与更改集成正比,从而可以使用比从头开始重建大型索引少一个数量级的计算和内存,在 RAM 有限的机器上更新大型十亿点索引。 设计了 FreshDiskANN 系统,其中包含一个覆盖大多数数据点的长期驻留 SSD 的索引,以及一个用于聚合最近更新的短期内存索引。FreshDiskANN 会定期在后台使用 StreamingMerge 算法将短期索引合并到长期索引中,以限制短期索引的内存占用,从而限制整个系统的内存占用。 FreshVamana 因为流行的基于图的算法在构图时采用非常激进的裁边策略来构建高度稀疏的图结构,所以当更新图时,图结构会变得稀疏,降低图的可导航性,导致了图索引质量下降。FreshVamana 采用了 Vamana 中的 RobustPrune 以构建更密集的图,确保了图的持续导航性和在多次修改后保持稳定的召回率的能力。 GitHub link: https://github.com/apache/kvrocks/discussions/2287#discussioncomment-9657201 ---- This is an automatically sent email for [email protected]. To unsubscribe, please send an email to: [email protected]
