Vektordatenbank
Zeitplan
Als einer der frühesten Anbieter wurde der Mainstream-Schlüsselwortsuch-Algorithmus, der auf BM25 basiert, eine Vektorähnlichen Suche hinzugefügt.
Anschließend startete Weaviate Ende 2018 ein dediziertes Open Source-Vektor-Suchdatenbankprodukt.
Bis 2019 werden wir beginnen, mehr Wettbewerb in diesem Bereich zu sehen, einschließlich Milvus (auch Open Source). Zilliz ist die Muttergesellschaft von Milvus.
Im Jahr 2021 nahmen drei neue Lieferanten an dem Wettbewerb Teil: Vald, Qdrant und Pinecone.
Erst zu diesem Zeitpunkt begannen etablierte Anbieter wie ElasticSearch, Redi 's und PostgreQL, Vektorsuche anzubieten, viel später als jeder dachte, und zwar erst 2022 und danach.
Open Source und Handel
Geschäft: Pinecone und Zilliz
Form des Einschubs
-pgvektor -Redi 's Stack
Post Office
Eine Datenbank unterstützt auch:
-Relationsdatenbank: Rds -Vektordatenbank: pgvektor -Zeitreihen-Datenbank: Zeitreihen-Datenbank spielt eine wichtige Rolle bei der Metadaten-Filterung. Es ist eine Datenbank, die Ereignisse und Aufnahmezeit aufzeichnet und die Suchgeschwindigkeit für Zeitreihen sehr schnell ist. In RAG-Anwendungen ist es sehr wichtig, dass Zeitfilter verwendet werden, wenn Zehntausende von Branchenwissen-Akten abgeschnitten werden. Zum Beispiel, wenn wir nur im März 2023 die Vertragsdateien abrufen müssen, können wir Zeitreihendaten verwenden, um das Ziel mit Zehntausenden zu filtern und dann den Vektor zu berechnen.

Plug-in zur Zeitskala
Schnellere Suche nach Ähnlichkeiten mit Millionen von Vektoren: Unterstützung * * DiskANN * * Algorithmus, * * HNSW * * Algorithmus
Die zeitbasierte Semantik ermöglicht es Ihnen auch, die erweiterte Generation der Suchfunktion (Augmented Generation Retrival, * * RAG * *) und das zeitbasierte Retrieval von Kontexten zu verwenden, um Benutzern die nützlich
-
-
- Vereinfachte KI-Infrastruktur - Stack: * * Durch die Kombination von * * Vektor-Embeddings * *, * * relationale Daten * * und * * Zeitreihen-Daten * * in einer PostgreSQL-Datenbank eliminiert Timescale vector die operative Komplexität, die mit der Verwaltung mehrerer Datenbanksysteme im großen Maßstab verbunden ist. In zukünftigen Veröffentlichungen wird der Zeitstabenvektor die Rich Multi-Attribute Filterung weiter optimieren, um eine schnellere Ähnlichkeitssuche beim Filtern von Metadaten zu ermöglichen.
-
Vektordatenbank, gesammelt von LlamaIndex
-
- Vektorstore-Optionen & Feature-Unterstützung * *
Vector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async |
---|---|---|---|---|---|---|
Apache Cassandra® | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Astra DB | cloud | ✓ | ✓ | ✓ | ||
Azure Cognitive Search | cloud | ✓ | ✓ | ✓ | ||
Azure CosmosDB MongoDB | cloud | ✓ | ✓ | |||
ChatGPT Retrieval Plugin | aggregator | ✓ | ✓ | |||
Chroma | self-hosted | ✓ | ✓ | ✓ | ||
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | |
Deeplake | self-hosted / cloud | ✓ | ✓ | ✓ | ||
DocArray | aggregator | ✓ | ✓ | ✓ | ||
DynamoDB | cloud | ✓ | ||||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
FAISS | in-memory | |||||
txtai | in-memory | |||||
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
LanceDB | cloud | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Metal | cloud | ✓ | ✓ | ✓ | ||
MongoDB Atlas | self-hosted / cloud | ✓ | ✓ | ✓ | ||
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | |
Milvus / Zilliz | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Neo4jVector | self-hosted / cloud | ✓ | ✓ | |||
OpenSearch | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | |
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Redis | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Simple | in-memory | ✓ | ✓ | |||
SingleStore | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Supabase | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Tair | cloud | ✓ | ✓ | ✓ | ||
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | |
Timescale | ✓ | ✓ | ✓ | ✓ | ||
Typesense | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
Am meisten unterstützte Datenbanken
ector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async | |
---|---|---|---|---|---|---|---|
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | ||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 总觉得比较重 |
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | ||
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 创始人好像出走了 |
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
Elasticsearch:总觉得比较重
Postgress:先从最简单的开始吧。
Qdrant:创始人好像出走了。
LangChain-Vergleich der Datenbanken
数据库名称 | 应用场景 |
---|---|
HNSWLib, Faiss, LanceDB, CloseVector | 如果你需要一个可以在你的Node.js应用程序中运行的内存数据库,无需其他服务器 |
MemoryVectorStore, CloseVector | 如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西 |
HNSWLib, Faiss | 如果你来自Python,并且你在寻找类似于FAISS的东西 |
Chroma | 如果你在寻找一个开源的、功能全面的向量数据库,可以在docker容器中本地运行 |
Zep | 如果你在寻找一个开源的向量数据库,提供低延迟、本地嵌入文档支持,并且支持边缘上的应用 |
Weaviate | 如果你在寻找一个开源的、生产就绪的向量数据库,可以在docker容器中本地运行或在云中托管 |
Supabase vector store | 如果你已经在使用Supabase,看看Supabase向量存储,使用同一个Postgres数据库来存储你的嵌入 |
Pinecone | 如果你在寻找一个生产就绪的向量存储,你不必担心自己托管 |
SingleStore vector store | 如果你已经在使用SingleStore,或者你需要一个分布式、高性能的数据库,你可能会考虑SingleStore向量存储 |
AnalyticDB vector store | 如果你在寻找一个在线MPP(大规模并行处理)数据仓库服务,你可能会考虑AnalyticDB向量存储 |
MyScale | 如果你在寻找一个性价比高的向量数据库,允许使用SQL进行向量搜索 |
CloseVector | 如果你在寻找一个可以从浏览器和服务器端加载的向量数据库,看看CloseVector。它是一个旨在跨平台的向量数据库 |
ClickHouse | 如果你在寻找一个可扩展的、开源的列式数据库,对于分析查询有着出色的性能 |