Base de dados vectorial å
Linha do tempo tempo
Vespa é um dos primeiros fornecedores a adicionar pesquisa similaridade de vetores ao lado do algoritmo de pesquisa de palavras-chave mainstream baseado em BM25.
Weaviate então lançou um produto de pesquisa de vetor de código aberto no final de 2018.
Em 2019, começaremos a ver mais concorrência nesta área, incluindo Milvus (também open source). Zilliz é a empresa-mãe da Milvus.
Em 2021, três novos fornecedores aderiram ao concurso: Vald, Qdrant e Pinecone.
Só então é que vendedores estabelecidos, como Elasticsearch, Redis e PostgreSQL começaram a oferecer busca vetorial, muito mais tarde do que as pessoas pensavam, apenas em 2022 e depois.
Código aberto e comércio
Negócios: Pinecone e Zilliz
Plug - em forma
- pgvector - pgvector
- Redis Stack,
Os Postgres são os seguintes
Uma base de dados também suporta:
- Base de dados Relacional: RDS
- Base de dados Vector: pgvector
- Base de dados de séries cronológicas: a base de dados das séries cronológicas desempenha um papel importante na filtragem de metadados, uma base de dados que regista os eventos e o tempo de ocorrência e a velocidade de procura das séries cronológicas é muito rápida. Nas aplicações rag, se dezenas de milhares de ficheiros de conhecimento da indústria forem cortados, será muito importante usar a filtragem de tempo. Por exemplo, se só precisarmos de recuperar os ficheiros do contrato em Março de 2023, então poderemos usar os dados da série temporal para escolher o pedaço- alvo de dezenas de milhares, e então calcular o vector.

Vector de escala de tempo - Inserção
Procura mais rápida de similaridade por milhões de vectores: suporte ** Algoritmo de DiskANN ** HNSW ** Algoritmo
-** A escala de tempo Vector otimiza o tempo - Pesquisas vetoriais baseadas em vetores:** Use o tempo automático - baseado na particionamento e indexação da escala de escala de tempo para efetivamente encontrar as respostas mais próximas, busca por intervalo de tempo ou documento de existência vetor de restrição ano, e facilmente armazenar e recuperar respostas de grande linguagem (LLM) respostas e histórico de chat. TIME - Baseado Semantic Search Search também lhe permite usar** Procurar geração melhorada (Geração aumentada Retrieval,** rag**) e tempo - baseado na recuperação do contexto para fornecer aos usuários respostas LLM mais úteis. -** Estrutura simplificada de infra-estrutura de IA:** Combinando-se os vetores ** Dados relacionais *** e *** Dados de séries cronológicas** Em um banco de dados PostgreSQL, vetor temporal elimina a complexidade operacional da gestão de múltiplos sistemas de banco de dados em grande escala. -** Simplifique o processamento de metadados e multifiltragem de atributos:** Os desenvolvedores podem usar todos os tipos de dados PostgreSQL para armazenar e filtrar metadados e conectar resultados de pesquisa vetorial com dados relacionais para obter mais contexto - respostas sensíveis. Em futuros lançamentos, escala de tempo, o Vector otimizará ainda mais rica filtragem de atributos multi-atributos para permitir uma pesquisa mais rápida de similaridade ao filtrar metadados.
Base de dados vetorial coligida pelo LlamaIndex
*** Suporte de opções e funcionalidades do Vector Store ***
Vector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async |
---|---|---|---|---|---|---|
Apache Cassandra® | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Astra DB | cloud | ✓ | ✓ | ✓ | ||
Azure Cognitive Search | cloud | ✓ | ✓ | ✓ | ||
Azure CosmosDB MongoDB | cloud | ✓ | ✓ | |||
ChatGPT Retrieval Plugin | aggregator | ✓ | ✓ | |||
Chroma | self-hosted | ✓ | ✓ | ✓ | ||
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | |
Deeplake | self-hosted / cloud | ✓ | ✓ | ✓ | ||
DocArray | aggregator | ✓ | ✓ | ✓ | ||
DynamoDB | cloud | ✓ | ||||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
FAISS | in-memory | |||||
txtai | in-memory | |||||
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
LanceDB | cloud | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Metal | cloud | ✓ | ✓ | ✓ | ||
MongoDB Atlas | self-hosted / cloud | ✓ | ✓ | ✓ | ||
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | |
Milvus / Zilliz | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Neo4jVector | self-hosted / cloud | ✓ | ✓ | |||
OpenSearch | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | |
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | |
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ |
Redis | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Simple | in-memory | ✓ | ✓ | |||
SingleStore | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Supabase | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Tair | cloud | ✓ | ✓ | ✓ | ||
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | |
Timescale | ✓ | ✓ | ✓ | ✓ | ||
Typesense | self-hosted / cloud | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
Bases de dados mais suportadas
ector Store | Type | Metadata Filtering | Hybrid Search | Delete | Store Documents | Async | |
---|---|---|---|---|---|---|---|
DashVector | cloud | ✓ | ✓ | ✓ | ✓ | ||
Elasticsearch | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 总觉得比较重 |
Jaguar | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Lantern | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
MyScale | cloud | ✓ | ✓ | ✓ | ✓ | ||
Pinecone | cloud | ✓ | ✓ | ✓ | ✓ | ||
Postgres | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | |
pgvecto.rs | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ||
Qdrant | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ | ✓ | 创始人好像出走了 |
TencentVectorDB | cloud | ✓ | ✓ | ✓ | ✓ | ||
Weaviate | self-hosted / cloud | ✓ | ✓ | ✓ | ✓ |
Elasticsearch:总觉得比较重
Postgress:先从最简单的开始吧。
Qdrant:创始人好像出走了。
Comparação das bases de dados por Langchain
数据库名称 | 应用场景 |
---|---|
HNSWLib, Faiss, LanceDB, CloseVector | 如果你需要一个可以在你的Node.js应用程序中运行的内存数据库,无需其他服务器 |
MemoryVectorStore, CloseVector | 如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西 |
HNSWLib, Faiss | 如果你来自Python,并且你在寻找类似于FAISS的东西 |
Chroma | 如果你在寻找一个开源的、功能全面的向量数据库,可以在docker容器中本地运行 |
Zep | 如果你在寻找一个开源的向量数据库,提供低延迟、本地嵌入文档支持,并且支持边缘上的应用 |
Weaviate | 如果你在寻找一个开源的、生产就绪的向量数据库,可以在docker容器中本地运行或在云中托管 |
Supabase vector store | 如果你已经在使用Supabase,看看Supabase向量存储,使用同一个Postgres数据库来存储你的嵌入 |
Pinecone | 如果你在寻找一个生产就绪的向量存储,你不必担心自己托管 |
SingleStore vector store | 如果你已经在使用SingleStore,或者你需要一个分布式、高性能的数据库,你可能会考虑SingleStore向量存储 |
AnalyticDB vector store | 如果你在寻找一个在线MPP(大规模并行处理)数据仓库服务,你可能会考虑AnalyticDB向量存储 |
MyScale | 如果你在寻找一个性价比高的向量数据库,允许使用SQL进行向量搜索 |
CloseVector | 如果你在寻找一个可以从浏览器和服务器端加载的向量数据库,看看CloseVector。它是一个旨在跨平台的向量数据库 |
ClickHouse | 如果你在寻找一个可扩展的、开源的列式数据库,对于分析查询有着出色的性能 |