векторная база данных о

хронология

Vespa является одним из первых поставщиков, добавивших векторный поиск подобия рядом с основным алгоритмом поиска ключевых слов на основе BM25.

затем в конце 2018 года Weaviate запустила специальный продукт базы данных векторного поиска с открытым исходным кодом.

к 2019 году мы начнем видеть больше конкуренции в этой области, включая Milvus (также с открытым исходным кодом). Zilliz является материнской компанией Milvus.

в 2021 году к конкурсу присоединились три новых поставщика: Vald, Qdrant и Pinecone.

только тогда известные поставщики, такие как Elasticsearch, Redis и PostgreSQL, начали предлагать векторный поиск, намного позже, чем думали люди, только в 2022 году и после.

открытый исходный код и коммерция

бизнес: Pinecone и Zilliz

форма плагина

-pgvector -Редис стек

Постгрес

база данных также поддерживает:

-Реляционная база данных: RDS база данных Vector: pgvector -База данных рядов времени: база данных временных рядов играет важную роль в фильтрации метаданных. это база данных, которая регистрирует события и время появления, и скорость поиска временных рядов очень быстрая. в тряпичных приложениях, если десятки тысяч отраслевых файлов знаний будут вырезаны, будет очень важно использовать фильтрацию времени. например, если нам нужно получить контрактные файлы только в марте 2023 года, то мы можем использовать данные временных рядов, чтобы выбрать целевой кусок из десятков тысяч, а затем рассчитать вектор.

Vector plug-in Timescale

более быстрый поиск подобия миллионов векторов: поддержка * * DiskANN * * алгоритм, * HNSW * * алгоритм

-* * Вектор времени оптимизирует временные векторные поисковые запросы: * * используйте автоматическое разбиение по времени и индексацию супер таблицы Timescale для эффективного поиска ближайших Embeddings, поиска по вектору ограничений года существования документа, а также легко хранить и извлекать ответы и историю чата модели большого языка (LLM). семантический поиск на основе времени также позволяет использовать расширенную генерацию * * Search (Retrieval дополненное поколение, * * RAG * ) и поиск контекста на основе времени, чтобы предоставить пользователям более полезные ответы LLM. - * упрощенный стек инфраструктуры ИИ: * * объединяя * * векторные данные * , * реляционные данные * * и * * данные временных рядов * * в одну базу данных PostgreSQL вектор времени устраняет операционную сложность управления несколькими системами баз данных в больших масштабах. - * упростить обработку метаданных и многоатрибутную фильтрацию: * разработчики могут использовать все типы данных PostgreSQL для хранения и фильтрации метаданных и подключения результатов векторного поиска к реляционным данным для получения более контекстно-чувствительных ответов. в будущих выпусках вектор Timescale еще больше оптимизирует богатую многоатрибутную фильтрацию, чтобы обеспечить более быстрый поиск сходства при фильтрации метаданных.

векторная база данных собрана с помощью LlamaIndex

链接

- Vector Store Options & Feature Support * *

Vector Store	Type	Metadata Filtering	Hybrid Search	Delete	Store Documents	Async
Apache Cassandra®	self-hosted / cloud	✓		✓	✓
Astra DB	cloud	✓		✓	✓
Azure Cognitive Search	cloud		✓	✓	✓
Azure CosmosDB MongoDB	cloud			✓	✓
ChatGPT Retrieval Plugin	aggregator			✓	✓
Chroma	self-hosted	✓		✓	✓
DashVector	cloud	✓	✓	✓	✓
Deeplake	self-hosted / cloud	✓		✓	✓
DocArray	aggregator	✓		✓	✓
DynamoDB	cloud			✓
Elasticsearch	self-hosted / cloud	✓	✓	✓	✓	✓
FAISS	in-memory
txtai	in-memory
Jaguar	self-hosted / cloud	✓	✓	✓	✓
LanceDB	cloud	✓		✓	✓
Lantern	self-hosted / cloud	✓	✓	✓	✓	✓
Metal	cloud	✓		✓	✓
MongoDB Atlas	self-hosted / cloud	✓		✓	✓
MyScale	cloud	✓	✓	✓	✓
Milvus / Zilliz	self-hosted / cloud	✓		✓	✓
Neo4jVector	self-hosted / cloud			✓	✓
OpenSearch	self-hosted / cloud	✓		✓	✓
Pinecone	cloud	✓	✓	✓	✓
Postgres	self-hosted / cloud	✓	✓	✓	✓	✓
pgvecto.rs	self-hosted / cloud	✓	✓	✓	✓
Qdrant	self-hosted / cloud	✓	✓	✓	✓	✓
Redis	self-hosted / cloud	✓		✓	✓
Simple	in-memory	✓		✓
SingleStore	self-hosted / cloud	✓		✓	✓
Supabase	self-hosted / cloud	✓		✓	✓
Tair	cloud	✓		✓	✓
TencentVectorDB	cloud	✓	✓	✓	✓
Timescale		✓		✓	✓	✓
Typesense	self-hosted / cloud	✓		✓	✓
Weaviate	self-hosted / cloud	✓	✓	✓	✓

большинство поддерживаемых баз данных

ector Store	Type	Metadata Filtering	Hybrid Search	Delete	Store Documents	Async
DashVector	cloud	✓	✓	✓	✓
Elasticsearch	self-hosted / cloud	✓	✓	✓	✓	✓	总觉得比较重
Jaguar	self-hosted / cloud	✓	✓	✓	✓
Lantern	self-hosted / cloud	✓	✓	✓	✓	✓
MyScale	cloud	✓	✓	✓	✓
Pinecone	cloud	✓	✓	✓	✓
Postgres	self-hosted / cloud	✓	✓	✓	✓	✓
pgvecto.rs	self-hosted / cloud	✓	✓	✓	✓
Qdrant	self-hosted / cloud	✓	✓	✓	✓	✓	创始人好像出走了
TencentVectorDB	cloud	✓	✓	✓	✓
Weaviate	self-hosted / cloud	✓	✓	✓	✓

Elasticsearch：总觉得比较重

Postgress：先从最简单的开始吧。

Qdrant：创始人好像出走了。

сравнение баз данных по LangChain

原文

数据库名称	应用场景
HNSWLib, Faiss, LanceDB, CloseVector	如果你需要一个可以在你的Node.js应用程序中运行的内存数据库，无需其他服务器
MemoryVectorStore, CloseVector	如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西
HNSWLib, Faiss	如果你来自Python，并且你在寻找类似于FAISS的东西
Chroma	如果你在寻找一个开源的、功能全面的向量数据库，可以在docker容器中本地运行
Zep	如果你在寻找一个开源的向量数据库，提供低延迟、本地嵌入文档支持，并且支持边缘上的应用
Weaviate	如果你在寻找一个开源的、生产就绪的向量数据库，可以在docker容器中本地运行或在云中托管
Supabase vector store	如果你已经在使用Supabase，看看Supabase向量存储，使用同一个Postgres数据库来存储你的嵌入
Pinecone	如果你在寻找一个生产就绪的向量存储，你不必担心自己托管
SingleStore vector store	如果你已经在使用SingleStore，或者你需要一个分布式、高性能的数据库，你可能会考虑SingleStore向量存储
AnalyticDB vector store	如果你在寻找一个在线MPP（大规模并行处理）数据仓库服务，你可能会考虑AnalyticDB向量存储
MyScale	如果你在寻找一个性价比高的向量数据库，允许使用SQL进行向量搜索
CloseVector	如果你在寻找一个可以从浏览器和服务器端加载的向量数据库，看看CloseVector。它是一个旨在跨平台的向量数据库
ClickHouse	如果你在寻找一个可扩展的、开源的列式数据库，对于分析查询有着出色的性能