Перейти к основному содержимому

векторная база данных о

хронология

Vespa является одним из первых поставщиков, добавивших векторный поиск подобия рядом с основным алгоритмом поиска ключевых слов на основе BM25.

затем в конце 2018 года Weaviate запустила специальный продукт базы данных векторного поиска с открытым исходным кодом.

к 2019 году мы начнем видеть больше конкуренции в этой области, включая Milvus (также с открытым исходным кодом). Zilliz является материнской компанией Milvus.

в 2021 году к конкурсу присоединились три новых поставщика: Vald, Qdrant и Pinecone.

только тогда известные поставщики, такие как Elasticsearch, Redis и PostgreSQL, начали предлагать векторный поиск, намного позже, чем думали люди, только в 2022 году и после.

image-20240125145334529

открытый исходный код и коммерция

бизнес: Pinecone и Zilliz

форма плагина

-pgvector -Редис стек

image-20240125145550416

Постгрес

база данных также поддерживает:

-Реляционная база данных: RDS база данных Vector: pgvector -База данных рядов времени: база данных временных рядов играет важную роль в фильтрации метаданных. это база данных, которая регистрирует события и время появления, и скорость поиска временных рядов очень быстрая. в тряпичных приложениях, если десятки тысяч отраслевых файлов знаний будут вырезаны, будет очень важно использовать фильтрацию времени. например, если нам нужно получить контрактные файлы только в марте 2023 года, то мы можем использовать данные временных рядов, чтобы выбрать целевой кусок из десятков тысяч, а затем рассчитать вектор.

image-20240125150309961

Vector plug-in Timescale

более быстрый поиск подобия миллионов векторов: поддержка * * DiskANN * * алгоритм, * HNSW * * алгоритм

-* * Вектор времени оптимизирует временные векторные поисковые запросы: * * используйте автоматическое разбиение по времени и индексацию супер таблицы Timescale для эффективного поиска ближайших Embeddings, поиска по вектору ограничений года существования документа, а также легко хранить и извлекать ответы и историю чата модели большого языка (LLM). семантический поиск на основе времени также позволяет использовать расширенную генерацию * * Search (Retrieval дополненное поколение, * * RAG * ) и поиск контекста на основе времени, чтобы предоставить пользователям более полезные ответы LLM. - * упрощенный стек инфраструктуры ИИ: * * объединяя * * векторные данные * , * реляционные данные * * и * * данные временных рядов * * в одну базу данных PostgreSQL вектор времени устраняет операционную сложность управления несколькими системами баз данных в больших масштабах. - * упростить обработку метаданных и многоатрибутную фильтрацию: * разработчики могут использовать все типы данных PostgreSQL для хранения и фильтрации метаданных и подключения результатов векторного поиска к реляционным данным для получения более контекстно-чувствительных ответов. в будущих выпусках вектор Timescale еще больше оптимизирует богатую многоатрибутную фильтрацию, чтобы обеспечить более быстрый поиск сходства при фильтрации метаданных.

векторная база данных собрана с помощью LlamaIndex

链接

    • Vector Store Options & Feature Support * *
Vector StoreTypeMetadata FilteringHybrid SearchDeleteStore DocumentsAsync
Apache Cassandra®self-hosted / cloud
Astra DBcloud
Azure Cognitive Searchcloud
Azure CosmosDB MongoDBcloud
ChatGPT Retrieval Pluginaggregator
Chromaself-hosted
DashVectorcloud
Deeplakeself-hosted / cloud
DocArrayaggregator
DynamoDBcloud
Elasticsearchself-hosted / cloud
FAISSin-memory
txtaiin-memory
Jaguarself-hosted / cloud
LanceDBcloud
Lanternself-hosted / cloud
Metalcloud
MongoDB Atlasself-hosted / cloud
MyScalecloud
Milvus / Zillizself-hosted / cloud
Neo4jVectorself-hosted / cloud
OpenSearchself-hosted / cloud
Pineconecloud
Postgresself-hosted / cloud
pgvecto.rsself-hosted / cloud
Qdrantself-hosted / cloud
Redisself-hosted / cloud
Simplein-memory
SingleStoreself-hosted / cloud
Supabaseself-hosted / cloud
Taircloud
TencentVectorDBcloud
Timescale
Typesenseself-hosted / cloud
Weaviateself-hosted / cloud

большинство поддерживаемых баз данных

ector StoreTypeMetadata FilteringHybrid SearchDeleteStore DocumentsAsync
DashVectorcloud
Elasticsearchself-hosted / cloud总觉得比较重
Jaguarself-hosted / cloud
Lanternself-hosted / cloud
MyScalecloud
Pineconecloud
Postgresself-hosted / cloud
pgvecto.rsself-hosted / cloud
Qdrantself-hosted / cloud创始人好像出走了
TencentVectorDBcloud
Weaviateself-hosted / cloud

Elasticsearch:总觉得比较重

Postgress:先从最简单的开始吧。

Qdrant:创始人好像出走了。

сравнение баз данных по LangChain

原文

数据库名称应用场景
HNSWLib, Faiss, LanceDB, CloseVector如果你需要一个可以在你的Node.js应用程序中运行的内存数据库,无需其他服务器
MemoryVectorStore, CloseVector如果你在寻找一个可以在类似浏览器的环境中内存中运行的东西
HNSWLib, Faiss如果你来自Python,并且你在寻找类似于FAISS的东西
Chroma如果你在寻找一个开源的、功能全面的向量数据库,可以在docker容器中本地运行
Zep如果你在寻找一个开源的向量数据库,提供低延迟、本地嵌入文档支持,并且支持边缘上的应用
Weaviate如果你在寻找一个开源的、生产就绪的向量数据库,可以在docker容器中本地运行或在云中托管
Supabase vector store如果你已经在使用Supabase,看看Supabase向量存储,使用同一个Postgres数据库来存储你的嵌入
Pinecone如果你在寻找一个生产就绪的向量存储,你不必担心自己托管
SingleStore vector store如果你已经在使用SingleStore,或者你需要一个分布式、高性能的数据库,你可能会考虑SingleStore向量存储
AnalyticDB vector store如果你在寻找一个在线MPP(大规模并行处理)数据仓库服务,你可能会考虑AnalyticDB向量存储
MyScale如果你在寻找一个性价比高的向量数据库,允许使用SQL进行向量搜索
CloseVector如果你在寻找一个可以从浏览器和服务器端加载的向量数据库,看看CloseVector。它是一个旨在跨平台的向量数据库
ClickHouse如果你在寻找一个可扩展的、开源的列式数据库,对于分析查询有着出色的性能

сравнение различных баз данных

开源向量数据库对比

выбор тряпок

Elasticsearch

Qdrant

Postgress

Референс

https://mp.weixin.qq.com/s/YENmch0b4rbNJ73bvBLUpQ