《向量数据库》,https://guangzhengli.com/blog/zh/vector-database/,这是一篇值得阅读的长文,它介绍了向量数据库的方方面面,包括 Vector Embeddings、Similarity Search、Similarity Measurement、Filtering 等等,单纯从实现角度来看,技术复杂度并不高。
短短几个月,各大数据库厂商也增加了对向量的支持,https://github.com/openai/openai-cookbook/tree/main/examples/vector_databases,可以在这篇 OpenAI 写的文档里找到各自对应的代码参考。
但随着 LLM 底层能力的提升,如今的 ChatGPT 已经支持了 128k 的上下文,而且在 GPTs 中也默认提供了检索能力,这波操作,针对大部分需求场景来说,可以直接免除对向量数据库的调用了。随之而来的,也是向量数据库风投的“降温”。
《向量数据库凉了吗?》,https://mp.weixin.qq.com/s/0eBZ4zyX6XjBQO0GqlANnw,这篇文章给出了一个观点:“专用向量数据库陷入了一个死局之中:小需求 OpenAI 亲自下场解决了,标准需求被加装向量扩展的现有成熟数据库抢占,超大需求也几乎没什么实现的门槛。留给专用向量数据库的生态位也许能足以支持一家专用向量数据库内核厂商活下来,但想做成一个产业是不可能了。”,感兴趣的也可以读一读。