本微信公众号所载的资料、意见及推测仅反映发布当日的判断。本微信公众号中所载内容不代表任职单位的立场,不代表任何投资意见或建议。本微信公众号不对任何因使用本微信公众号所载任何内容所引致或可能引致的损失承担任何责任。本微信公众号对所载原创内容保留一切权利,未经许可,任何机构和个人不得以任何形式翻版、复制、发表或引用本公众号所载的任何原创内容。 来源:腾讯云数据库 大模型正在重塑产业。 但想要真正拥抱大模型,仍然面临很多现实问题:
想要解决这些问题,我们需要在数据和大模型之间搭建一座桥梁。 过往,承担数据组织的是传统关系型数据库。但它更适合用来应对结构化的数据。 大模型和神经网络,更多面对的是海量的非结构化数据,比如文本、音频、视频、关系等。 它们有一种专门的处理方式:“向量化”: 想要按这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。 把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。 它被广泛地用于大模型训练、推理和知识库补充等场景:
简而言之,如果大模型是一个智能的处理器,那向量数据库就是配合这台处理器的”外置缓存"。 今天,我们正式发布国内首个AI原生(AI Native)的向量数据库: 腾讯云向量数据库 Tencent Cloud VectorDB 它最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。 针对大模型场景,它在接入层、计算层、存储层实现了全面AI化:
统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗,相比传统方式可以实现10倍效率的提升。 如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2~4个数量级。 其实,腾讯云向量数据库经历了鹅厂内部业务的长期锤炼:
展望未来,“向量数据库+大模型+数据”将产生“飞轮效应”,共同助力企业步入AI Native(AI原生)时代。 我们也将继续打磨技术能力,提供更坚实的AI基础设施。 上一篇:深度思考:硬科技领域,如何投融资? 下一篇:【掌上萍乡】笑多了会怀孕—小子,二师兄是你能玩的吗? |