Dify x Tablestore 构建低成本、Serverless 知识库-阿里云开发者社区

Dify x Tablestore 构建低成本、Serverless 知识库

2025-03-31 996

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

RDS PostgreSQL Serverless，0.5-4RCU 50GB 3个月

简介： 本文介绍如何基于Dify与阿里云Tablestore构建检索增强生成（RAG）系统，解决大模型知识时效性和领域适配性问题，该方案具备低代码、Serverless免运维、高可靠、弹性扩展及低成本等优势。文章通过答疑助手的案例，详细说明了创建Tablestore实例、配置Dify、构建与验证知识库的步骤。

概述

知识库

在大模型时代，如何高效应用领域知识、解决大模型的幻觉等问题，成为大模型渗透到每个行业需要解决的核心问题。随着生成式人工智能技术的快速发展，大型语言模型（LLM）虽然在语言理解和生成能力上展现出显著优势，但其知识局限性与幻觉问题（即生成不实或无根据信息的倾向）始终制约着其在专业领域的实际应用。为突破这一瓶颈，检索增强生成（Retrieval-Augmented Generation, RAG） 通过融合检索技术与生成式模型，构建了动态的知识获取与融合框架，成为解决行业落地关键问题的有效路径。

RAG 的核心是构建一个供大模型动态参考的知识库，知识库的应用具备几个特性：

知识时效性保障：传统大模型的训练数据截止时间固定，而RAG通过接入实时更新的知识库，可动态引入新知识，避免因知识滞后导致的错误。
领域适配性增强：通过构建垂直领域的知识图谱或专用语料库，RAG能够显著提升模型对专业术语、行业规则的理解能力。
多模态知识整合：现代RAG系统支持文本、表格、图像等多模态知识源的融合。

Dify x Tablestore

Dify 为开发者提供了健全的应用模版和编排框架，你可以基于它们快速构建大型语言模型驱动的生成式AI 应用，将创意变为现实，也可以随时按需无缝扩展，驱动业务增长。通过可视化的提示词编排和数据集嵌入，零代码即可快速构建对话机器人或AI 助理，并可持续优化对话策略，革新人机交互体验；

阿里云表格存储 Tablestore 是一款 Serverless 的分布式结构化数据存储服务，主要特点是分布式、Serverless 开箱即用、按量付费、水平扩展、支持向量/标量检索、查询功能丰富和性能优秀等。

本文将基于Dify x Tablestore 的向量/标量检索能力，以表格存储官网文档为知识库，搭建一个“表格存储技术支持聊天助手”。

系统优势

通过结合 Dify 和 Tablestore 去实现一个知识库 RAG 系统，这套架构相比本地部署向量数据库有何优点？

低代码、Serverless 免运维：Dify 作为一个 AI 低代码平台，支持快速构建、部署应用；而 Tablestore 具备一键开通、Serverless 特性，无需关注数据库运维，降低应用复杂度；
共享知识库：基于Tablestore搭建的知识库，跨地域可共享，可同时被多个Dify RAG系统访问；

数据稳定可靠：Tablestore 默认提供数据跨地域多副本存储（3AZ），数据可靠性高达99.999999999%（11个9），为数据保驾护航；
规模增长无上限：Tablestore基于阿里云自研存储引擎，支持数据量从GB到PB级无缝扩展，业务增长无需关注系统容量；
低成本：Tablestore 按量付费，灵活可控；按实际使用付费，避免资源闲置。

Dify x Tablestore 构建知识库

创建Tablestore实例

登录阿里云控制台
- 访问阿里云Tablestore控制台并登录账号。
创建实例
- 在Tablestore控制台中，点击“创建实例”按钮。
- 选择合适的区域（Region），并为实例命名，例如 dify-ots-rag。
获取访问信息
- 在阿里云控制台中获取AccessKey ID、AccessKey Secret、实例访问地址、实例名。这些信息将用于Dify连接TableStore。

Dify 使用 Tablestore

部署流程参考：Dify Community；Tablestore 已接入 Dify vdb，并在v1.2.0版本中发布。部署过程中修改.env 配置文件，使用 Tablestore 作为向量数据库，并配置访问实例信息。

VECTOR_STORE=tablestore
# 下面配置填写Tablestore控制台获取的实例配置信息
TABLESTORE_ENDPOINT=xxxx
TABLESTORE_INSTANCE_NAME=instance-name
TABLESTORE_ACCESS_KEY_ID=xxxx
TABLESTORE_ACCESS_KEY_SECRET=xxx

构建知识库

本节将基于上面搭建的系统，创建私有知识库，并上传表格存储官方文档信息。通过该知识库，演示 Dify x Tablestore 搭建的 RAG 系统功能；

创建知识库

创建空白知识库，名称【TableStore-Rag】

数据导入

导入本地知识文件，经过文本清洗、embedding 后写入 Tablestore 向量数据库中。

本地文件导入

文本清洗与处理

文本上传

处理结果验证
- 知识库数据列表

通过文档列表，获取文档是否导入成功；失败文档可重试。

Tablestore 控制台

导入过程中，Dify 自动在表格存储上创建表和索引，并将数据 embedding 后写入表内

RAG 检索验证

召回测试

召回测试中支持向量检索、全文检索、混合检索；可根据匹配相似度排序，获取 TopK 相似文档。

RAG 检索

配置 LLM 大模型

从大模型供应商处获取 API Key，添加至 dify

效果验证

未使用 RAG：提问大模型关于用户使用表格存储的相关细节问题，大模型根据训练知识，给出回答。

使用 RAG：输入提示词，选择知识库【Tablestore-Rag】，再次提问大模型。

对比使用知识库前后大模型对同一问题的回答，大模型+知识库能给出更加精确的回答。因此通过知识库，弥补了大模型知识的时效性、领域适配性的问题。

大模型

大模型+知识库

总结

本文基于Dify x Tablestore 的向量/标量检索能力，演示了如何使用 RAG 实现一个技术支持助手，避免大模型乱说问题，提升大模型载垂直领域的准确性；Dify x Tablestore 这套系统具有包括低代码、Serverless免运维、跨地域共享知识库、高数据可靠性、弹性无限扩展及低成本等优点，是构建 RAG 系统的一个很好的选择。

最后，欢迎加入我们的钉钉公开群，与我们一起探讨 AI 技术。

Dify x Tablestore 构建低成本、Serverless 知识库

概述

知识库

Dify x Tablestore

系统优势

Dify x Tablestore 构建知识库

创建Tablestore实例

Dify 使用 Tablestore

构建知识库

创建知识库

数据导入

RAG 检索验证

总结

向量数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景