用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失-阿里云开发者社区

用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失

2024-12-03 613

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像通用资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频通用资源包5000点

简介： 当前通义千问Web版和本地版qwen-VL在处理扫描版PDF时均无法直接识别，导致实际应用中处理大量扫描PDF的需求难以满足。为此，通过使用Python的pdf2image库，可将PDF文件转换为图片，再进行OCR处理，实现解决方案。文中提供了具体的代码示例，展示了如何将PDF文件的每一页转换成图片，并保存至指定文件夹，为后续的OCR处理做好准备。

当前通义千问web版在处理扫描版PDF时是直接提示异常的，这个很不make sense；如图所示：

本地版的qwen-VL也不能直接处理扫描版的PDF。但是在生产环境实际应用中，业务又有大量的扫描PDF需要提交给AI来OCR，这个时候咋搞呢？

想起Python似乎有个库，可以将PDF分割为图片，于是只能曲线救国了……

已经不是大佬的大佬以前说过，talk is cheap，show you the code：

#pip install pdf2image

from pdf2image import convert_from_path

import os

def pdf_to_images(pdf_path, output_folder, dpi=300):

"""

将PDF文件的每一页转换为图片并保存到指定的输出文件夹中。

:param pdf_path: PDF文件的路径

:param output_folder: 输出图片存放的文件夹路径

:param dpi: 图片分辨率，默认300 DPI

"""

# 确保输出文件夹存在

if not os.path.exists(output_folder):

os.makedirs(output_folder)

# 转换PDF为一系列图片

images = convert_from_path(pdf_path, dpi=dpi)

# 保存图片

for i, image in enumerate(images):

image.save(os.path.join(output_folder, f'page_{i + 1}.png'), 'PNG')

# 使用示例

pdf_file = 'example.pdf'

output_dir = './output_images'

pdf_to_images(pdf_file, output_dir)

#以上代码由qwen生成，已经基本上可以直接跑，我本地修改就不贴上来抢风头了……

用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失

视觉智能

热门文章

最新文章

相关电子书