关于Github中开源OCR项目的实验过程与思考-阿里云开发者社区

关于Github中开源OCR项目的实验过程与思考

2024-03-21 478

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，图像通用资源包5000点

简介： 新手尝试Git clone Python OCR项目，遇到各种报错。测试了Paddle OCR、Tesseract OCR和EasyOCR。Paddle OCR因平台限制未能在Notebook部署，Tesseract OCR在Colab成功但无法复现。EasyOCR最终在阿里云天池和Colab部署成功，但天池GPU资源不足。建议使用魔搭社区的实例，阿里云提供免费OCR服务。寻求简单OCR项目推荐。附EasyOCR安装和使用代码。

本人新手一枚，想着自行学习下python语言，就尝试从相对简单的git clone ocr项目代码来进行实验，整个流程测试下来，遭遇到了就是各种稀奇古怪的报错，以下是整个实验的流程和思考。

搜索并浏览了Github中的开源ocr项目，选择了以下三个项目来进行实验和测试。

1. Paddle OCR

最终结果：Notebook环境部署失败，无可奈何的还是用了X度的studio weiui环境进行体验，可以用），总结了下失败的原因，是因为X度虽然提供了免费的算力资源，但限制pip和pip3的组件的安装，只允许使用Paddle项目中的内容进行实验和测试（不管是文生图还是OCR），实际上，这样的行为以个人来看就不算开源了，因为以阿里的魔搭社区为例，里面可以自由的通过notebook环境进行任意测试，而不限制只允许使用通义相关的模型来部署和实践。

2. Tesseract OCR

最终结果：在X歌colab成功的识别了，但遗憾的是，在最终进行二次测试并准备保存的时候，不小心按到了ctrl+z，当时不知道应该怎么还原，随后无论怎么填代码都会报错，因为无法再复现实验过程，只好放弃了。这个阶段的实验唯一的收获，是了解到在notebook环境中，不小心按到ctrl+z后立刻按ctrl+Y可以还原，这真是个深刻的教训。T.T ～T.T

3. EasyOCR

最终结果：在X歌 colab提供的notebook环境部署成功，飞速的识别出了图片的文本内容并提取出来，同时支持之间填写需要识别图片的网页链接。考虑到学术速度的原因，尝试在阿里的天池notebook部署了两个晚上，最终成功了。这还得感谢通义千问，给出建议让修改在X歌的ocr识别代码中加入gpu=false。唯一美中不足的是天池提供的独享GPU资源不足，无法使用GPU环境来体验，而使用CPU又太慢了（CPU环境下，大约20-30分钟才下载好模型。识别又等待了30分钟。）

写在最后的总结

X为，X度也提供了类似notebook的环境，但最终结果无一例外的全部部署失败，汇总起来，要么是不让安装pip或pip3安装，要么就是安装步骤中各种翻译都翻译不出来的报错，或提示找不到模块，或提示加pip3--user，然后反复循环还是部署不了，就放弃了。

在之后的时间中无意中接触到了魔搭社区，里面提供的CPU和GPU实例非常不错，低一个PAI实例部署了学术加速，实验起来就快多了，建议大家也可以试试。最后就是如果新人想体验ocr文字识别，又不想这个麻烦，阿里云提供了每月免费的ocr识别额度，而且是轻应用的布局（web gui）界面，不妨直接用这个。

顺便问下各位圈内大佬们，还有哪些相对比较简单的ocr项目分享给我下么～～

附：个人部署的完整代码及相应注释

# 安装EasyOCR

!pip3 install easyocr

# 导入EasyOCR

import easyocr

# 创建全局 OCR 实例语言支持为英语和简体中文

global_ocr = easyocr.Reader(['en', 'ch_sim'], gpu=False)

# 读取图像并进行 OCR

result = global_ocr.readtext('本地文件路径/要翻译的网址')

# 将识别结果保存到当前目录下

file_path = './ocr_result.txt'

with open(file_path, 'w', encoding='utf-8') as file:

for detection in result:

file.write(detection[1] + '\n')

# 打印识别结果

for detection in result:

print(detection[1])

关于Github中开源OCR项目的实验过程与思考

视觉智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景