关于Github中开源OCR项目的实验过程与思考

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: 新手尝试Git clone Python OCR项目,遇到各种报错。测试了Paddle OCR、Tesseract OCR和EasyOCR。Paddle OCR因平台限制未能在Notebook部署,Tesseract OCR在Colab成功但无法复现。EasyOCR最终在阿里云天池和Colab部署成功,但天池GPU资源不足。建议使用魔搭社区的实例,阿里云提供免费OCR服务。寻求简单OCR项目推荐。附EasyOCR安装和使用代码。

本人新手一枚,想着自行学习下python语言,就尝试从相对简单的git clone ocr项目代码来进行实验,整个流程测试下来,遭遇到了就是各种稀奇古怪的报错,以下是整个实验的流程和思考。


搜索并浏览了Github中的开源ocr项目,选择了以下三个项目来进行实验和测试。


1. Paddle OCR  

最终结果:Notebook环境部署失败,无可奈何的还是用了X度的studio weiui环境进行体验,可以用),总结了下失败的原因,是因为X度虽然提供了免费的算力资源,但限制pip和pip3的组件的安装,只允许使用Paddle项目中的内容进行实验和测试(不管是文生图还是OCR),实际上,这样的行为以个人来看就不算开源了,因为以阿里的魔搭社区为例,里面可以自由的通过notebook环境进行任意测试,而不限制只允许使用通义相关的模型来部署和实践。


2. Tesseract OCR  

最终结果:在X歌colab成功的识别了,但遗憾的是,在最终进行二次测试并准备保存的时候,不小心按到了ctrl+z,当时不知道应该怎么还原,随后无论怎么填代码都会报错,因为无法再复现实验过程,只好放弃了。这个阶段的实验唯一的收获,是了解到在notebook环境中,不小心按到ctrl+z后立刻按ctrl+Y可以还原,这真是个深刻的教训。T.T ~T.T


3. EasyOCR  

最终结果:在X歌 colab提供的notebook环境部署成功,飞速的识别出了图片的文本内容并提取出来,同时支持之间填写需要识别图片的网页链接。考虑到学术速度的原因,尝试在阿里的天池notebook部署了两个晚上,最终成功了。这还得感谢通义千问,给出建议让修改在X歌的ocr识别代码中加入gpu=false。唯一美中不足的是天池提供的独享GPU资源不足,无法使用GPU环境来体验,而使用CPU又太慢了(CPU环境下,大约20-30分钟才下载好模型。识别又等待了30分钟。


写在最后的总结

X为,X度也提供了类似notebook的环境,但最终结果无一例外的全部部署失败,汇总起来,要么是不让安装pip或pip3安装,要么就是安装步骤中各种翻译都翻译不出来的报错,或提示找不到模块,或提示加pip3--user,然后反复循环还是部署不了,就放弃了。

在之后的时间中无意中接触到了魔搭社区,里面提供的CPU和GPU实例非常不错,低一个PAI实例部署了学术加速,实验起来就快多了,建议大家也可以试试。最后就是如果新人想体验ocr文字识别,又不想这个麻烦,阿里云提供了每月免费的ocr识别额度,而且是轻应用的布局(web gui)界面,不妨直接用这个。

顺便问下各位圈内大佬们,还有哪些相对比较简单的ocr项目分享给我下么~~


附:个人部署的完整代码及相应注释


# 安装EasyOCR

!pip3 install easyocr


# 导入EasyOCR

import easyocr


# 创建全局 OCR 实例 语言支持为 英语 和 简体中文

global_ocr = easyocr.Reader(['en', 'ch_sim'], gpu=False)


# 读取图像并进行 OCR

result = global_ocr.readtext('本地文件路径/要翻译的网址')


# 将识别结果保存到 当前 目录下

file_path = './ocr_result.txt'

with open(file_path, 'w', encoding='utf-8') as file:

   for detection in result:

       file.write(detection[1] + '\n')


# 打印识别结果

for detection in result:

   print(detection[1])

相关文章
|
2月前
|
Apache 数据安全/隐私保护 Docker
【开源问答系统】GitHub 14.9k star 的开源问答引擎来了,三分钟搭建完成~~~
Apache Answer 是一款开源问答系统,助力团队将零散知识沉淀为结构化资产。支持 Docker 快速部署、插件扩展、权限控制与多语言,兼具高效搜索、投票排序与私有化部署能力,适用于技术社区、企业知识库与用户支持场景。
453 22
|
1月前
|
机器学习/深度学习 文字识别 Linux
Umi-OCR_文字识别工具 免安装使用教程(附下载安装包)!永久免费,开源离线OCR识别软件下载
Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具,基于深度学习技术,可快速识别中文、英文、日文等多种语言。无需联网,保护隐私,适用于Windows和Linux系统,解压即用,操作简便,是处理图片转文本的理想选择。
642 7
|
2月前
|
人工智能 JavaScript 前端开发
Github 2024-10-28 开源项目周报 Top15
本周GitHub热门项目涵盖Svelte、Open Interpreter、PowerShell等,涉及Web开发、AI助手、自动化工具等领域,Python、JavaScript为主流语言,展现开源技术活跃生态。(239字)
412 19
|
2月前
|
缓存 自然语言处理 JavaScript
抓紧上车,别再错过啦, Github 开源后台管理平台,Naive UI !!!
naive-ui-pro 是基于 Vue3 + Vite + TypeScript 的免费开源中后台模板,主打“路由插件化架构”,将权限、页签、缓存等功能拆解为可插拔模块,像搭积木一样灵活组装。内置 14+ 插件、Pro Naive UI 组件库与丰富示例,支持移动端适配、多主题、国际化,MIT 许可,开箱即用,助力高效开发。
231 4
|
2月前
|
人工智能 JavaScript 前端开发
Github 2024-11-04 开源项目周报 Top14
本周GitHub热门项目涵盖屏幕截图转代码、网页监控、低代码开发等。Python与TypeScript主导,亮点项目包括AI生成代码工具、开源社交应用Bluesky及机器人框架LeRobot,展现AI与自动化技术的快速发展趋势。
194 15
|
2月前
|
人工智能 JavaScript Docker
Github 2024-11-11 开源项目周报 Top15
本周GitHub热门项目涵盖多领域:Python与TypeScript领跑,包括屏幕截图转代码、本地文件共享、PDF处理、AI开发代理等。亮点项目如screenshot-to-code、LocalSend、OpenHands及Diagrams,兼具创新与实用性,广受开发者关注。
211 13
|
2月前
|
人工智能 算法 JavaScript
Github 2024-10-14 开源项目周报 Top14
本周GitHub热门项目共14个,Python项目占7席。涵盖算法实现、生成式AI、金融分析、目标检测等领域,包括TheAlgorithms系列、OpenBB金融平台、Ultralytics YOLO11、Manim动画框架等,展现开源技术多元发展态势。
121 8
|
2月前
|
人工智能 Rust JavaScript
Github 2024-10-07 开源项目周报 Top15
本周GitHub热门项目共15个,Python项目占比最高达7个。榜首为Python算法实现集合TheAlgorithms/Python,Star数超17万;其他亮点包括Godot游戏引擎、OpenBB金融平台、ToolJet低代码框架及新兴AI相关项目如Crawl4AI、Llama Stack等,涵盖游戏、金融、AI、理财等多个领域。
112 4
|
2月前
|
人工智能 Rust 算法
Github 2024-09-30 开源项目周报 Top15
本周GitHub热门项目揭晓:Python主导,AutoGPT居首,涵盖AI、编程、数学动画等领域,助力开发者探索前沿技术。
143 4
|
开发工具 git
github下载项目
github下载项目
258 0