实战阿里通义灵码极速编程-截屏-OCR-Ollama篇代码

2024-12-30 404

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 该代码实现了一个截屏测试工具，结合了鼠标事件监听、屏幕截图和OCR功能。用户可通过拖动鼠标选择屏幕区域进行截图，并将截图转换为Markdown格式的文本内容。具体步骤包括：初始化大模型客户端、编码图像为Base64格式、捕获指定屏幕区域并保存截图、调用大模型API进行OCR识别并输出Markdown格式的内容。

这里测试的大模型主打一个免费，阿里通义灵码免费，ollama免费。

截屏测试

import pyautogui
import base64
from ollama import Client
from pynput import mouse

初始化大模型客户端

client = Client(
host='http://192.168.0.37:11434',
headers={'x-some-header': 'some-value'}
)

def encode_image(image_path: str) -> str:
with open(image_path, "rb") as image_file:
encoded_string = base64.b64encode(image_file.read()).decode("utf-8")
return f"data:image/jpeg;base64,{encoded_string}"

def capture_screen_region():
print("请按住鼠标左键并拖动来选择矩形区域...")

start_x, start_y = None, None
end_x, end_y = None, None

def on_click(x, y, button, pressed):
    nonlocal start_x, start_y, end_x, end_y
    if button == mouse.Button.left:
        if pressed:
            start_x, start_y = x, y
            print(f"鼠标按下位置: ({start_x}, {start_y})")
        else:
            end_x, end_y = x, y
            print(f"鼠标释放位置: ({end_x}, {end_y})")
            return False  # 停止监听

# 创建鼠标监听器
with mouse.Listener(on_click=on_click) as listener:
    listener.join()

# 计算矩形区域的左上角和右下角坐标
left = min(start_x, end_x)
top = min(start_y, end_y)
width = abs(end_x - start_x)
height = abs(end_y - start_y)

screenshot = pyautogui.screenshot(region=(left, top, width, height))
screenshot_path = "screenshot.png"
screenshot.save(screenshot_path)
return screenshot_path

def perform_ocr(image_path: str):

# system_prompt = "Convert the content of the image into text."
system_prompt = """Convert the provided image into Markdown format. 

Requirements:

- Output Only Markdown: Return solely the Markdown content without any additional explanations or comments.
- No Delimiters: Do not use code fences or delimiters like \`\`\`markdown.
- Complete Content: Do not omit any part of the page, including headers, footers, and subtext.
"""

response = client.chat(
    model='llama3.2-vision:11b',
    messages=[
        {
            'role': 'user',
            'content': system_prompt,
            'images': [image_path],
        }
    ],
)

return response.message.content

if name == "main":
image_path = capture_screen_region()
markdown_content = perform_ocr(image_path)
print(markdown_content)

实战阿里通义灵码极速编程-截屏-OCR-Ollama篇代码

这里测试的大模型主打一个免费，阿里通义灵码免费，ollama免费。

截屏测试

初始化大模型客户端

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

实战阿里通义灵码极速编程-截屏-OCR-Ollama篇代码

这里测试的大模型主打一个免费，阿里通义灵码免费，ollama免费。

截屏测试

初始化大模型客户端

热门文章

最新文章

相关课程

相关电子书