用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

发布一下 0 0

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

本文作者:张宁

浙江华双信息科技有限公司 技术总监

负责带领技术团队进行重点产品、项目研发,负责系统架构设计,规划平台未来技术架构方向。目前主要研究领域为图像识别、目标检测、语义分割,曾负责“三防三白”中工作服、帽子及口罩佩戴检测预警、洪水预报预警等业务。




操作场景

使用 TeslaA100 GPU 云服务器进行 YOLOv5 模型训练用于目标检测任务,查看训练效果。



YOLOv5 模型简介

YOLOv5 模型是 Ultralytics 公司于 2020 年 6 月 9 日公开发布的。YOLOv5 模型是基于 YOLOv3 模型基础上改进而来的,由 Backbone、Neck 和 Head 组成。

示意图如下:

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型



示例环境

  • 实例类型:单卡TeslaA100 GPU 云服务器
  • 系统盘:50 GB高性能云硬盘
  • 操作系统:Ubuntu20.04
  • 带宽:20 M(按流量计费)
  • 本地操作系统:MacOS



PytochGPU 环境搭建



参考青云官方文档《UbuntuGPU 云服务器搭建深度学习环境》中的“GPU 云服务器显卡相关配置”和“Pytorch 安装”两大模块。

训练数据



训练数据集选用 coco128,一共 128 张图片,一张图对应一个标注好的 Label。

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型


数据集概览如下:

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型



训练数据上传服务器



通过 Linux 连接工具,选择 sftp,输入对应的服务器公网 IP、账号、密码即可连接云服务器。

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型



训练结果



利用 GPU 进行训练,每个 Epoch 在 1 秒内完成,300 轮 Epoch 总耗时 7 分钟,Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1。

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

每个Epoch在1秒内完成,300轮Epoch总耗时7分钟

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

查看训练结果:

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型



补充测试



coco128 训练数据集较小,使用另一份较大的训练数据集做测试,图片约 8000 张,大小 790 M,每轮 epoch 在 40s 内完成,表现很好。

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

每轮 epoch 在 40s 内完成

用户实践|使用 Tesla A100 GPU 云服务器训练 YOLOv5 模型

张 宁



浙江华双信息科技有限公司


技术总监


“青云 GPU 云服务器使用下来很惊喜,TeslaA100 显卡很给力,非常适合深度学习相关模型的训练。

而且,按需计费模式下,GPU 云服务器关机后,云服务器的 CPU、内存、GPU 卡这些计算资源不会收费,只有系统盘仍会产生费用,把系统盘的容量缩小就可以节省成本了。

如果训练样本过大,想以比较低的成本传输训练样本数据,可以创建一个硬盘,在 GPU 云服务器关机的时候,将硬盘卸载,然后创建一个低配置的云服务器,将硬盘再挂载这个低配服务器上进行样本数据传输,等训练时将硬盘再挂载至 GPU 云服务器进行训练。”




青云最新 GPU 云服务器申请试用



搭载 Ampere 架构 NVIDIAA100 Tensor Core GPU 显卡,单卡显存 40 GB,单台云服务器最多可挂载 8 块 GPU,适用于深度学习、科学计算应用加速。

即刻申请,新用户可获得 200优惠券!

贡献实践文档还可获得 500-1000大额优惠券奖励!

版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除

本文地址:http://0561fc.cn/178144.html