首页/文章/ 详情

视觉AI大模型太慢,「蒸馏+微调」到YOLO~

22分钟前浏览24

内容来源:GIS小丸子

前面我在阿里发布了Qwen3-VL视觉语言大模型之后,我测试了一下Qwen3-VL中对应的2d 对象检测的能力,有不少同行留言,虽然可以做到零样本,但是由于视觉AI大模型部署成本很高,推理很慢,基本上只能用到一些对实时性要求不高的场景中。

但是大家对于「实时视觉模型+视觉大模型」组合都还是非常感兴趣,比如Ultralytics发布的这个使用「YOLO + GPT5-mini」的组合来进行车牌实时跟踪识别的这个场景,通过YOLO来识别车牌框,GPT5-mini则OCR识别具体的车牌号。

当然他们这个大模型也是通过接口来调用的,也没有解决接口调用比较慢的问题,所以现在也有一种趋势就是通过「预训练蒸馏+自动标注微调」的方法来通过大模型提高实时小模型在特定的场景上的精度。

比如最近开源的一个自监督训练框架lightly-train,这个框架通过无标签样本数据的自监督训练实现预训练将类似dino v3这类视觉大模型蒸馏到类似yolo这类小模型中,然后再基于这个基于行业数据的预训练模型再进行有标签的微调训练,也就是我们平时使用yolo都会做的工作,这样使用「预训练蒸馏+微调」的组合之后,可以使得yolo使用更小的微调数据就可以取得更高的精度。

     

1.预训练蒸馏

8月份Meta发布了最新的dino v3模型,dino v3使用70亿参数和17亿张图片进行训练,远超前代模型,它在不依赖任何人工标注的情况下,仅通过大量未标记图像进行训练,就能生成高质量、通用的视觉表示,而且他还基于遥感数据做了预训练,得到了预训练模型SAT-493M,如下就是针对遥感输入输出的feature similarities的可视化。 

     

但是由于dino v3是一个骨干模型,要实现目标检测还需要借助Grounding DINO这种框架,目前Grounding DINO还没有更新到相应的版本,但是现在也有基于dino v3的EoMT和DEIMv2,分别实现分割和目标检测。

     

而DEIMv2为了提高实时性的要求就提供了蒸馏的小模型版本,而lightly-train恰好也提供了一个非常简单的通过基于教师-学生网络架构的自监督的方式进行dino v3到yolo或者DETR类模型的蒸馏。

1. 特征提取:教师模型生成图像的高质量特征表示,学生模型学习生成相似的特征表示。

2. 损失函数:特征蒸馏损失,最小化教师和学生特征的差异,优化小模型参数。

反映到实际代码层面,主要是这一段代码:

     

我这边是使用了dinov3_vitl16_pretrain_lvd1689m-8aa4cbdd.pth作为教师模型,使用了yolo11s作为学生模型,使用无标签的VisDrone2019作为训练的数据。

不过现在Meta对于dinov3的预训练权重有限制,必须要邮件申请,很容易被拒,如果是直接使用modelscope也可以下载到,但是不是pth格式的。

在训练部分,可能需要的资源比较大,这部分我是直接使用了modelscope的GPU免费资源来训练的,大家也可以自行申请使用。

     

这个预训练好了导出的就是一个pt文件,然后再基于这个pt文件再继续做微调就好了,以前我们都是直接下载官方的一些预训练权重,比如基于coco数据集的预训练权重。

2.自动标注微调

当然除了这种预训练阶段我们可以借助大模型的能力,在微调阶段,我们也可以利用目前大模型的零样本目标检测能力,对我们需要标注的数据进行自动化的标注,然后人工进行误检和漏检查的删除和新增,这样也可以大大提升我们在微调阶段制作样本数据的效率。

我这边主要尝试了基于GroudingDINO和Qwen3-VL的自动标注,因为这种自动标注对实时性要求不高,所以应用大模型是完全可以接受的,总的思路是:

1、自动读取视频帧调用大模型检测,配置好视频的输入、数据集输出、要检测的类别、视频帧采样间隔、置信度阈值,yolo数据集train/val/test的划分比例等,就可以执行了,提取检测结果并将转换结果转换成为Yolo数据集的格式;

GroundingDINO版本我使用的是hugging face上的IDEA-Research/grounding-dino-base权重,在实际推理的时候会存在一定的漏识别和误识别的问题,比如针对无人机航拍的视频这边的车辆就会漏掉。

     

这个部分就需要使用手动的标注工具,将这部分标注上去。

     

但是Qwen3-VL对一些基本上对正常目标不存在漏识别的问题,对细小的人物识别的也比较准确,这些这些目标不放大仔细看自己都可能会漏掉。

还有这种跑道的的人也都会识别出来。

     

但是也会有一些异常情况,比如这边的一群人,他不是单独的把每个个体识别出来,而是更倾向于把这一群识别出来,但是感觉这个问题直观感觉是可以通过提示词的优化来改进的,这也是视觉语言模型和单纯的视觉大模型之间的一些区别。

     

2、针对输出的Yolo数据集进行人工的复合,错误的删除,缺少的再新增标注;

所以如果你有公网环境且不存在数据安全性的问题可以考虑优先使用Qwen3-VL的自动标注版本,如果你是在隔离的环境下可以使用Ground ingDINO的版本。

总体体验下来,这种自动标注模式可以选择目标区域多个航路的视频数据,然后进行自动化标注,人工主要做的活就是相关的复核工作,所以效率和体验都是有所提升的。 

来源:数字孪生体实验室

通用UG数字孪生无人机META
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-11-23
最近编辑:22分钟前
数字孪生体实验室
围绕数字孪生技术的创新研发,推...
获赞 457粉丝 410文章 714课程 2
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈