蒸馏训练(Knowledge Distillation)自提出以来,已经成为模型压缩和迁移学习领域的重要研究方向。数据蒸馏技术的核心是将大量数据中的精华信息浓缩到一个更小的数据集中进行训练。通过这种方式,DeepSeek-V3能够在保持高性能的同时,降低训练成本。
As shown below👇
蒸馏算法的发展
近年来,深度学习模型在计算机视觉、自然语言处理等领域取得了显著进展,但模型的复杂性和计算成本也随之增加,限制了其在资源受限环境中的应用。为了解决这一问题,知识蒸馏(Knowledge Distillation)技术应运而生。知识蒸馏由Hinton等人在2015年首次提出,通过将复杂模型(教师模型)的知识迁移到简单模型(学生模型)中,实现了模型压缩与性能提升的平衡。其核心思想是利用教师模型输出的软标签(Soft Labels)指导学生模型的训练,使学生模型在保持较小规模的同时,能够接近甚至超越教师模型的性能。
随着研究的深入,知识蒸馏技术不断发展,衍生出多种改进方法,如自蒸馏(Self-Distillation)、多教师蒸馏(Multi-Teacher Distillation)、在线蒸馏(Online Distillation)和特征蒸馏(Feature Distillation)等。这些方法在不同场景下进一步提升了蒸馏的效果,例如在模型压缩、迁移学习和跨模态任务中取得了显著成果。此外,理论研究也对知识蒸馏的有效性进行了深入分析,揭示了其成功的内在机制。
蒸馏算法简介
学生模型(Student Model):一个结构更简单、计算效率更高的模型,目标是模仿教师模型的行为。
软标签(Soft Labels):教师模型输出的概率分布,包含更多信息(如类别间的关系)。
硬标签(Hard Labels):真实的标签(如one-hot编码),信息较少。
教师模型的输出概率分布(软标签)为:
学生模型的输出概率分布为:
使用KL散度衡量教师模型和学生模型输出分布的差异:
使用交叉熵损失衡量学生模型输出与真实标签的差异:
[1] Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.
https://arxiv.org/abs/1503.02531
[2] Zhang, L., & Luo, J. (2019). Be your own teacher: Improve the performance of convolutional neural networks via self distillation. arXiv preprint arXiv:1905.08094.
https://arxiv.org/abs/1905.08094
[3] Zhang, Y., Xiang, T., Hospedales, T. M., & Lu, H. (2017). Knowledge distillation with multiple teacher models. arXiv preprint arXiv:1706.05061.
https://arxiv.org/abs/1706.05061