首页/文章/ 详情

模型压缩和迁移学习--知识蒸馏技术

9小时前浏览1



蒸馏训练(Knowledge Distillation)自提出以来,已经成为模型压缩和迁移学习领域的重要研究方向。数据蒸馏技术的核心是将大量数据中的精华信息浓缩到一个更小的数据集中进行训练。通过这种方式,DeepSeek-V3能够在保持高性能的同时,降低训练成本。

目录



   
  • 蒸馏算法的发展    
  • 蒸馏算法一些细节    
  • 参考文献 

*

As shown below👇

蒸馏算法的发展

近年来,深度学习模型在计算机视觉、自然语言处理等领域取得了显著进展,但模型的复杂性和计算成本也随之增加,限制了其在资源受限环境中的应用。为了解决这一问题,知识蒸馏(Knowledge Distillation)技术应运而生。知识蒸馏由Hinton等人在2015年首次提出,通过将复杂模型(教师模型)的知识迁移到简单模型(学生模型)中,实现了模型压缩与性能提升的平衡。其核心思想是利用教师模型输出的软标签(Soft Labels)指导学生模型的训练,使学生模型在保持较小规模的同时,能够接近甚至超越教师模型的性能。

 


随着研究的深入,知识蒸馏技术不断发展,衍生出多种改进方法,如自蒸馏(Self-Distillation)、多教师蒸馏(Multi-Teacher Distillation)、在线蒸馏(Online Distillation)和特征蒸馏(Feature Distillation)等。这些方法在不同场景下进一步提升了蒸馏的效果,例如在模型压缩、迁移学习和跨模态任务中取得了显著成果。此外,理论研究也对知识蒸馏的有效性进行了深入分析,揭示了其成功的内在机制。

 




蒸馏算法简介

核心概念

教师模型(Teacher Model):通常是一个复杂、高性能的模型(如深度神经网络),但计算成本高。

学生模型(Student Model):一个结构更简单、计算效率更高的模型,目标是模仿教师模型的行为。

软标签(Soft Labels):教师模型输出的概率分布,包含更多信息(如类别间的关系)。

硬标签(Hard Labels):真实的标签(如one-hot编码),信息较少。


蒸馏算法的数学细节

(1) 软目标(Soft Targets)

教师模型的输出概率分布(软标签)为:

       
 


学生模型的输出概率分布为:

 
 


(2) 蒸馏损失

使用KL散度衡量教师模型和学生模型输出分布的差异:

 


(3) 学生损失

使用交叉熵损失衡量学生模型输出与真实标签的差异:

 


参考文献



   

[1] Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.

https://arxiv.org/abs/1503.02531


[2] Zhang, L., & Luo, J. (2019). Be your own teacher: Improve the performance of convolutional neural networks via self distillation. arXiv preprint arXiv:1905.08094.

https://arxiv.org/abs/1905.08094


[3] Zhang, Y., Xiang, T., Hospedales, T. M., & Lu, H. (2017). Knowledge distillation with multiple teacher models. arXiv preprint arXiv:1706.05061.

https://arxiv.org/abs/1706.05061

来源:微波工程仿真
理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-07-16
最近编辑:9小时前
周末--电磁仿真
博士 微波电磁波
获赞 28粉丝 55文章 433课程 0
点赞
收藏
作者推荐

电磁逆向性--逆向超表面

在自动跟踪系统中,逆向装置可以通过动态调整接收器或发射器的方向来实现信号的最佳接收和传输。特别是在移动通信、军用卫星通信中,逆向可以检测入波的方向,避免干扰,减少不必要的功率损耗,大大提高了通信的质量和效率。可以实现入射电磁波逆向的器件很多,包括超表面、角反射器和猫眼等。目录 电磁波逆向性 逆向超表面 参考文献 *As shown below👇 电磁波逆向性逆向性是一个有趣的特性,其中入射信号可以在没有任何到达方向的事先了解的情况下反射到其来源的同一方向。因此,它已被用于许多微波和毫米波应用,因为它在改善散射不良目标的雷达散射截面 (RCS) 方面具有优势,并且在无线电力传输系统中信号处理时间更短。常用的逆向结构,包括超表面、角立方体、猫眼逆向反射器和 Luneburg 透镜。 逆向超表面二维超表面 (MS) 具有优于三维结构的明显优势,以操纵波向在光学和微波领域受到相当多的关注。 如图,位于xy平面中的周期性相位梯度MS(PGM)被两个TE偏振平面波照射,这两个TE极化平面波分别沿x轴和y轴以xz和yz入射面以入射角θi传播。根据基本的广义斯涅尔定律,MS产生的2π相位梯度通常会导致异常波的产生。假设PGM的设计和操作是二维的。MS对x和y方向入射波的电磁波响应是独立的。那么,入射角θi和反常反射角θr之间的关系可以表示如下: 对于二维PGM,其特征是形式为ϕx=2πx/Lx和ϖy=2πy/Ly的线性变化相位,其中Lx和Ly分别是沿x和y方向具有2π连续相位梯度的超晶胞的周期长度,从而在反射波上施加了额外的面内波数D b x/dx=2π/Lx和D \981]y/dx=2 pi/Ly。如果入射介质是折射率为1(ni=1)的空气,则广义反射定律可以写成 为了使入射波和异常反射波的角度相同(θrx=θix;θry=θiy),异常反射波角度必须满足以下表达式: 通过精确选择超晶胞的尺寸,入射波的角度可以与反射波的角度相同。因此,获得了逆方向性。参考文献 [1] D. He, S. Li, L. Chen, L. Deng and Y. Shu, "A Wide-Angle and Ultrawideband Van Atta Array for Monostatic RCS Enhancement," in IEEE Antennas and Wireless Propagation Letters, vol. 24, no. 1, pp. 68-72, Jan. 2025, doi: 10.1109/LAWP.2024.3483836. [2] T. V. Hoang, C. -H. Lee and J. -H. Lee, "Two-Dimensional Efficient Broadband Retrodirective Metasurface," in IEEE Transactions on Antennas and Propagation, vol. 68, no. 3, pp. 2451-2456, March 2020, doi: 10.1109/TAP.2019.2940501. [3] Nanfang Yu et al. ,Light Propagation with Phase Discontinuities: Generalized Laws of Reflection and Refraction.Science334,333-337(2011).DOI:10.1126/science.1210713来源:微波工程仿真

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈