多模态(Multimodal)机器学习(Machine learning)的相关研究

1月前浏览2279

文一：

精确健康中的多模态机器学习: 范围评述

摘要：

机器学习经常被用来解决卫生部门的问题，包括用于临床决策支持。它的使用历来集中在单一模态数据上。在机器学习的生物医学领域，通过融合不同的数据，已经实现了改进预测和模拟临床专家决策的多模态性质的尝试。本综述旨在总结该领域的当前研究，并确定适合未来研究的主题。我们根据范围界定审查的PRISMA扩展进行了这项审查，以表征健康中的多模态数据融合。2011年至2021年，在PubMed、Google Scholar和IEEEXplore等数据库中建立并使用了搜索字符串。最后一组128篇文章被纳入分析。使用多种方法的最常见的健康领域是神经病学和肿瘤学。早期融合是最常见的数据合并策略。值得注意的是，当使用数据融合时，预测性能有所提高。论文中缺乏明确的临床部署策略、美国食品药品监督管理局的批准，以及对使用不同亚人群的多模式方法如何改善偏见和医疗保健差异的分析。这些发现总结了应用于健康诊断/预后问题的多模式数据融合。很少有论文将多模式方法的输出与单模式预测进行比较。然而，那些确实做到了的预测准确率平均提高了6.4%。多模式机器学习虽然在估计方面比单峰方法更稳健，但在可扩展性和信息拼接的耗时性方面存在缺陷。

图：多模式精准健康；信息的流动。信息以循环模式从健康中心转移到信息共享区，在那里可以进行转换和算法建模。这些算法可以深入了解许多不同的健康结果，如临床试验、表型、药物发现等。这些见解应该回到健康中心和从业者那里，以提供最有效的循证医学。

图：早期、中期和晚期融合；从信息共享到模型结构再到结果的信息流。信息融合可以通过多种方式发生。在机器学习中，早期、中期和后期融合的典型特征是，如果所有信息都流入一个模型（早期），一种逐步的方式，其中一个模型的输出变成另一个模型中的输入（中期），最后，所有独特的数据类型都经过单独的建模，然后进行组合和/或投票（后期）。

图：主题和情态建模。神经病学，尤其是阿尔茨海默病的研究，在这一主题上发表的论文最多（n=22）。随着新冠肺炎大流行的爆发，几篇主要研究文章专门针对这一主题，可以通过呼吸道或传染病分级得出。这篇综述中提到的所有论文在融合数据时都使用了两个或三个不同的数据源，特别是成像和EHR（n=52）的数据源最为普遍。

图：审查过程中的元数据。融合类型的 Heat map 分解为编码平台论文，通过对论文计数(那些提到使用的平台)进行求和，最流行的是 Python 平台和早期融合。值得注意的是，37篇论文没有明确提到平台。B 过去10年在这一领域发表的原创研究论文总数。C 大陆作者贡献分类(注意一些论文的作者来自多个大陆)。D 出版物类型分类(临床/非临床期刊)。不到一半(37.6%)的论文发表在面向临床受众的期刊上。E 所研究人群的性别分类。男性和女性在论文中都有代表性，然而，代表性的程度在个别研究中有所不同。

文二：

基于多模式机器学习的膝骨关节炎进展预测——基于平片和临床数据

摘要：

膝关节骨性关节炎（OA）是最常见的肌肉骨骼疾病，无法治愈，目前的治疗选择仅限于症状缓解。OA进展的预测是一个非常具有挑战性和及时的问题，如果得到解决，它可能会加速疾病改良药物的开发，并最终有助于防止每年进行数百万次全关节置换手术。在这里，我们提出了一个基于多模式机器学习的OA进展预测模型，该模型利用了原始放射学数据、临床检查结果和患者既往病史。我们在一个由2129名受试者的3918张膝盖图像组成的独立测试集上验证了这种方法。我们的方法得出的ROC曲线下面积（AUC）为0.79（0.78–0.81），平均精密度（AP）为0.68（0.66–0.70）。相比之下，基于逻辑回归的参考方法得出的AUC为0.75（0.74–0.77），AP为0.62（0.60–0.64）。所提出的方法可以显著改进OA药物开发试验的受试者选择过程，并有助于制定个性化的治疗计划。

图：我们的多模式管道的示意图，预测特定膝盖骨关节炎（OA）进展的风险。我们首先使用在多任务环境中训练的深度卷积神经网络（CNN）来预测OA进展的概率（无进展、快速进展、缓慢进展）和根据Kellgren-Lawrence（KL）量表定义的OA的当前阶段。随后，我们将这些预测与患者的年龄、性别、体重指数、给定的膝盖损伤和手术史、症状评估结果以及放射科医生使用梯度增强机器分类器给出的KL等级相融合。在从CNN获得预测后，我们利用GradCAM注意力图使我们的方法更加透明，并突出输入膝盖射线照片中的区域，这些区域被网络认为是最重要的。

图：基于Logistic回归的模型性能评估。Te子图（a）展示ROC曲线和子图（b）精度召回曲线。黑色虚线表示在AUC的情况下随机分类器的性能，以及基于数据集标签分布的预测模型的性能。子图的图例以95%的置信区间反映了基准模型和相应指标的值。这里，ROC曲线下面积度量用于子图（a），平均精度用于子图。

图：基于梯度增压机模型的性能评估。Te子图（a）展示ROC曲线和子图（b）精度召回曲线。黑色虚线表示在AUC的情况下随机分类器的性能，以及基于数据集标签分布的预测模型的性能。子图的图例以95%的置信区间反映了基准模型和相应指标的值。这里，ROC曲线下面积度量用于子图（a），平均精度用于子图。

文三：

飓风预报：一种新的多模式机器学习框架

摘要：

本文结合多种机器学习技术并利用不同的数据源，描述了一种新的热带气旋强度和路径预报的机器学习（ML）框架。我们的多模式框架称为Hurricast，通过使用深度学习编码器-解码器架构提取特征并使用梯度增强树进行预测，有效地将时空数据与统计数据相结合。我们评估了2016-19年北大西洋和东太平洋盆地的24小时提前期跟踪和强度预测模型，并表明它们在几秒钟内计算时实现了与当前操作预测模型相当的平均绝对误差和技巧。此外，将飓风纳入操作预测共识模型可以改进国家飓风中心的官方预测，从而突出与现有方法的互补性。总之，我们的工作表明，利用机器学习技术结合不同的数据源可以为热带气旋预报带来新的机遇。

图：重复提取的九个再分析图表示每个时间步骤，对应三个不同的特征

图：使用两个数据源表示我们的多模态机器学习框架：统计图和再分析图

图：我们的八时间步长 TC 序列的 CNN 编码器 GRU 解码器网络示意图。在每个时间步骤中，我们利用 CNN 来产生再分析图的一维表示。然后，我们将这些嵌入与相应的统计特征连接起来，创建一系列依次提供给 GRU 的输入。在每个时间步骤中，GRU 输出传递给下一个时间步骤的隐藏状态。最后，我们串联所有连续的隐藏状态，并通过三个完全连接的层，以预测强度或轨道与24小时的提前时间。最后提取时空嵌入作为第二个完全连通层的输出

图：我们的 CNN 编码器的代表。

文四：

基于多模态机器学习模型的外骨骼机器人运动模式识别研究

摘要：

外骨骼作为一种与佩戴者智能机器人的实时交互，近年来成为机器人领域口腔类研究的热点。体外可穿戴外骨骼与有机体结合，起到保护和支撑作用。通过佩戴外骨骼机器人，可以扩大佩戴者的运动能力，增加肌肉耐力，并使佩戴者能够完成他或她在自然条件下无法完成的任务。基于上述优势，外骨骼机器人在军事医疗和康复领域具有广阔的应用前景。本文介绍了机器学习多模态模型的研究现状和研究意义，本文在外骨骼机器人应用的基础上，对步态进行了详细的研究。它主要涉及：分析规划和获取运动信息的处理、步态的模式识别和分析以及步态的转换过程，以及脑电图和关节位置、足部压力等不同模式的数据作为机器学习模型的输入，以提高步态规划的及时性、准确性和安全性。由于常见的运动过程涉及步态的转换过程，本文对步态转换过程进行了研究，包括蹲下、地面行走和站立。

图：基于SSVEP的脑机接口系统

图：蹲站运行

文五：

多模式机器学习在青光眼视神经病变检测中的应用

摘要：

目的：开发并验证一种多模式人工智能算法FusionNet，该算法使用视野（VF）报告的模式偏差概率图和圆形乳头周围OCT扫描来检测昏迷性视神经病变（GON）。

设计：横断面研究。

受试者：二千四百六十三对来自1083名患者的心室颤动和OCT图像。

方法：开发基于VF和OCT双模态输入配对数据的FusionNet来检测GON。

使用Humphrey field Analyzer（HFA）收集视野数据。OCT图像采集自3种类型的设备（DRI-OCT、Cirrus OCT和Spectralis）。二千四百六十三对VF和OCT图像被分为4个数据集：1567个用于训练（HFA和DRI-OCT），441个用于初步验证（HFA与DRI-OCT），255个用于内部测试（HFA及Cirrus OCT）和200个用于外部测试集（HFA and Spectralis）。GON被定义为视网膜神经纤维层变薄并伴有相应的VF缺陷。

主要结果指标：FusionNet的诊断性能与VFNet（以VF数据为输入）和OCTNet（以OCT数据作为输入）的诊断性能相比。

结果：FusionNet的受试者工作特征曲线下面积（AUC）为0.950（0.931e0.968），优于VFNet（AUC，0.868[95%置信区间（CI），0.834e0.902]）、OCTNet（AUC，

0.809[95%CI，0.768e0.850]）和2名青光眼专家（青光眼专家1:AUC，0.882[95%CI，

0.847e0.917]；青光眼专家2:AUC，0.883[95%CI，0.849e0.918]）。在内部和外部测试集中，FusionNet的性能也优于VFNet和OCTNet（FusionNet vs VFNet vs OCTNet：内部测试集0.917 vs 0.854 vs 0.811；外部测试集0.873 vs 0.772 vs

0.785）。在内部和外部测试集中，2名青光眼专家和FusionNet之间没有发现显著差异，除了内部测试集中的青光眼专家2（AUC，0.858[95%CI，0.805e0.912]）。

结论：使用VF和OCT配对数据开发的FusionNet在检测GON方面表现出优于VFNet和OCTNet的性能，这表明多模式机器学习模型在检测GON方面有价值。

图：当前研究的流程图。RNFL=视网膜神经纤维层；VF=视野。

图：基于视野（VFs）和OCT图像组合的FusionNet示意图。VFNet和OCTNet分别用于从VF和OCT的乳头周围环形扫描中提取模式偏差概率图（PDP）的特征。将每个方法的特征传递给注意力模块以获得标量权重。最后，分类器预测了诊断概率。在数据预处理阶段，我们将OCT图像从0缩放到1，并将其调整为256768像素，然后使用归一化对其进行变换。我们从VF报告中提取PDP信息，并将其划分为10个10网格，然后使用6个模板来表示4种概率（0.5%、1%、2%和5%）、正态空间和空格的数据点，以匹配每个网格中的5个图标和1个空格。FusionNet是基于成对VF和OCT数据的神经网络，VFNet是基于VF数据的神经网，OCTNet是基于OCT数据。GAP=全球平均池。