智能设计原理揭秘 | 论文和发明专利：基于扩散模型的剪力墙结构智能设计

22天前浏览1796

摘要

正文

论文：Intelligent design of shear wall layout based on diffusion models. Computer-Aided Civil and Infrastructure Engineering, 2024.

DOI：https://doi.org/10.1111/mice.13236

发明专利：建筑结构布置生成方法、系统及生成模型的构建方法 ZL 202310477335.1

ai-structure.com在2023年11月3日上线了基于Diffusion Model的剪力墙结构智能设计，本文给出其实现的具体技术原理。

本研究提出了一种适用于剪力墙布置任务的扩散模型训练、生成方法。讨论了适用于扩散模型的剪力墙图纸表征方式、扩散模型架构设计。测试案例表明，本研究提出的方法设计的剪力墙结构与其他算法相比有一定优势。

扩散模型科普

考虑到很多读者对扩散模型本身并不熟悉，我们先对扩散模型本身做一些比较科普的介绍。“扩散”其实来源于生活中很常见的一个物理现象，例如将墨水滴入水中，过一段时间，墨水就会与水融为一体，这个过程就是扩散，显然这个过程是很难逆转的。类比到图像生成任务，就是给图片不断加上微小的噪声，到一定时间，图像本身就会变成纯噪声，这个过程也是不可逆的，而扩散模型就是想用AI这一有力武器将纯噪声图像恢复成原始图像。

当然，纯噪声图像里面不包含原有图像的任何信息，因此这个逆过程是不可能完成的。因此，在逆过程中，我们要给一些条件，才能让逆过程按我们所想的进行。例如在逆过程中给出条件“一朵黄色的花”，才能达到图1所示的效果。

图1 前向后向扩散过程

为什么要做的如此复杂？

一个很自然的答案是将原来的一步生成变成了多步生成。生成对抗网络（GAN）也是从噪声（隐空间）映射到图像，但GAN一步就完成了映射。这样很快，但做得糙。扩散模型将这个一步的过程变成了多步，慢慢地去除图片中的噪声，最终可以获得比GAN更加精细的结果。

图2 一步生成与多步生成

当然使用扩散过程的逆过程还有很多很好的性质，例如增强稳定性、可靠性、多样性等，但这些都需要一点点数学推导，如果读者感兴趣，可以阅读https://lilianweng.github.io/posts/2021-07-11-diffusion-models/博文，里面有更详细的解释。

剪力墙布置任务

下面让我们来重新思考一下剪力墙布置任务。剪力墙布置任务，与其说是从图片到图片生成剪力墙的布置，不如说是属于结构工程师的涂色游戏。规则就是在灰色区域（建筑墙）区域涂上红色（剪力墙），让这个剪力墙布置符合结构规范即可。

图3 剪力墙布置就是在玩一种涂色游戏

适用于剪力墙布置任务的扩散模型

2022年以来，提到扩散模型，第一个想到的就是Stable Diffusion。那么Stable Diffusion能不能用于我们剪力墙结构的布置任务呢？

图4 Stable Diffusion 架构

答案是Stable Diffusion可以用，但是这并不是最优的。首先，Stable Diffusion利用编码器和解码器将图像在隐空间进行操作。这一操作对真实图像是很有效的，这是因为真实世界中图像通常高频成分不明显，因此利用编码器后不会损失太多的信息，而且有利于减少训练所需的显存。而对于建筑图纸而言，高频信息反而是最重要的部分，因此使用这种编码器、解码器是不合适的。

图5 高频信息对建筑图纸的影响（图像局部放大）

其次，剪力墙结构布置是一个涂色问题，Stable Diffusion的架构并不支持控制涂色范围，因此其内部使用的架构也不合适。最后，Stable Diffusion添加条件的方式利用了CLIP模型（由于这超出了本文内容，感兴趣的读者可以阅读https://openai.com/index/clip/）但这种方式不够直接，也不适合用于剪力墙布置任务。

为了解决上述问题，本研究另起炉灶，提出了一种新的、适用于剪力墙布置任务的扩散模型，以及其对应的数据集构建、模型训练、模型应用方法，如图6所示。

图6 适用于剪力墙布置的扩散模型技术路线

数据集构建方面使用了基于特征空间表示的硅基视觉大法，这里卖个关子，将在下回揭秘。在数据集构建完成后，我们选择如图7所示的带注意力机制和噪声等级编码的U-Net进行剪力墙生成任务。

图7 带注意力和噪声等级编码的U-Net架构

这就避免了引入编码器、解码器造成的高频信息缺失。并且本研究中将条件与输入张量连接（Concatenate）起来输入到U-Net中，有效提升了条件指导的作用。另外，本研究还对U-Net输入输出做了一些更改，以控制模型只在有建筑墙体的地方布置剪力墙。这样做有两大好处，一是在训练时模型只关注能布置剪力墙的部分，提升特征稠密程度（图8所示，原先65536像素的生成下降为972个像素的生成），并且能够有效减少剪力墙像素占比过少引起的模型训练不稳定；二是在预测时，能直接清理掉超出布置范围的部分，减少后处理工作量。

图8 修改后的U-Net有效提升了特征稠密度

结果讨论

本研究针对不同添加条件方式，训练精度，U-Net隐藏层维度，注意力机制添加位置等方面进行了讨论，相关细节请参考论文原文。同时还对比了本研究模型与StructGAN（本研究中的StructGAN是早期StructGAN，不是现在AI-Structure上修炼了硅基视觉大法的GAN）效果。在IoU指标上，StructGAN在有18个案例的测试集上得分为0.363，本研究提出的方法得分为0.585。如图9所示，本研究方法生成的结果边界清晰锐利，说明其学习能力较强。