论文:Zheng, Z., Han, J., Chen, K. Y., Cao, X. Y., Lu, X. Z., & Lin, J. R. (2026). Translating regulatory clauses into executable codes for building design checking via large language model driven function matching and composing. Engineering Applications of Artificial Intelligence, 163, 112823.
DOI: https://doi.org/10.1016/j.engappai.2025.112823
0
本节为AI对论文的总结
给规范条款配上"翻译官"——让AI读懂建筑设计的"天书"
想象一下,您手里有一本厚厚的建筑防火规范,里面写着:"相邻护理单元之间应采用耐火极限不低于2.00h的防火隔墙分隔"。这句话对工程师来说很清楚,但对计算机而言,简直就是"天书"——它不知道什么叫"相邻",不知道如何找到"护理单元",更不知道怎么去检查"防火隔墙"是否存在。
这就像让一个现代人去读一本用古文写的医书,即便他认识每个字,也无法理解其中的医理,更别说开出药方了。
传统的自动合规检查系统,就像一个刻板的"翻译机器",只能处理最简单的句子,比如"柱子直径不小于500mm"这种直白的要求。一旦遇到复杂的条款——需要计算距离、判断拓扑关系、推理隐含属性——它就"卡壳"了,只能求助于人工逐条解读。
那么,能否为计算机配备一位"智能翻译官",让它自动读懂这些复杂条款,并转化为可执行的检查代码呢?
本研究的核心思路,就是建立一个"原子函数库"——把规范中反复出现的复杂计算逻辑(如"计算两空间距离"、"判断是否相邻"、"提取包含关系")拆解成66个基本"积木"。然后,利用大语言模型(LLM)这位"智能翻译官",通过精心设计的"提示词工程",让它自动识别每条规范需要哪几块"积木",再像搭乐高一样,把这些积木组装成完整的检查代码。
比如,面对"厂房内任一点至最近安全出口的距离不应大于50m"这条规范:
传统方法:工程师需要手写代码,调用几何计算函数,编写循环遍历逻辑……耗时费力。
LLM-FuncMapper方法:AI根据规范文本,自动识别出需要getDistance(计算距离)和hasElement(提取安全出口)两个原子函数,然后自动生成检查代码——整个过程只需5秒,而人工可能需要数分钟。
实验结果显示,这位"智能翻译官"的准确率高达81.55%,比传统的BERT模型高出19%,而且无需大量人工标注数据——就像ChatGPT不需要专门训练就能回答各种问题一样,这种"少样本学习"能力,让规范解译的自动化程度大幅提升。
如此一来,本研究通过原子函数库和LLM的结合,让计算机真正"读懂"了建筑规范的复杂逻辑,为智能化合规检查开辟了新路径。
以下内容源自公 众号:智能土木ABC:新论文 | 让大模型自动编写设计审查规则:推理校验函数的智能匹配与组合方法
00
太长不看版
将规范条文转译为可执行代码是实现自动化规则审查的关键环节,尤其对含隐含属性或需复杂领域知识的条款至关重要。因此,本研究提出了一个让AI“读懂”建筑规范的新方法LLM-FuncMapper,它能根据建筑设计规范中的自然语言条文自动编写为计算机可执行的设计审查规则代码,实现从“文字规则”到“逻辑规则”的跨越。
本研究首先通过系统分析《建筑设计防火规范》(GB 50016-2014),提炼出66个基元函数,覆盖属性、距离、面积、空间关系等八大类通用的计算逻辑与推理校验逻辑,构建出国内首个建筑法规校审的基元函数库。这些函数相当于建筑工程审查规则推理的“积木”,可以通过它们的灵活组合以表达复杂的推理计算与约束校验关系。
在此基础上,本研究设计了一个基于大语言模型的基元函数智能匹配与组合框架LLM-FuncMapper,通过提示工程与思维链技术,引导模型像专家一样推理规范条文中的隐含语义,并匹配到对应的基元函数。同时,为提升效率与准确度,论文提出了“规则自适应提示策略”,让模型能够根据条文内容自动筛选相关函数类别,从而显著降低输入复杂度。
实验表明,LLM-FuncMapper在函数匹配任务中的平均召回率达到81.55%,比经过微调的BERT模型高出19%,且幻觉率仅为0.29%以下。该系统能在约5秒内深度理解复杂规范条文并完成相关基元函数的匹配、组合与代码生成,显著提升建筑合规审查效率。
本研究首次实现在建筑领域中,利用大模型将复杂规范条文直接转译为可执行的推理规则代码,为设计智能审查与人机交互式设计审查提供了新的解决方案。
01
研究背景
随着建筑信息模型(BIM)和人工智能技术的快速发展,建筑设计自动化规则审查(Automated Rule Checking, ARC)正逐渐成为推动智能设计与智慧建造的重要方向。ARC的核心目标,是让计算机自动判断建筑设计方案是否符合国家及地方规范,从而减少人工查验的人力投入与主观误差。然而,目前大多数规则检查系统只能处理显式属性类条文,即参数、尺寸或对象关系直接呈现在条文中的内容。例如,“防火门最小宽度应不小于1.2米”,可以通过简单的条件语句实现检查。
但现实中的规范条文往往并不如此简单。大量条款包含隐含属性、复杂逻辑或跨对象的关系推理,例如防火间距、疏散距离、采光通风比例等,需要同时理解几何关系、空间拓扑与物理约束,是当前ARC系统自动化的最大瓶颈。传统方法通常依赖一阶逻辑(如Horn Clause、B-Prolog)或领域特定查询语言(Domain-Specific Query Language, DSQL)进行建模,但这类逻辑表达方式在面对连续空间计算与条件叠加推理时表现受限,且需要领域专家手动定义规则模板,既费时又难以复用。
在这一背景下,大语言模型(LLM)展现出优越的潜力。它们具备跨领域语义理解与多层逻辑推理能力,能够自动识别规范条文中的隐含关系与条件。然而,直接让LLM理解建筑规范仍面临两大挑战:1)领域知识不足,通用大模型并不了解建筑领域的专业计算逻辑;2)生成可执行逻辑的不确定性,模型可能产生语义幻觉,或在复杂逻辑下输出错误代码。
为此,本研究提出了LLM-FuncMapper框架:通过系统化分析《建筑设计防火规范》(GB 50016-2014),提炼出覆盖八大计算逻辑的 66 个基元函数,并设计了一套规则自适应提示策略,实现条文到函数的精准映射与自动组合,从而生成可执行代码。
图1 流程图
02
研究方法
2.1 基元函数库的构建
要让大模型真正理解建筑规范,最重要的就是把规范中的抽象表述变成计算机能够处理的逻辑结构。为此,本研究通过对《建筑设计防火规范》(GB 50016-2014)的系统性分析,构建了一个覆盖建筑合规审查的基元函数库。
基元函数库的核心思想,是将复杂规范条文拆解为一系列可复用、可组合的基元函数。每一个基元函数都封装了建筑审查中最常见的计算逻辑,如图2所示。
图2 基元函数示例
经过条文拆解与语义归纳,本研究共提炼出66个基元函数,并按计算特征划分为八大类逻辑模块。这些函数相当于建筑规则的“积木”,任何复杂条文都能通过不同函数的组合来表达其逻辑含义。
2.2 基于规则的自适应提示策略
有了基元函数库,还需要让模型学会在成百上千条规范中找对“积木”,也就是准确地把每一条条文匹配到合适的函数组合上。传统的做法通常依赖大量标注样本或模型微调,费时费力。且简单的语义相似度或关键词匹配往往会导致模型答非所问。
为此,本研究提出了基于规则的自适应提示策略。让LLM在阅读每条规范前,依据条文的特征自动选择提示模板,动态调整模型的推理路径。
首先根据条文的关键词判断其可能包含的基元函数类别,并据此限定可选函数范围。这样,模型不再面对全部66个函数,而只需在相关类别中进行匹配,显著降低歧义与运算开销。例如,涉及“间距”的条文会在提示时引入距离类的所有函数以供模型选择。提示词模板如下图所示:
图3 自动函数匹配提示
03
实验设置与结果
3.1 实验设置
为验证LLM-FuncMapper的有效性,本研究设置了两组实验。首先,本研究验证了规则推理机制的准确性,以确保它在为大模型提供足够参考函数的同时,能有效压缩输入 Token 数量,减少模型负担。
此外,本研就探究了不同大模型在函数匹配任务中的表现。实验选取了当时最具代表性的四个主流模型:ChatGPT-4o、Claude 3.5-Sonnet、DeepSeek-V3与DeepSeek-R1。同时为验证所提基于规则的自适应提示策略的有效性,本研究同样设置了完整提示输入和规则自适应提示输入两组对比实验。为了提供对照组,本研究还引入了经过微调的BERT模型,用于输出每条条文最有可能对应的五个函数。
最终,所有实验均采用召回率(Recall)和幻觉率进行综合评估。
3.2 实验结果
1) 规则推理机制的性能
表1的结果显示,采用本研究提出的规则自适应提示策略后,各类别的召回率均超过 92%。这说明该策略能在不牺牲覆盖率的前提下,为LLM提供足够且相关的基元函数候选,进而提升模型的效率、相关性与回复质量。换言之,模型把“注意力”集中在关键函数集 合上,减少了无谓搜索与干扰,为后续的函数组合与代码生成提供了更稳定的起点。
表1 规则推理机制的性能
2) 基元函数匹配方法的性能
实验结果如图4所示。Claude 3.5-Sonnet + 规则自适应提示取得最高的召回率81.55%。与之相比,微调BERT的召回率仅为68.5%,前者领先19%。这一结果表明,少样本的大模型方案能够超越传统微调路线,在减少大规模人工标注依赖的同时,验证了本文方法的有效性与优越性。进一步地,规则自适应提示对各大模型均有显著增益:使 ChatGPT-4o、Claude 3.5-Sonnet、DeepSeek-V3、DeepSeek-R1 的召回率分别提升4.6%、5.6%、1.2%、2.8%。这说明无需对LLM进行额外预训练或微调,仅通过自适应的提示工程即可显著提高函数匹配性能。
图4 基元函数匹配方法的性能
典型案例如图5所示,可看出结论同上述分析一致。
图5 基元函数匹配典型案例
3) 基元函数匹配方法的幻觉率
结果如表2所示,应用规则自适应提示后Deepseek-R1的幻觉率最低,仅0.14%;Claude 3.5-Sonnet也保持在0.29%的较低水平。相比之下,Deepseek-V3幻觉率最高,更易生成不在函数库中的虚假函数。总体来看,自适应提示显著抑制了无关或伪函数的产生,降低了后续人工甄别与规则修正成本。
表2 不同方法的幻觉率
4) 不同模型在不同难度条文中的表现
在采用规则自适应提示的前提下比较各大模型针对不同复杂度条文解释能力,结果如图6所示。对简单条文与仅含1个基元函数的复杂条文,模型的F1几乎接近 100%;当条文包含2-3个基元函数时,F1稳定高于0.8,并显著优于微调BERT。当条文复杂度进一步提升至4-5个基元函数的组合时,预测准确率出现下滑。各模型中,Claude 3.5-Sonnet表现最佳。
图6 不同模型在不同难度条文中的表现
04
案例验证
为了验证所提方法在真实工程场景中的可行性,研究团队选取了一座实际厂房建筑进行规则审查实验。该厂房建筑总建筑面积6920 m²,地上两层。随后,从《建筑设计防火规范》(GB 50016-2014)中选取两条具有代表性的复杂条文进行验证。这两条条文分别涉及构件数量统计与安全出口间距计算,均难以用传统一阶逻辑或形式化语言完整表达。
利用所提出的LLM-FuncMapper进行函数匹配和组合仅需5秒,而专家手动分析通常需要数分钟。图7(a)和(b)展示了两条条文的函数匹配结果。
在匹配结果中,条文1需3个基元函数,其中2个匹配正确;条文2需4个基元函数,其中3个匹配正确。图7(a)和(b)中红色标记的部分为模型准确识别的函数,这些函数随后被自动转译为Python代码,实现了条文逻辑的程序化表达。具体而言,本研究将条文、匹配函数及提示词一并输入DeepSeek-R1,由模型自动生成最终的规则检测代码,代码可直接运行于IFC模型之上以执行检测任务。
执行结果显示,对于条文1,LLM-FuncMapper识别出一个不符合规范的防火分区,其安全出口数不足2个;对应违规空间的Global ID为“1wXU_jTED61P7ZYfArwKmy”,可直接定位至该构件,便于后续人工修正。对于条文2,规定同一防火分区内相邻两个安全出口的水平间距不得小于5 m。检查结果显示,模型计算得到相邻出口间距为86.3 m,符合规范要求。
这一案例验证表明,基元函数库与基于规则的自适应提示策略能够在真实BIM模型上实现从条文理解到规则执行的完整闭环。
(a) 条文 1
(b) 条文 2
图7 函数匹配典型案例
05
研究结论
本研究所提LLM-FuncMapper,在不依赖大量标注数据的前提下,使基元函数匹配召回率达到81.55%,显著高于微调BERT模型(68.5%),且幻觉率最低可至0.14%(DeepSeek-R1),展示出稳定可靠的推荐能力。在厂房工程设计与校审案例中,约5秒即可输出函数建议与Python检查代码,显著提高了规则解译的效率。
---End---
来源:陆新征课题组