新发明专利：一种将规范文本自动转为可计算逻辑规则的方法及系统

1年前浏览997

转载自公众号《智能土木ABC》

0 太长不看版

让计算机读懂设计规范是智能审图、智能设计等工作的基础。本发明提出了一种将规范条文自动翻译为计算机代码的方法，对简单句能达到99.6%的解析准确率，对复杂句能达到90.2%的解析准确率。

1 专利概述

本发明属于建筑业与信息技术交叉领域，为一种基于自然语言处理（NLP）的自动规则转换方法，能够将文本形式的规则（如工程标准、法规、规范条款）自动转化为计算机可自动计算、推理的逻辑代码，可以用于智能审图、智能设计、法规智能等场景。

本发明针对现有规则转换方法自动化程度低、通用性与扩展性低等不足，首先提出了一种树形结构和语义标签，用于表示模型与规范要求中概念的层次结构与关系。接着，引入了深度学习模型，通过为句子中的每一个词语分配语义标签来识别句子中的语义元素。最后，定义了一组上下文无关文法（Context-free grammar，CFG），将带有语义标签的句子解析为树结构，从而可以生成用于逻辑推理的代码。

2 背景与现有技术

建筑环境的整个生命周期受各种规范，要求和标准支配。手工进行合规性/规则审查的流程既耗时，成本高昂又易于出错。作为手工检查的替代方案，自动规则审查能极大地促进建筑，工程和施工行业的设计过程。在规则审查过程中，最重要且最复杂的阶段是规则解译，即将文本形式的规则转化为计算机可处理的格式。因此，许多研究提出了自动化或半自动化的方法进行规则转换以支持自动规则审查。

然而，这些研究中所提出的方法仍然存在局限性：它们无法同时实现理想程度的自动化和可扩展性。半自动方法易于理解，适用范围广，但仍需要大量的人工来编写查询语言、伪代码，或标记规范文档等；因此其自动化程度较为低下。对于（全）自动化方法，其大量依赖基于正则表达式的匹配模式，这也是一种对映射规则进行硬编码的方式。实际上，正则表达式的表达能力较低（如无法表达递归）很容易导致其使用数量的增加（如需要使用大量的正则表达式才能表示一个简单的规则），并变得难以维护。因此，当前的自动化方法通用性与可扩展性较低，即适用范围难以拓展。

3 专利发明内容

3.1 整体框架

本发明所提出的自动规则转换方法，通过以下四个步骤将规范文本转换为计算机可处理的格式，其框架如图1所示。

预处理。此步骤从规则文本中选择出可以转换的句子，并对其进行预处理，例如句子分割。
语义标注。此步骤给句子中的词或短语加上标签以表达语义信息，其中的语标签能够表示与BIM及规则相关的概念。标注方法为使用神经网络模型通过 BIO格式进行序列标记。语义标注结果可通过计算句子中每个标签的F1分数来验证。
解析。此步骤主要使用上下文无关文法（CFG）将带有标签的句子转换为可以表示元素层次与关系的树结构，该树结构是语言无关的，并且可以生成出可计算的检查规则代码。解析结果可通过计算标记的句子解析为树的准确性来验证。
规则生成。此步骤将树表示形式转换成特定格式的语言以便于规则执行，例如if-then语句，horn逻辑子句，编程语言等。

其中，语义标注和解析为本发明所提出的算法的核心步骤。图2展示了语义标注与解析的流程示例。

图1 自动规则转换框架

图2 语义标注与解析的流程示例

3.2 规则检查树和语义标签的定义

BIM模型可以用具有许多属性的对象来描述，这种层次结构可以用树结构表示。因此，规则检查可以看作首先定位BIM模型树结构中的元素，然后检查相应元素是否满足要求的过程。更进一步，这种树结构可以被简化为多个树结构来表示，其中每棵树最多能有一个节点具有多个子节点。这种简化将降低复杂性，并且可以通过诸如句子拆分之类的预处理来实现。

据此，本发明提出了表示规则检查的树结构，规则检查树（RCTree）：一种表示对象层次结构的树结构，其中只有一个树节点可以具有多个子节点，且每个叶节点都与一个要求条件相连接。相应地，本发明定义了8个语义标签来表示RCTree中元素的角色，如表1所示。图4给出了RCTree的结构介绍。在表1的定义中，obj，sobj和prop标签用于表示BIM模型中要检查的元素。cmp表示选中的属性prop和Rprop/aRprop之间的关系。Rprop是直接应用于prop的要求。在大多数情况下，单个标签Rprop足以表示要求，例如一个数字（例如，A应大于10）。但在某些情况下，Rprop可能是对元素的引用，此时Robj即是被引用的元素（例如，A应大于B的10倍）。aRprop类似于Rprop，但前缀a表示前提（即适用性，applicability）；即，仅当prop和aRprop之间的比较结果为真时，才会执行规则检查。aRobj也类似于Robj，但由aRprop引用。

事实上，规则要求可以形式化为if-then格式的语句，而本发明提出的具有8个语义标签的RCTree即是以类似if-then的形式表示规则要求内容。其中，BIM模型中的元素由RCTree的sobj，obj和prop表示，且规则通过aRprop和aRobj表示前提条件（即if）及Rprop和Robj表示要求条件（即then）。在提出的RCTree中，所有要求之间的默认逻辑关系为“与”（即，如果满足所有前提条件，则检查所有要求是否被满足）。“或”关系通过元素合并和句子拆分等方式间接表示。

表1 提出的8个语义标签

图4 规则检查树（RCTree）的结构

3.3 语义标注

语义标注是为句子中的单词/短语分配语义标签的过程，其中标记的单词或短语称为语义元素。本发明使用深度神经网络（DNN）模型与迁移学习技术进行语义标注。标注方式采用BIO（Begin-inside-outside）格式，如图5所示。使用DNN模型（如RNN或Transformer）的标注过程为：首先，将输入语句的所有字符通过词嵌入转化为向量；然后，使用DNN模型将输入的向量编码为带有上下文信息的向量表示；最后，这一向量将通过softmax进行分类，并转换为BIO格式以进行输出。

图5 BIO标注格式

3.4 解析

解析是通过分析带有标签的句子的结构并将其解析为RCTree的过程。本发明使用上下文无关文法（Context-free grammar，CFG）作为解析的语法。CFG相比正则表达式等模式匹配方法具有更高的表达能力（例如可以表示递归）。同时CFG也是编程语言编译器的组成方法。解析步骤共分为三个过程：句子标准化，基于CFG的解析，RCTree生成；如图6所示。

图6 解析过程

4 实施案例与结果

4.1 数据准备

本发明选择中国建筑消防规范进行验证。首先，将建筑法规中的文本根据分号、句号、换行符分割为单个句子。接着，对句子进行过滤以选择含有定量要求的句子（例如，“不少于”，“大于”）；同时，这些句子将被人工审核以确保其适用于BIM中的规则检查，不适用的句子将被删除。然后，人工开发所选语句的语义标注，形成黄金标准。最终，建立的数据集包含614个句子，4360个语义标签。

4.2 语义标注

语义标注基于Python语言及Pytorch深度学习库实现，并且使用了中文BERT模型作为预训练的DNN模型。数据集根据0.8：0.2的比例随机分为训练和验证集，其中训练集用于训练和更新DNN模型，验证数据集用于测试性能。为了验证结果，将模型预测输出与黄金标准进行比较，并为每个语义标签计算精确度（Precision），召回率（Recall）和F1分数（F1-score）。

经实验，模型在验证集上的测试结果如表2所示。可以看出，模型取得了84.8%，86.4%，和85.5%的综合精确度、召回率和F1分数。这一结果表明，所提出的基于深度学习的语义标注方法能够适用于大规模的长句和复杂句的语义标注，且能获得较准确的结果。

表2 语义标注实验结果

4.3 解析

解析的测试基于Python语言实现，并使用了ANTLR4作为CFG规则的解析引擎。为了进一步验证所提出方法的效果，将数据集按简单句和复杂句分为两组，其定义分别如下：

简单句：标准化后，句子对于prop、cmp、和Rprop标签均最多具有一个元素实例。
复杂句：标准化后，句子对于prop、cmp、或Rprop中至少一个标签具有两个或以上的元素实例（即非简单句）。

现有的规则转换方法大多使用简单句进行验证和测试；例如，使用的句子对于其所提出的各类元素均最多只含一个。在本发明中，简单句和复杂句一个显著的区别是：在生成的RCTree中，简单句在obj下仅含有一棵子树，而复杂句有多颗子树。

在测试中，解析步骤使用数据集中已打好标签的614条语句作为输入，输出相应的RCTree，并根据输出的所有RCTree中处在正确位置的元素的比例计算最终的准确率。表3展示了本方法与现有规则转换方法的解析准确率对比。其中，Regex-E是一种规则转换方法，基于正则表达式的模式匹配，并使用六个基本语义信息标签，Regex-ES是通过使用更多辅助信息标签对Regex-E进行的增强方法，为现有的性能最优的方法。Regex-E和Regex-ES的实验基于62个简单句。值得说明的是，Regex-ES使用了两倍于Regex-E的元素来描述句子中的模式并匹配，这种做法在增加准确率的同时可能会降低可扩展性。表3中的CFG为本发明所提出的方法。

表3解析准确率对比

表3的结果表明，本发明中提出的方法优于最新方法，原因如下：1）对于简单句，所提出的方法达到了99.57％的解析准确率，优于当前性能最高的方法Regex-ES；更为重要的是，2）对于复杂句，当前的方法基于正则表达式而不适用，而所提出的方法可以达到94.03%的解析准确率。该结果表明所提出的方法在实现了高自动化、准确率的同时，保持了高可扩展性。

5 总结

本发明提出了一种将规范文本自动转为可计算逻辑规则的方法，具备高度自动化、高通用与可扩展性等特点。既有规则转换算法只能处理简单句，而本算法对简单句能达到99.6%的解析准确率，且对复杂句（传统算法无法处理的句子）能达到90.2%的解析准确率。本发明适用于多种文本规则转换场景，可用于将各种文本形式的规范文档转换为计算机可处理的规则。

点击文末的阅读原文，可查看与本专利相关的论文预印本，了解更多算法技术方面的细节。

[2] 陆新征, 廖文杰, 徐永嘉, 基于卷积神经网络振动识别的线性二次型控制改进方法，发明专利，专利号：ZL 202010169860.3

[3] 陆新征，徐永嘉，程庆乐，基于循环神经网络的地震破坏力预测装置及方法，发明专利，专利号：ZL 201911154874.1

[4] 陆新征，许镇，曾翔，杨哲飚，一种城市建筑地震次生火灾模拟方法，发明专利，授权号：ZL 201810255576.0

[5] 陆新征，曾翔，许镇，田源，一种基于震后航拍影像的近实时震损评估方法，发明专利，授权号：ZL 2018 1 0119671.8

[6] 陆新征，许镇，城市建筑群地震反应非线性历程分析方法及装置，发明专利，授权号：ZL 2018 1 0112837.3

---End---

相关研究

相关文章，在仿真秀官网搜索

专著