研发分享：数字后端设计论文 | 基于NRHF的总线绕线的解决方案

Cadence楷登

2月前浏览81

第一作者 | Guozhi Xu

共同作者 | Yanhui Wang, Brian Li, Miao Liu

Cadence公司 | DSG Product Validation Group

论文概述：

半导体行业的快速发展，对芯片结构化总线的物理实现提出了更高的要求和挑战。Cadence Innovus研发部门开发了新型结构化绕线工具 - 纳米级高频绕线引擎（NRHF）。

基于NRHF，本文提出了两种总线自动化绕线解决方案:

1) 基于设计约束的绕线

2) 基于缓冲器插入技术的自动绕线。

这两种方案能够在不同设计需求下完成总线的自动绕线。

基于NRHF的总线绕线的解决方案

在当今高度集成化的数字芯片设计当中，模块与模块之间的数据传输和交换起到越来越重要的作用，尤其对于高速的CPU而言，总线的延迟往往会成为高速的瓶颈之一，所以，数据在芯片上快速准确的传输已然成为保证数字系统正常工作的基石。从设计者的角度来说，总线（bus）技术无疑是众多芯片工程师的最爱。无论是在近年兴起的人工智能和物联网的系统，还是一直火热的超级计算系统与4G/5G通信类系统，总线技术在越来越庞大的数据通路当中正扮演着重要的角色，恰如一条条铺设在神州大地的高速铁路，加速着人力与资源的传输，推动经济社会飞速发展。

结合到芯片设计物理实现，如何在小小的硅片上实现“交通大动脉”的功能，给业界的工程师们提出了新的难题和挑战。比如：

在面积很大的芯片中，总线如何又快又好地从一端连接到另一端
总线如何完成模块之间，模块和标准单元，标准单元和标准单元之间的连接
总线如何穿过位于不同层级的模块，进而连接在一起
如何保证总线内部每一根连线的规整性和相似性，对称性等等
如何保证数模混合芯片上，完成数字模块和模拟模块之间的特殊要求的总线连接

针对以上特殊的总线物理实现要求，Cadence的工程师们群策群力，一起开发了全新的纳米级高频绕线（NRHF, NanoRoute HighFrequency）引擎，出色了完成了特殊结构化总线的自动化物理实现。

本文主要基于纳米级高频绕线引擎，深入展开如何实现定制化，特殊化，高性能的总线物理实现。具体内容分为三个部分：绕线引擎基本介绍、基于设计约束的绕线，以及基于缓冲器插入技术的高级绕线功能。

1. 纳米级高频绕线引擎介绍

从2016年开始，顺应芯片研发市场的发展趋势和需求，Cadence科学家高瞻远瞩，正式在数字电路部门立项启动纳米级高频绕线引擎研发项目。它借用已有的纳米级通用绕线（NanoRoute）引擎的基本框架，呈现出的却是一个完全不一样的创新和突破。它的出现，给数字电路总线物理实现特殊化和自动化彻底打开了一扇大门。这是后端物理实现工程师们多年来迫切的需求，如今在Cadence的努力下成为现实。在Cadence 数字后端物理实现工具Innovus的诸多绕线引擎当中，如果说纳米级通用绕线引擎是集团化作战部队，那么这个全新的高频绕线工具就是集团军下面的特种部队，就像美国的海豹、中国的蛟龙、俄罗斯的阿尔法，正在特种作战的战场上展现自己的无以伦比的魅力。

说了这么多，读者肯定最关心纳米级高频绕线到底能做什么？下面我们就一起揭开它神秘的面纱，把它最突出的亮点以图片化展现出来。

1.1 定制化总线绕线

对于数字电路的设计人员，总线是一个比较熟悉的概念。相关信息我们会在下两节详述。这里先给大家看一下纳米级高频绕线的工作效果图。这个是完全按照设计者的思路绕出来的图形。

图1. 总线绕线

1.2 基于差分对约束的绕线

差分对约束绕线多见于数模混合电路，对于信号在两条差分线上传输时间有着苛刻的要求。两条差分线的延迟要求比较一致。同时，为了保证效果，电路设计人员通常会要求在差分线两边加上电源线或者地线来屏蔽其他信号的干扰。对于这些要求，纳米级高频绕线都能够充分理解设计者的意图并完成物理实现。

图2. 基于差分对约束的绕线

1.3 基于匹配约束的绕线

在某些特殊要求的芯片设计场合，比如数模混合电路，芯片设计要求一组绕线要有完全相同的长度，或者，进一步苛刻要求，要保证每根线绕完后有相同的电阻。这也是纳米级高频绕线可以帮着设计者实现的功能之一。它能够绕出非常精确的，或者可以接受误差范围内（用户可以设定）相近长度或者相近电阻值的一组线。为了完成长度或者电阻的要求，纳米级高频绕线会主动加一些绕线走向模型和矢量上的变化，智能地完全迎合设计者的特殊要求。

图3. 基于匹配约束的绕线

2. 基于设计约束的绕线

介绍到这里，大家应该会有些认识，纳米级高频绕线的绕线行为是由设计人员设置在总线上的绕线约束来决定的。从这个章节开始，我们会详细介绍总线绕线的相关内容。比如如何把设计思想变成高频绕线引擎可以理解的设计约束，从而达到符合设计者意图的绕线结果。

2.1 绕线约束

绕线约束是所有基于纳米级高频绕线的解决方案都需要设置的。绕线约束将设计人员的设计思路、设计要求都记录了下来，给绕线引擎提供了具体工作的指引，这样绕出来的线才是设计人员想要看到的。

在数字后端物理实现工具innovus当中，我们使用setIntegRouteConstraint这个命令来设置绕线约束。总线的绕线约束主要有以下几个选项。

-type bus （必须）明确指出要以总线结构为前提下完成绕线
-net {net1 net2 …} （必须）设置哪些连线需要在此约束条件下绕线
[-bottomLayer layerNum] [-topLayer layerNum] （非必须）设置在绕线过程中，所能使用金属层的最低和最高层，如果不设置，引擎就会在所有金属层中选择相对合理的层来绕线。
[-name string] （非必须）设置这个约束的名称，如果不设置，系统会自动赋予名称。
[-rule NDR_name] （非必须）设置绕线过程需要用到的非默认的绕线约束，如果不设置，系统将使用物理库文件定义的默认设置完成绕线，比如正常的线宽，线间距等。

2.2 绕线流程

1) 设置绕线约束

例如：setIntegRouteConstraint -type bus -net {bus[0] bus[1] bus[2] bus[3]} -topLayer M5 -bottomLayer M3 -rule NDR_1

2) 设置绕线模式

Innovus 17.1 及之后版本推荐设置setNanoRouteMode -hfrouteSearchRepair true，设置好之后，纳米级高频绕线引擎在做完绕线之后，会调用纳米级通用绕线引擎（NanoRoute）来修设计规则（DRC）违例。即将推出的innovus 18.1版本当中，设计者则不需要做特定设置，纳米级高频绕线引擎将根据实际情况来决定修复设计规则违例。

另外，如果只需要绕特定的线，可以设置setNanoRouteMode -routeSelectedNetOnly true，并选中需要绕的线。

其他一些通用的纳米级绕线模式（setNaonoRouteMode），纳米级高频绕线引擎也支持，用户可以根据实际情况设置。

3) （可选）根据需要产生总线物理导向

需要注意的是，总线物理导向（Bus Guide）的形状必须要覆盖总线的起始端和结束端对应的引脚块。并且需要注意在总线物理导向所给出来的绕线资源是否足够。如果绕线资源不够，那么纳米级高频绕线引擎会忽略这个物理导向或者不能完全按照设计者的意图完成绕线。

4) 绕线

routeDesign -highFrequency这个命令就可以完成基于纳米级高频绕线引擎的绕线。最新的引擎算法上提供了比较好的多扇出（multi-fanout）结构总线绕线的支持。

2.3 绕线效果图

图4. 基于多扇出总线的绕线

3. 基于缓冲器插入技术的自动绕线

随着芯片的增大，工艺的更新，纳米级高频绕线引擎在绕线这个问题上也遇到了一些挑战。众所周知，如果总线绕好之后，物理距离过长的话，数据经过这样一组在模块之间的连接，每根线上所消耗的延时会很大，通常情况下总线的驱动能力会不足。这个时候，我们就需要在总线上插入缓冲器来增加总线的驱动能力，降低信号传输的总延时。

为了减少用户手动插缓冲器的负担，Cadence的工程师团队整合了总线绕线和插入缓冲器的两个相关步骤，基于纳米级高频绕线引擎，创造性地提出了聚焦总线连接终点的全新绕线理念。

在这一创新性的突破中，我们把关注的目标从总线本身转移到了其连接的终点，也就是总线终端连接的模块或者标准单元的引脚。我们把这样的一个个引脚称为总线的终端（sink）。而一组总线的连接的终端就被称为终端集合（busSinkGroup），如下图红圈所示。

图5. 总线终端集合

3.1 绕线流程

1) 设置总线终端集合

用createBusSinkGroup 命令讲所需要的模块或者标准单元的引脚加入总线终端集合。

例如上图所示的集合就可以用下面的命令来设置：createBusSinkGroup BSG -sinks {A1/D B1/D C1/D}

其中，BSG是设计者命名的总线终端集合的名字，可以设置为其他名称。A1/D表示标准单元 A1的引脚 D。

2) 设置绕线约束

绕线约束的设置基本和前一节所述一致。但是这里我们不需要设置-net，我们使用-busSinkGroups BSG。

3) （可选）根据需要设置绕线物理导向

绕线物理导向的设置跟前一节所述一致。

4) 设置缓冲器插入的规则

关于缓冲器插入的规则，用户可以根据特定的语法编辑成文本文件，下图是一个插入规则的示例。这个规则说明了以下约束：

HS65_LS_BFX7缓冲器所能驱动的最长线长（240 um）和最大负载（20 pF）
缓冲器默认的驱动能力（最长200 um线长, 最大15 pF负载）
最后一个缓冲器到总线终端的最大距离（50 um）。

图6. 缓冲器插入规则示例

5) 绕线和插入缓冲器

使用命令”routeAndBufferBusSinkGroup BSG -bufferRule repeater.rule.txt” 就可以完成绕线以及根据所提供的设计规则插入缓冲器。

3.2 绕线效果图

图7. 基于缓冲器插入技术的总线绕线

至此，基于纳米级高频绕线器的总线绕线方法就介绍完了。我相信大家已经对这个在Cadence数字后端绕线工具引擎的大家族中，独特存在的纳米级高频绕线器有了一个深刻的认识。

在这个高科技行业日新月异，强调独特化，定制化和自动化的年代，纳米级高频绕线器是设计者在数字芯片物理设计处理总线绕线时的不二选择。希望大家在日常工作当中遇到有特殊要求的总线绕线时可以加以尝试和应用，我们相信，这把利器一定能帮助设计者在通往成功的道路上逢山开路，遇水搭桥，早日到达彼岸！

来源：Cadence楷登

Cadence发布业界首款面向汽车、监控、无人机和移动市场的神经网络DSP IP

具备1TMAC／秒计算能力的完整独立DSP解决方案内容提要：☛ 完整独立的DSP核心，全面支持各级神经网络层☛ 芯片面积不到 1mm²，计算速度可达每秒 1 TeraMAC (TMAC)☛ 通用的可编程解决方案，为未来而生，满足不断演进的技术需求☛ 为视觉设备、雷达／光学雷达和融合传感器应用度身优化2017年5月4日，中国上海——楷登电子（美国Cadence公司，NASDAQ: CDNS）今日正式公布业界首款独立完整的神经网络DSP - Cadence® Tensilica® Vision C5 DSP，面向对神经网络计算能力有极高要求的视觉设备、雷达／光学雷达和融合传感器等应用量身优化。针对车载、监控安防、无人机和移动/可穿戴设备应用，Vision C5 DSP 1TMAC/s 的计算能力完全能够胜任所有神经网络的计算任务。随着神经网络应用的日益深入和复杂，对计算的要求也与日俱增；同时，神经网络的自身架构在不断更新换代，新网络、新应用和新市场也层出不穷。上述趋势之下，业界亟需一款针对嵌入式系统量身定制的高性能、通用型神经网络解决方案，不仅应该具备极低的功耗，还应拥有高度的可编程能力，以适应未来变化，降低风险。▼ 神经网络DSP vs. 神经网络加速器基于摄像头的视觉系统在汽车、无人机和安防领域最为常见，这种架构需要两种最基础的视觉优化计算模式。首先，利用传统视觉算法对摄像头捕捉到的照片或图像进行增强；其次，使用基于神经网络的认知算法对物体进行检测和识别。现有的神经网络加速器解决方案皆依赖与图像DSP连接的硬件加速器；神经网络代码被分为两部分，一部分网络层运行在DSP上，卷积层则运行在硬件加速器上。这种架构不但效率低下，且耗能较高。Vision C5 DSP是专门针对神经网络进行了特定优化的DSP，可以实现全神经网络层的计算加速（卷积层、全连接层、池化层和归一化层），而不仅仅是卷积层的加速。因此，主视觉／图像DSP能力得以释放，独立运行图像增强应用，Vision C5 DSP则负责执行神经网络任务。通过移除神经网络DSP和主视觉／图像DSP之间的冗余数据传输，Vision C5 DSP的功耗远低于现有的神经网络加速器。同时，Vision C5 DSP还提供针对神经网络的单核编程模型。“ 我们的很多客户都在纠结如何选择理想的神经网络平台，毕竟一款产品的开发可能耗时数年，” Cadence公司Tensilica事业部市场高级总监 Steve Roddy 表示。“ 随时在线(always-on)嵌入式系统的神经网络处理器不仅需要低功耗和较快的图像处理速度，灵活性和永不过时(future-proof)的前瞻性也必不可少。目前的平台都不够理想，客户亟需一个全新的解决方案。Vision C5 DSP 通用型神经网络 DSP应运而生，它集成方便、使用灵活，功耗能效较CNN加速器、GPU和CPU也更为出色。”“现实世界中的深度学习应用数量庞大，种类繁多，对计算的要求非常苛刻，” 嵌入视觉联盟(Embedded Vision Alliance)创始人Jeff Bier表示。 “ Vision C5 DSP作为神经网络专用编程处理器，可以帮助我们在低成本、低功耗设备上应用深度学习技术。”▼ Vision C5 DSP的参数与性能依托独立引擎，Vision C5 DSP具备领先的神经网络性能：不到 1mm² 的芯片面积可以实现 1TMAC／秒的计算能力（吞吐量较 Vision P6 DSP 提高4倍），为深度学习内核提供极高的计算吞吐量1024 8-bit MAC 或 512 16-bit MAC 确保 8-bit 和 16-bit 精度的出色性能128路 8-bit SIMD 或 64路 16-bit SIMD 的 VLIW SIMD 架构专为多核设计打造，以极少的资源代价获得 NxTMAC 的处理能力内置 iDMA 和 AXI4 总线接口使用与 Vision P5 和 P6 DSP 一致的经验证软件工具包基于业界知名的 AlexNet CNN Benchmark，Vision C5 DSP 的计算速度较业界的 GPU 最快提高6倍；Inception V3 CNN Benchmark，有9倍的性能提升。Vision C5 DSP 是一款灵活前瞻的永不过时(future-proof)解决方案，支持各类内核尺寸、深度和输入规格。Vision C5 DSP 采用多项系数压缩／解压技术，支持未来添加的新计算层。与之相反，CNN 硬件加速器由于程序重编能力有限，扩展能力较差。Vision C5 DSP 搭载 Cadence 神经网络 Mapping 工具链，可将 Caffe 和 TensorFlow 等映射为在 Vision C5 DSP 上高度优化过的可执行代码，充分发挥手动优化神经网络库的丰富功能。Cadence 正与多家早期客户展开合作。如需了解 Vision C5 DSP的详细内容，请联系您的Cadence销售代表。关于楷登电子 CadenceCadence 公司致力于推动电子系统和半导体公司设计创新的终端产品，以改变人们的工作、生活和娱乐方式。客户采用 Cadence的软件、硬件、IP 和服务，覆盖从半导体芯片到电路板设计乃至整个系统，帮助他们能更快速向市场交付产品。Cadence 公司创新的 “系统设计实现” (SDE) 战略，将帮助客户开发出更具差异化的产品，无论是在移动设备、消费电子、云计算、汽车电子、航空、物联网、工业应用等其他的应用市场。Cadence 公司同时被财富杂志评选为“全球年度最适宜工作的100家公司”之一。来源：Cadence楷登