首页/文章/ 详情

针对GPGPU设计,Cadence RTL到Signoff流程全解密

12天前浏览16

近年来,随着 GPU 在通用计算领域的高速发展,逐渐将应用范围扩展到图形之外,例如人工智能、深度学习和自动驾驶。这些领域的特点要求 GPU 在并行处理海量数据的同时提供更高的访存速度和浮点运算能力。


在这种计算密集度越来越高的情况下,我们也面临越来越严峻的挑战,比如在后端摆放和绕线阶段的拥塞问题,如何比较精确地在较早阶段考虑物理信息,提 前预测 RTL 的质量,还有提前 预测布局变得尤其重要在并行同步的信号会增多,大量的矩阵运算引入的情况下,Glitch Power 占比会显著提高,如何在较前阶段去分析和避免 Glitch 功耗是我们避不开的难题;同时由于 GPU 重运算和流水线的设计加上众多旁路分支结构,OCV 影响会更加显著,如何评估和解决时钟上 OCV 是解决时序收敛的关键因素。


针对以上 GPGPU 面临的挑战和痛点,Cadence 提供了一整套从 RTL 到 Signoff 的全流程解决方案。


关键字:GPGPU 预测布局 Glitch Power OCV


概要


1

Overview of GPU

在谈论 GPGPU 之前,我们先聊下 GPU。GPU 即图形处理器,又称显示芯片,主要负责在 PC、服务器、游戏机和移动设备上做图像和图像相关运算工作的处理器。


GPU 内部组成一般包括图形显存控制器、压缩单元、BIOS、图像和计算阵列、总线接口、电源管理单元、视频管理单元、显示接口,从图 1-1 可以直观观察到:GPU 的控制单元比较简单,但是图像和计算阵列占据了 GPU 的大部分面积,其中计算阵列采用设计简单的逻辑运算单元,通过大量复用的方式来并行执行高强度的运算。


每个 ALU 单元都配有独立的缓存单元,同时还有统一的内存来实现多线程并行任务。因此 GPU 有着较大的吞吐量和并行处理数据的能力。


   

图 1-1 GPU 内部组成


         

  1.1 从 GPU 的应用领域来看


图像处理器 GPU 作为芯片的重要组成部分被广泛地应用于 PC、高性能服务器、自动驾驶汽车和以智能手机为主的移动设备等。无论是在工作生活还是娱乐方面,GPU 都发挥着不可替代的作用,极大地方便了我们的生活。


   

图 1-2 GPU 类型


在不同的应用领域中,根据其工作特点,衍生出不同类型的 GPU,如图 1-2 所示,主要分为独立 GPU 和集成 GPU,独立 GPU 拥有独立显存,一般作为一个独立的组件封装在显卡电路板上,它的特点是性能高,具有较强的专业图片处理能力,提供较高的计算速度,所以独立 GPU 一般较多地应用于重计算的服务器、高性能游戏电脑、人工智能等;而集成 GPU 常和 CPU 共用一个 Die,共享系统内存。它的特点是注重能效比,即可以牺牲一定计算速度的条件下,尽可能地节省空间和功耗,这也是由便携式的移动设备一直追求的更轻更强续航能力。图 1-3 是关于集成 GPU 和独立 GPU 的对比:


   

图 1-3 独立/集成 GPU 比较


         

  1.2 GPGPU 发展及未来趋势


近年来,在摩尔定律严谨的放缓和 GPU 在通用计算领域高速发展的此消彼长之下,通用图形处理器(GPGPU)逐渐反客为主,将应用范围扩展到图形之外,无论是科研教育、财务计算,还是在工业领域,GPGPU 都得到广泛的使用,关于它的科研成果和新应用模式也层出不穷,其主要应用和发展趋势主要分为以下两个方面:


高能效:

GPGPU 擅长处理计算密集型任务,但大部分应用场景都需要在满足计算或者图形处理的条件下尽量降低功耗。尤其是在核心数和工作频率,接口带宽不断提升的情况下,追求高能效是 GPGPU 未来发展的趋势。

人工智能和深度学习:

人工智能时代需要大量的多媒体与 3D 图形,所以更高的浮点计算能力意味着对图形与媒体的快速处理。深度学习算法需要处理海量数据,需要进行大量的简单运算。GPGPU 拥有较强的优势,第一,GPGPU 提供了多个并行计算的基础结构,可以执行海量数据的并行计算;第二,GPGPU 拥有更高的访存速度;第三,GPGPU 拥有更高的浮点运算能力。


2

GPGPU 所面临的挑战

就从 GPU 本身的特性而言,如图 2-1 所示,GPU 设计的高带宽、计算密集、管道/旁路等复杂结构往往导致后端放置和路由阶段出现拥塞问题。尤其是在前面介绍的 GPGPU 的未来发展趋势的情况下,设计的布局会越来越复杂,这会大大增加前端和后端之间的沟通迭代周期,所以在综合阶段提供一套高效的预测布局解决方案是目前 GPU 所面临的一大挑战。


   

图 2-1 GPU 高带宽特点


同时深度学习和自动驾驶对海量的数据进行并行处理的需求,使得 GPU 同时并行同步的信号会增多,加以大量的矩阵运算,Glitch Power 占比会显著提高,这类功耗常常和周围的环境有关,比如 Cell type、绕线等,如何能在较前阶段准确地预测和避免 Glitch 功耗是我们面临的又一挑战。


由于 GPU 重运算和流水线的设计加上众多旁路分支结构,时序路径上,数据通路长短差异非常明显,时钟树结构的要求会比较高,OCV 影响会更加显著,如何评估和解决时钟上 OCV 是解决时序收敛的关键因素。


3

Cadence GPGPU 解决方案

从 GPGPU 未来趋势和眼下所面临的挑战出发,Cadence 提供了从 RTL 到 Signoff 的一系列完整的解决方案,每套解决方案,都从全局出发,在解决每项挑战的情况下,综合考虑对其他指标的影响,实现性能、功耗和面积全面提升。


         

  3.1 RTL 质量预测


对于 RTL 工程师来说,在 GPGPU 芯片结构越来越复杂的情况下,如何提前 预测 RTL 最终实现的 PPA 是我们面临的最大挑战。


传统 Flow 中我们一般需要后端提供一个 Floorplan 给前端去做综合,基于 Floorplan 做完综合之后再传给后端,这就需要前端和后端进行不断的的沟通修改的迭代,大大增加了设计周期和人力资源。


基于此,Predict_Floorplan 应运而生,即在 Genus 中调用 Innovus 的 Floorplan 引擎,在前端给出一个合理的 Floorplan。这不仅可以较早去判断 RTL 的可行性,及时对 RTL 进行修改,并且简化了前后端的交互,大大缩短了迭代周期。与传统流程相比,这种解决方案在实现相同的最终平面布局情况下,可以减少约 80% 的设计周期。并且让前端工程师不用熟悉后端的相关知识,就可以提前 预测 RTL 的 Timing-Power-Area 具体信息。


         

  3.2 Power driven full flow


GPU 擅长处理计算密集型的任务,特别是随着核数、工作频率和接口带宽的不断增加,追求高能效是 GPGPU 未来的发展趋势。Cadence 提供了从 RTL 到 Signoff 的 Power Aware 全设计流程。其中需要重点指出是对 Glitch power 的分析和修复,Glitch 功耗在 GPGPU 总功耗中占据越来越大的比例,而这类功耗常常受周围环境的影响较大,Cadence 在综合阶段通过调用拥有强大的波形处理能力的 Joules,可在 RTL 阶段实现功耗分析和预估,并对早期网表进行 Glitch 功耗分析,实现早期芯片功耗评估。


         

  3.3 时钟树 OCV


由于 GPU 重运算和流水线的设计加上众多旁路分支结构,时序路径上,数据通路长短差异非常明,如何减小时钟树 OCV 是实现时序收敛的关键。


Innovus Flexible H Tree 的优势是 H 型树在电对称和平衡线长前提下同时放宽了几何对称的要求,因此即使在布局受限的平面图中也可以实现自动合成。多抽头时钟树综合与灵活的H树功能完全集成,扩展了常规时钟综合,并在树的结构化顶部和时钟接收器之间保持平衡。它可以很好的减少时钟上的 OCV,更容易时实现时序收敛。


         

  3.4 Signoff Fixing Solutions


Signoff 作为整个设计流程的最后一步,同时也是关乎芯片是否能够成功流片的关键,Cadence 提供了一套高效的 Signoff Fixing/Check Solutions,在Timing Signoff 方面,通过先进的技术可以对较多 Analysis View 的设计做智能处理,提供快速的精确的 Timing 分析和优化;在 IR-Drop 方面,实现了 Timing Aware 的 IR-Drop Fix;同时可以在在 PR 阶段进行 DRC/LVS Check,提高了整个 Flow 的一致性;对于越来越复杂的设计,Netlist 中常常会出现较长的 Data Path,Conformal 提供了一套完整的成熟的解决方案。


4

小结

本文主要在基于对 GPU 发展和未来趋势的分析,指出了 GPGPU 设计所面临的一系列挑战和难题。面对这些挑战,Cadence 提供了一套完善的从前端到后端的解决方案,解决了布局、功耗、时钟树 OCV 和 Signoff 所面临的难题。

来源:Cadence楷登
System电源电路通用航空汽车电子消费电子Cadence控制人工智能管道
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-10-02
最近编辑:12天前
Cadence楷登
签名征集中
获赞 1粉丝 91文章 466课程 0
点赞
收藏
作者推荐

Cadence 推出全面的终端侧 Tensilica AI 平台, 加速智能系统级芯片开发

新的 Tensilica AI 引擎提高了性能,AI 加速器为消费、移动、汽车和工业 AI 系统级芯片设计提供了一站式解决方案 内容提要● 面向特定领域、可扩展和可配置的人工智能平台,基于成熟的、经过量产验证的 Tensilica 架构● 为终端侧AI应用提供行业领先的性能和能效● 全面、通用的人工智能软件,满足所有目标市场的需求● 低端、中端和高端人工智能产品系列,适用于所有的 PPA 目标和成本预算● 目前可从 8 GOPS 扩展到 32 TOPS,并可扩展到上百 TOPS 以满足未来的人工智能需求中国上海,2021年9月14日—楷登电子(美国 Cadence 公司,NASDAQ:CDNS)今日发布了用于加速人工智能系统级芯片开发的 Tensilica® AI 平台,包括针对不同的数据要求和终端侧 (on-device) AI 要求而优化的三个支持产品系列。全面的 Cadence® Tensilica AI 平台涵盖低端、中端和高端市场,提供了可扩展、节能的设备端到边缘端人工智能处理功能,这是当今日益普遍的人工智能系统级芯片设计的关键。与业界领先的独立 Tensilica DSP 相比,新的配套 AI 神经网络引擎 (NNE) 每次推理的能耗降低了 80%,并提供超过 4 倍的 TOPS/W性能,而神经网络加速器 (NNA) 通过一站式解决方案提供旗舰级的 AI 性能和能效。针对智能传感器、物联网 (IoT) 音频、手机视觉/语音 AI、物联网视觉和高级驾驶辅助系统 (ADAS) 应用,Tensilica AI 平台通过一个通用软件平台提供最佳的功耗、性能和面积 (PPA) 以及可扩展性。Tensilica AI 平台产品系列依托大获成功的 Tensilica DSP,Tensilica DSP 针对特定的应用,已经在消费、移动、汽车和工业市场的领先人工智能系统级芯片中投入量产,包括:AI Base:包括用于音频/语音的热门 Tensilica HiFi DSP、Vision DSP 以及用于雷达/激光雷达和通信的 ConnX DSP,与 AI 指令集架构 (ISA) 扩展结合使用。AI Boost:增加了一个配套的 NNE,最初是 Tensilica NNE 110 AI 引擎,可从 64 GOPS 扩展到 256 GOPS,并提供并发信号处理和高效推理。AI Max:包括 Tensilica NNA 1xx AI 加速器系列——目前包括 Tensilica NNA 110 加速器和 NNA 120、NNA 140 以及 NNA 180 多核加速器选项——该系列集成了 AI Base 和 AI Boost 技术。多核 NNA 加速器可以扩展到 32 TOPS,而未来的 NNA 产品的目标是扩展到上百 TOPS。所有的 NNE 和 NNA 产品都包括用于提高性能的随机稀疏计算、旨在减少内存带宽的运行时张量压缩,以及可以减少模型大小的修剪和聚类功能。该全面的通用人工智能软件面向所有目标应用,简化了产品开发,并能随着设计要求的变化而灵活轻松的迁移。该软件包含 Tensilica Neural Network Compiler,该产品支持以下工业标准的框架:TensorFlow、ONNX、PyTorch、Caffe2、TensorFlowLite 和 MXNet,用于自动生成端到端的代码;Android Neural Network Compiler;TFLite Delegates,用于实时执行;以及 TensorFlowLiteMicro,用于微控制器级设备。“AI 系统级芯片开发者面临的挑战是如何让具有成本效益、差异化的产品更快地进入市场,提供更长的电池寿命和可扩展的性能。”Cadence 公司副总裁兼 IP 事业部总经理 Sanjive Agarwala 表示,“我们拥有成熟、可扩展且可配置的平台,基于我们一流的 Tensilica DSP,具有通用的人工智能软件,Cadence 将帮助AI系统级芯片开发者最大限度地降低开发成本,并满足紧迫的上市时间要求。通过在所有性能和预算水平上实现 AI 赋能,Cadence 正在推动各地人工智能系统实现快速部署。”客户反馈Pete Warden,Google TensorFlow Lite Micro 技术负责人“扩展低功耗的终端侧 AI 功能需要极其高效的多传感计算。Cadence 和 TensorFlow Lite for Microcontrollers (TFLM) 团队多年来一直携手合作,共同开发解决方案,以实现人工智能领域最前沿的高能效应用。实时音频网络使用基于 LSTM 的神经网络算子以获得最佳性能和效率的使用趋势就是一个关键的例子。通过与 Cadence 密切合作,我们正在 Cadence Tensilica HiFi DSP 上集成一个高度优化的 LSTM 算子,大大改善关键用例(如语音通话降噪)的性能。我们很高兴能继续这项合作,并在低功耗人工智能领域提供引领行业的创新。” Albert Liu,Kneron 创始人兼首席执行官“在我们的 KLT720 上部署设备内置 AI 是我们的客户取得成功的关键,也是我们实现‘让人工智能无处不在、惠及所有人’这一使命的关键,KLT720 是具有1.4TOPS性能的人工智能系统级芯片,专门面向汽车、智能家居、智能安防、工业控制应用、医疗和 AI 物联网 (AIoT)。Cadence 的 Tensilica Vision DSP 性能高、功耗低、计算能力强大、带有 AI ISA 扩展及所需的 AI 软件,可以应对最新的 AI 挑战。”Cristiano Castello,NXP Semiconductors 微控制器产品创新资深总监 “将 Cadence Tensilica HiFi 4 DSP 集成到 NXP的 i.MX RT600 跨界 MCU 中,不仅为广泛的音频和语音处理应用提供了高性能 DSP 功能,而且还提高了推理性能,即使在超低功耗、电池供电的产品中也能实现人工智能技术。HiFi 神经网络库使 NXP 能够充分利用 HiFi 4 DSP 的 AI 性能,并将其整合到支持 TensorFlow Lite Micro 和 Glow ML 推理引擎的 NXP eIQ 机器学习软件开发环境中。”Mike Demler,The Linley Group 高级分析师 “随着人工智能应用迅速从云端扩展到边缘,集成终端侧的人工智能加速器已成为满足 ADAS、移动、智能传感器和物联网低延迟要求的必要条件。AI 系统级芯片需要使用成熟的加速器 IP,以满足每个市场的不同需求,并包含一个全面的软件解决方案。应对性能和功耗需求的不断变化,Cadence 凭借 Tensilica AI Base、AI Boost 和 AI Max 技术提供了一条清晰的迁移路径,成为终端侧 AI IP 全面解决方案市场上广受认可的 IP 供应商。” 可用性NNE 110 AI 引擎和 NNA 1xx AI 加速器系列支持 Cadence 的智能系统设计 (Intelligent System Design™) 战略,该战略旨在为系统级芯片的卓越设计提供普适智能支持,预计将在 2021 年第四季度全面上市。来源:Cadence楷登

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈