首页/文章/ 详情

百万门级的多核设计如何验证?- Cadence带您迈入仿真新纪元

2月前浏览75

作者:Adam Sherer,Cadence公司产品管理总监


内容摘要:随着片上系统(SoC)设计尺寸的不断增加,仿真技术也必须紧随其后,大幅进化。时至今日,市场对设计速度和容量的要求都达到了前所未有的高度,新的仿真技术也必须满足这些需求。本文中,我们将讨论仿真技术的发展历史,以及 Cadence® Xcelium™ 并行仿真平台是如何攻克功能验证的技术难题瓶颈的。

▌导语

以 Verilog-XL 和 RapidSim 等解释代码仿真器为代表,第一代商业化仿真技术出现于上世纪 80 年代后期。由于这些仿真器的工作机制是先编译成 p代码再将其解释执行,因此运行速度极为缓慢,但对当时的小型设计而言已经足够了;接下来的 90 年代中期,随着综合技术的出现,设计规模变大,出现了编译代码仿真器来满足了设计对速度、容量的要求。这种仿真器的工作原理是在运行仿真之前,将源代码转化为机器代码。第二代仿真器的开发比较复杂,用了大概三年时间,实现了对当时的语言和使用模型仿真的支持。自那以来,第二代仿真器一直是业内主流仿真器,并实现了对 e、SystemC® 、SystemVerilog、CPF 和 UPF 等多种新标准的支持。然而,随着设计尺寸变得越来越庞大,越来越复杂,第二代仿真技术已经无法满足市场需求。

图1:计算能力推动仿真技术发展

目前的 SoC 普遍包含百万门级以上的多核设计,测试这些芯片可能耗费数周之久。考虑到完成测试所必须的团队资源,每天的成本可能高达数十万美元;如果需要重新测试,单个项目的测试成本就可能飙升至数百万美元。幸运的是,为了适应 SoC 尺寸的增长和复杂度的提升,仿真技术也在迅速发展。最近出现的并行仿真正是这样一种通过加快测试速度来提高验证效率的技术。在并行仿真技术的新时代中,工程师再也无需担忧验证会成为瓶颈了。

图2:三代仿真技术

▌最适合并行仿真的并行服务器芯片架构

现如今,服务器性能更多取决于并行架构,而非通过加快时钟速度来实现。同时,工程师们也在不断努力,打造最高效的验证环境,满足项目的进度要求。

并行仿真技术最早主要用于区分层级结构,工程师将每个子层级分配给一个处理器,并通过进程间通讯实现仿真互联。然而,这些尝试都以失败告终,未能达成并行仿真的愿景。2-4 个核的扩展限制使增速无法超过2 倍,典型设计依然需要依赖人工编译过程。

成功的并行仿真取决于多核、时钟域、复杂的内部互联结构、上百个 IP 核,以及许多其他设计组件的配合。这种能力的开发需要不断的探索和创新,才能对数十亿项运算单元及其之间的依赖关系进行分析,找出能够并列运行,且能够分配到服务器多个内核的简短运算。

关注语言层并确定独立执行线程间依赖关系的开发思路,最终产生出了可平均提速 3-10 倍的并行仿真平台,具体提速取决于实际设计:

  • Verilog/SystemVerilog RTL 仿真平均提速 3 倍

  • 门级功能仿真平均提速 5 倍

  • 可测性设计(DFT)门级仿真平均提速 10 倍

图3:颠覆性的并行模拟算法

支持标准多核服务器(多达 64 核)且采用获得专利的细粒多进程技术,Xcelium 可以将编译代码仿真平台上运行的仿真分解成可加速和不可加速两个部分。可加速的部分(如门级网标或 SystemVerilog RTL 部分)由并行引擎处理,验证工程师无需改变测试平台、设计或断言。Xcelium 在语言层运作,因此不依赖于工艺节点,也无所谓设计是一个 CPU、处理器,还是一个数据通路设计。此外,设计层次也不会造成影响。

前两代仿真技术都各自发展了 20 年左右。我们有理由相信,全新的并行仿真技术将也成为未来 20 年的仿真基础。

▌互补的并行模拟和模拟加速

使用编译代码仿真器进行 SoC 测试往往耗时数小时到数天不等,其中一部分原因是仿真器的性能同时取决于设计尺寸和每个时钟节拍的事件数量(事件密度)。因此,在高强度 SoC 测试中,因为硬件引擎的性能不受事件密度的影响,验证工程师往往选择降低事件密度,并采用 Cadence Palladium® 这样的硬件引擎来加速模拟,提升幅度可达 100-1000 倍。但这样做是有代价的。测试的时间密度越小,现代 SoC 的特点和优势越无法体现,因为硬件引擎只能执行双态逻辑,无法直接验证现代设计通常具备的 Z 态和 X 态。

Xcelium 并行仿真平台可以弥补加速的不足,因为它不仅能执行四态逻辑,而且与第二代仿真器相比,性能对事件密度的依赖性也更低。Xcelium 并行仿真平台的加速效果运行 DFT 并行扫描测试时尤为明显。多亏四态逻辑和高性能的结合,验证工程师能够创建更多事件密度更高的测试和多个并行场景,充分发挥现代 SoC 的代表性特征。并行仿真平台和硬件加速器互补的本质,允许工程师验证模拟中的 SoC 重置与低功耗模式改变,并在硬件上运行时间更长的相同测试,充分验证 SoC 功能。

▌结论

尽管并行仿真可能是未来 20 年的主流架构,但设计本身是否会发生变化?我们不得而知。量子运算和生物系统运算可能带来全新的建模难题。最终答案可能会是细粒并行模拟吗?我们是否需要更多的并行结构?是否需要将故障注入和纠错融入未来的仿真工具?更不用说设计尺寸和复杂度的提升将进一步推动仿真引擎容量和速度的发展。但无论如何,仿真技术会不断进化,迎接未来的艰巨挑战,Xcelium 并行仿真平台无疑为我们通向未来仿真时代奠定坚实基础。


来源:Cadence楷登
ACTSystem芯片UMCadence
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-09-24
最近编辑:2月前
Cadence楷登
签名征集中
获赞 2粉丝 109文章 636课程 0
点赞
收藏
作者推荐

TSMC @ N7 with Cadence!Cadence与台积电携手开发N7制程工艺

近日在硅谷举办的 CDNLive 期间,我们针对如何使用Cadence 工具设计基于台积电 N7 工艺(7nm)的产品做了介绍。内容受到了广泛关注,即便换到了更大的会议室,还是站满了听众。两位演讲者分别是来自 Cadence 公司的 Rod Metcalfe 和台积电的 Jason Chen,以数字流程为主题做了介绍。 演讲开始,Rod 简要介绍了Cadence 的工具开发历程。Innovus 设计实现系统的首次面世是针对 16nm 时代,业界当时面临的最大挑战是 FinFET 技术的实现以及因多重曝光引起的彩色化问题。随后,10nm 工艺的发展成功实现了全彩色化,并推动了第二代FinFET 技术的诞生;10nm 时代的另外一个关键变化是连线电阻的上升,互连层选择因此也变得更为重要。步入今天,第三代 7nm 工艺彻底颠覆了电子设计自动化(EDA)领域,并正在引领新一轮行业变革。N7 工艺的重要性和影响力不言而喻,很多客户甚至选择从 16nm 直接跨入 7nm 时代;依然青睐 N10 的客户则会选择采用全新 12FFC。据预测,N7 将与 28nm工艺一样“长寿”,不仅会催生大批生命周期显著延长的产品,也会推动新设计理念的大量涌现。如果说 28nm 起到了任何导向作用的话,那就是其多年来衍生出的多项技术。一般来讲,我们认为上层综合与底层工艺是独立的,只需单元库和网表即可实现。但 N7 工艺下并非如此,因为 Genus 综合和 Innovus 设计实现共享布线器;同时, N7 的一些变化还会影响到单元布局。N7 的重点领域首先是高性能计算(HPC),最有前景的应用领域是高端移动设备。顾名思义,HPC 常规采用 3 + GHz 高频率,意味着电压降和电迁移/发热是主要挑战。如果不了解个中原理,您可以试试看用一根细电线引导大电流。N7 的新特性之一是通孔支柱(via pillar),层间互联时无需在每层布一小段线路。理论上,各通孔(via)可以无限堆栈;但现有技术条件下,因为最底层架构的电流负载有限,所以仍需多个通孔。一般情况下,通孔支柱的使用环境比较受限;并且,通孔支柱通常与单元库引脚相连,意味着每个单元都会在输出端有一个通孔支柱。通孔支柱的横截面如图所示。反之,因为支柱体积比引脚大,所以采用通孔支柱的两个单元无法相邻,进而影响布线;进行“光晕检查(Halocheck)”以确保合理布线还是非常重要的。由于布线和层分配会影响硅片面积和时序,所以顶层综合也必须要考虑在内。然而,因为两者共享引擎,很多合成工作都可以自动实现。尽管因为中间层不能布线,通孔支柱会因此占用一些布线资源;但由于占用资源并不多,所以应该不会构成主要问题。N7 的另一个新特性是修整感知(trim-aware)布线。金属制造有两种方法,一种是多边形与金属掩模的简单叠加,在满足最小金属面积规则的前提下,固定在间隔相对较大的线路末端之间;另一种方法的间隔较小,先放置连续金属格栅,然后使用单独的切割掩模分割布线。无论哪种方法,修整感知布线都需要作为单独掩膜贯穿整个制程;换句话说,制程的其它环节也需要具备修整感知。 Quantus 已经通过 N7 工艺的完整认证,并增加了多项新功能。增量抽取允许无需新的全芯片提取的情况下进行ECO修改。虚拟金属填充支持时间效应,无需生成并提取所有多边形。电感提取也是 Quantus 的新功能。N7 采用非高斯计时,需要 LVF 扩展才能实现足够的精度。单元库格式委员会已经批准,N7 单元库特征化也已经就绪。上述所有差异都将集中体现于时钟树综合(CTS), CTS 也因此必须具备通孔支柱感知和变异感知。一如既往,Voltus 负责处理IR/EM;但新增了 EM 统计规则。因为自发热分析能力对 N7 制程很关键,Voltus也为之增加了新功能。篇幅有限,我们只能简要介绍 N7 工艺的主要内容,大量细节都无法涵盖。简而言之,Cadence 数字流程解决方案已经为迎接 N7 做好了准备,管线清理设计也已经完成。Rod 表示,他对人们接受 N7 的速度感到惊讶,很多项目都已经正在进行(但他没有提到任何具体项目名称)。Cadence 开发新功能时通常以结果为导向,先从引擎着手实现最佳目标;之后再考虑使用难易的问题。这样一来,早期用户就可能面临系统性问题,需要与工具不断磨合。毋庸置疑,N7 工艺将为设计师打开新的大门;但为了最终实现高可用性,我们还有很多挑战需要攻克。来源:Cadence楷登

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈