首页/文章/ 详情

面向自动驾驶的可扩展 DSP

7小时前浏览3

Cadence 公司 IP 事业部产品营销总监 Ted Chua 分享了,如何将可扩展 DSP 用于自动驾驶汽车雷达和激光雷达设计的想法


 


随着汽车行业沿着自动驾驶的 6 个等级逐步推进,每个等级都对车载处理能力提出了更高要求。目前阶段,IoT 设备的智能属性正在网络边缘端被实现;汽车行业也正在经历同样的变化。


ADAS 和自动驾驶传感器对精度需求更高,需要以更低的延迟更快处理依旧在不断增加的数据。实现这一目标的唯一方法就是在未来 Zonal 电子电器汽车架构下,为传感器附加更高的处理能力。


汽车的自动化水平与对周围环境的感知和理解能力密不可分,能做到这一点的就是传感器。


对汽车而言,最关键的三大传感器模态分别是雷达、激光雷达以及视觉。每种传感器各有所长,三种模态都不可或缺。将多种不同传感器技术结合在一起的传感器融合系统可以为功能安全性提供足够的冗余并提高传感精度。实现系统元件间互操作性的第四个要素是互联上述四个要素共同构成了自动驾驶汽车的基础。


   


满足 ASIL 认证 IP 的需求


自动驾驶汽车搭载的多种传感器皆可归为三种主要类型之一。


雷达的占比最高,由 20 多个分布在车身各处的独立传感器组成。


作为最适合提供高精度测距数据的技术,激光雷达传感器在自动驾驶领域发挥着关键作用。


至少就汽车应用而言,作为最成熟技术的图像传感器也在自动驾驶领域大放异彩。


三类传感器各司其职,分别负责地形监测、其他道路使用者监测、行人监测、天气状况监测,以及绝对速度和相对速度等参数监测。传感器也被用于汽车内部监测,识别并观察乘客情况。


直面 DSP 的数据处理挑战


其中一个挑战是传感器产生的海量原始数据。依赖车载网络进行如此大规模的数据传输是不现实的,作为中继上传到云端进行处理也不切实际,这两种方案对延迟和带宽的需求会让自动驾驶的未来无以为继。所以,原始数据的本地处理是唯一选择。


另一个挑战是如何让传感器解决方案适应传感命令的变化。比如,传感器的测距范围和驾驶速度有关。雷达和激光雷达在精度上互补,但同样取决于天气、光照水平和景物对比度等其他因素。


挑战是层出不穷的。从工程设计的角度来讲,高性能处理解决方案的需求已经非常明确;但是想要将其商业化的大前提是通过汽车应用的相关认证,且需要以更优的方式满足更高的处理要求。尽管激光雷达的成本已经远超雷达或图像传感器,但汽车行业认可了它的不可替代性,因为只有激光雷达才具备满足特定传感需求的独特能力。


我们亟需一个可扩展的、适用于所有传感器类型且针对不同应用做了专门优化的处理平台。自动紧急制动的运作模式与自适应巡航控制显著不同,但两者都会用到激光雷达和雷达传感器。同样的,盲区检测会在白天时使用图像传感器,但在夜间或天气状况较差时则需要雷达辅助。


如此多不同用例的每一种都是实现全自动驾驶的必要条件,且都各自需要为之量身优化的解决方案。考虑到所需的数十个传感器,OEM 需要更高效的商品化方式。


答案已经呼之欲出了,我们需要一个标准化且可扩展的处理平台,也就是采用了分区控制器的分区架构。而且,为了支持高速信号处理,并满足不同应用场景所需的安全等级,这些分区控制器必须是可配置的。


功能性安全


Cadence Tensilica ConnX B10 与 B20 DSP 针对包括雷达和激光雷达在内的新一代传感应用做了优化,且支持高性能 V2X 车用无线通信技术。作为半导体行业首款专门面向雷达、激光雷达和 V2X 开发的,可授权的 DSP 产品,它们已经通过了 ASIL B 级随机硬件故障及 ASIL D 系统故障的合规认证。满足 ISO 26262:2018 规定的功能性安全等级是 OEM 和一级供应商开发 ADAS 解决方案和自动驾驶应用 SoC 的必要条件。


ConnX B10 与 B20 DSP 的指令集架构(ISA)支持面向雷达、激光雷达和 V2X 专门设计的加速器。这一特性可以帮助工程师为特定的应用优化 SoC 设计,同时也能从通用架构对代码迁移、复用性及可移植性的支持中获益。


 


ConnX DSP(见上图)采用了基于 VLIW(超长指令字)架构的 SIMD(单指令多数据流)矢量处理,支持加载/存储,MAC 和 ALU 的并行运行。ISA 也面向线性代数和复杂数据,以及向量压缩和扩展做了优化。ISA 可以在卡尔曼滤波、MUSIC 及 DML 等传感器处理的不同阶段实现性能增强。


作为 ConnX 系列时钟速度最快的产品,ConnX B10 和 B20 DSP 支持可选的 32 位矢量定点 MAC,可被用于加速 FIR、FFT、卷积运算和相关运算等雷达/激光雷达/V2X 相关的处理功能。双精度、单精度以及半精度矢量浮点操作也可以通过硬件进行加速。


ConnX B10 和 B20 DSP 已经做了优化,可以提供先进的 MIMO 系统所需的性能,支持矢量滤波、FFT 以及线性代数处理。我们也考虑到了这些系统对低阶处理的需求,并为此采用了支持不同水平按位操作的指令集。


指令集中涵盖了针对 16 位数据优化的指令,用于执行复杂算术、多项式求值、矩阵乘法和平方根/倒数计算加速。此外,ISA 也支持 16 位与 32 位峰值搜索加速。


随着高精度 4D 图像雷达对天线数量需求的增加,以及物理层(PHYs)逐渐过渡到更先进的 5G 等标准,对处理性能的需求也在急剧上升。ConnX 系列 DSP高度并行的可扩展架构可以满足这一需求。ConnX B10 和 B20 DSP 也提供多核解决方案,将处理容量扩展至超过单一核心。


尽管 DSP 主要负责复杂算法的并行处理,ConnX 系列产品也并未忽视硬件控制的需求。ConnX DSP 在 PHY 应用层控制等领域运行控制代码的能力非常突出。需要与硬件模块连接时,ConnX DSP 可以通过专属的定制化接口与外部硬件连接,实现近乎无限的数据带宽。


为了进一步优化 DSP IP,ConnX 系列产品可以用 TIE(Tensilica Instruction Extension 指令扩展)语言进行定制。与 Verilog 类似,这一语言可以被用于设计多周期流水线执行单元、寄存器文件和 SIMD ALUs 等其它扩展核心架构的方式。每个扩展都有专属指令,且属于整个 ISA 的一部分,方便软件开发者实现硬件扩展。


结论


DSP 架构需要高效使用存储器才能实现高性能设计,同时将能耗和成本最小化。


ConnX B10 与 B20 是为雷达、激光雷达及 5G 通信专门设计的 DSP性能对比其他软件兼容的 ConnX 家族产品提高了 10 倍。32 位定点 MAC,双精度、单精度和半精度浮点,更高的可并行性,以及更快的时钟速度等特性共同汇聚在可扩展的架构中。这一架构是为了应对雷达/激光雷达传感器,V2X 应用计算链条,以及满足汽车 OEM 实现 Lvel 2 和更高级别自动驾驶而量身设计的。


面向雷达、激光雷达和 V2X 优化的可扩展 DSP IP 已获得 ASIL B 随机故障和ASIL D 系统故障合规认证,助力实现未来更高水平的自动化驾驶。

来源:Cadence楷登
System电路半导体通用航空汽车电子其他软件消费电子UMCadence控制
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-10-01
最近编辑:7小时前
Cadence楷登
签名征集中
获赞 0粉丝 86文章 251课程 0
点赞
收藏
作者推荐

Sigrity X 2021 盛装登场!

EDA 领域需要运用许多不同的运算软件,然而 EDA 行业所面临的挑战在于,设计团队总需要采用当前的处理器来设计及创建下一代的 SoC。在 1990 年代和 2000 年代,微处理器公司将处理器的性能每年提高了约 50% 来解决这个问题。部分原因是摩尔定律在没有产生功耗问题的同时,提高了硅芯片的性能;还有部分原因来自于处理器架构的提升,可以通过更聪明的方法来执行乱序执行(Out-of-order Execution)、分支预测(Branch Prediction)以及解决所有其他设计上遭遇的困难。摩尔定律提高了时钟(Clock Cycle)频率,而架构的改善也提高了每个时钟周期可执行的命令数(IPC)。因此,如果我们需要更高的性能,只需等待即可,当时的生活多美好!然而两件事情的发生使生活不再那么美好:首先,由于功耗限制,不可能再增加微处理器的时钟频率;其次,改变架构也几乎变不出花样了。从某种意义上说,摩尔定律还没有结束,在芯片上仍然可以放置越来越多的晶体管,但不再以增加的单执行线程(Single-Thread)性能来交付增加的处理器能力,而是以增加处理器核心数量来交付。因此,不如我们使用“核心定律”(Core's Law)一词,即处理器核心的数量呈指数增长。但因为我们位在改变曲线的平坦处,所以这一名词并未引起关注,也从未流行。现在,处理器具有 48 核,甚至 128 核,这一点明显变成常态,而不太明显的议题则是,运算软件如何适应更多核。秘密算法其实是一个大规模平行化的矩阵求解器。这是一种突破性算法,是 Cadence 在系统分析领域的秘密武器。它具有近乎线性的扩展度,而且不影响任何精准度。它运用大量低容量的机器,几乎具有无限的容量,却不需要真正具备任何大型计算机——一个在您需要时派不上用场,或者大多闲置、等待被使用的工具。整个基础架构可动态部署到云端(或数据中心)中,并具有容错重启功能——因为当大量的机器一起使用时,罕见的事也会发生。许多 EDA 以稀疏矩阵(Sparse Matrices)形式编码来求解大量方程式。稀疏矩阵是其中大多数项目为零的矩阵。因为不需要显式记录为零矩阵项,这意味着它们可以非常有效地存储在电脑内存中。通常,这些矩阵是对称的,由于只需要记录矩阵的一半,因此可以进一步节省成本。这是因为许多电气特性是对称的:从节点 1 到节点 2 的电容与从节点 2 到节点 1 的电容相同。Cadence 在过去几年中在计算软件(Somputational Software)方面取得的突破之一,就是强调如何在大量核心和/或服务器上使用这些大型稀疏矩阵进行矩阵代数运算,举例来说,Cadence 的 Voltus、Clarity、Celsius 等都是相同的解决方案。 Sigrity XSigrity X 可提供仿真速度和设计处理量高达 10 倍的性能,而不会影响任何精准度。这是通过在云端(或大型本地数据中心)中进行大规模分布式仿真所实现。基本上与 Clarity 3D Solver 的基础相同,是以大规模分布式仿真技术,进行兼顾电源影响的信号完整性分析。分析信号完整性的最大挑战之一,就是受到影响的层面广大。功耗会影响温度,进而影响 IR drop,再影响到时序,再影响到信号完整性。混合求解器的另一个新发展是多线式检查。信号完整性探索与核心数量呈现线性关系(因为探索的每个配置完全独立,因此不需要连续通讯)。Sigrity X 技术可适用于 Sigrity 系列产品:PowerSI、PowerDC、XtractIM、SystemSI 和 OptimizePI。但是,以上并不是最新版 Sigrity 的唯一变革——Sigrity 全新的用户界“Layout Workbench”非常易于使用。可根据您的喜好,变更成亮色或深色主题画面(正如同手机操作),也可取决于您所在的位置和一天中的时间做出调整——与 Clarity 3D Solver 所提供的 GUI 相同。 同时,Sigrity X 还配备了最新的数据库,这使得在机器之间移动仿真文件变得更加容易,因为所有仿真类型的全部内容都封装在了单个文件中。保存功能也得到了改进,可以处理任何其他依赖的仿真数据(Dependencies)。 以下的范例说明了新版本性能的显著提升。该示例设计具有 :▶20 层▶68,807 凸块(Bumps)▶1,006,136 的过孔(Vias)▶483,894 条走线(Traces)以上使用 2019 PowerSI Hybrid Solver 混合求解器,需要 15 天才能完成。而使用新的 2021.1 Hybrid Solver 混合求解器,并使用相同数量的核心,同样的过程只需 1.5 天即可完成。当前,信号完整性分析的两个热门领域是 PAM4 和 DDR5 内存接口:PAM4 是一种使用四个电平、每个(恢复的)时钟周期传输两位的信号技术,它可应用于 112G SerDes,以及即将到来的 PCIe 6.0 标准(尚未最终确定,但纳入 PAM4 则不会更改)。DDR5 是 DDR DRAM 接口的最新版本,正逐渐成为内存接口市场的流行领域。DDR5 有望在 2022 年成为最常用的接口(Cadence 与美光(Micron)已经持续在 DDR5 接口技术开发上合作多年)。 新版本的使用经验关于客户的成功案例,Renasas 的 Tamio Nagano 表示:“新一代 Sigrity X 让我们的 IC 封装签核的重要流程得到了显著改善;过去耗时超过一天的仿真现在可以在短短几个小时内完成。我们很高兴在生产设计中采用了这项新技术,将验证过的性能提高了 10 倍。”另一则成功案例则来自 5G 芯片领域, Mediatek 的 Aaron Yang 表示:“新一代的 Sigrity X 版本不仅可以以相同的精准度,让大量设计的分析速度提高 10 倍,而且还能扩展到过去无法分析的更大、更复杂的设计中。这款构建生产力的产品帮助我们省去好几个礼拜的设计时间,加快产品交付速度。”来源:Cadence楷登

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈