Cadence发布业界首款面向汽车、监控、无人机和移动市场的神经网络DSP IP

2月前浏览97

具备1TMAC／秒计算能力的完整独立DSP解决方案

内容提要：

☛ 完整独立的DSP核心，全面支持各级神经网络层

☛ 芯片面积不到 1mm²，计算速度可达每秒 1 TeraMAC (TMAC)

☛ 通用的可编程解决方案，为未来而生，满足不断演进的技术需求

☛ 为视觉设备、雷达／光学雷达和融合传感器应用度身优化

2017年5月4日，中国上海——楷登电子（美国Cadence公司，NASDAQ: CDNS）今日正式公布业界首款独立完整的神经网络DSP - Cadence® Tensilica® Vision C5 DSP，面向对神经网络计算能力有极高要求的视觉设备、雷达／光学雷达和融合传感器等应用量身优化。针对车载、监控安防、无人机和移动/可穿戴设备应用，Vision C5 DSP 1TMAC/s 的计算能力完全能够胜任所有神经网络的计算任务。

随着神经网络应用的日益深入和复杂，对计算的要求也与日俱增；同时，神经网络的自身架构在不断更新换代，新网络、新应用和新市场也层出不穷。上述趋势之下，业界亟需一款针对嵌入式系统量身定制的高性能、通用型神经网络解决方案，不仅应该具备极低的功耗，还应拥有高度的可编程能力，以适应未来变化，降低风险。

▼ 神经网络DSP vs. 神经网络加速器

基于摄像头的视觉系统在汽车、无人机和安防领域最为常见，这种架构需要两种最基础的视觉优化计算模式。首先，利用传统视觉算法对摄像头捕捉到的照片或图像进行增强；其次，使用基于神经网络的认知算法对物体进行检测和识别。现有的神经网络加速器解决方案皆依赖与图像DSP连接的硬件加速器；神经网络代码被分为两部分，一部分网络层运行在DSP上，卷积层则运行在硬件加速器上。这种架构不但效率低下，且耗能较高。

Vision C5 DSP是专门针对神经网络进行了特定优化的DSP，可以实现全神经网络层的计算加速（卷积层、全连接层、池化层和归一化层），而不仅仅是卷积层的加速。因此，主视觉／图像DSP能力得以释放，独立运行图像增强应用，Vision C5 DSP则负责执行神经网络任务。通过移除神经网络DSP和主视觉／图像DSP之间的冗余数据传输，Vision C5 DSP的功耗远低于现有的神经网络加速器。同时，Vision C5 DSP还提供针对神经网络的单核编程模型。

“ 我们的很多客户都在纠结如何选择理想的神经网络平台，毕竟一款产品的开发可能耗时数年，” Cadence公司Tensilica事业部市场高级总监 Steve Roddy 表示。“ 随时在线(always-on)嵌入式系统的神经网络处理器不仅需要低功耗和较快的图像处理速度，灵活性和永不过时(future-proof)的前瞻性也必不可少。目前的平台都不够理想，客户亟需一个全新的解决方案。Vision C5 DSP 通用型神经网络 DSP应运而生，它集成方便、使用灵活，功耗能效较CNN加速器、GPU和CPU也更为出色。”

“现实世界中的深度学习应用数量庞大，种类繁多，对计算的要求非常苛刻，” 嵌入视觉联盟(Embedded Vision Alliance)创始人Jeff Bier表示。 “ Vision C5 DSP作为神经网络专用编程处理器，可以帮助我们在低成本、低功耗设备上应用深度学习技术。”

▼ Vision C5 DSP的参数与性能

依托独立引擎，Vision C5 DSP具备领先的神经网络性能：
不到 1mm² 的芯片面积可以实现 1TMAC／秒的计算能力（吞吐量较 Vision P6 DSP 提高4倍），为深度学习内核提供极高的计算吞吐量
1024 8-bit MAC 或 512 16-bit MAC 确保 8-bit 和 16-bit 精度的出色性能
128路 8-bit SIMD 或 64路 16-bit SIMD 的 VLIW SIMD 架构
专为多核设计打造，以极少的资源代价获得 NxTMAC 的处理能力
内置 iDMA 和 AXI4 总线接口
使用与 Vision P5 和 P6 DSP 一致的经验证软件工具包
基于业界知名的 AlexNet CNN Benchmark，Vision C5 DSP 的计算速度较业界的 GPU 最快提高6倍；Inception V3 CNN Benchmark，有9倍的性能提升。

Vision C5 DSP 是一款灵活前瞻的永不过时(future-proof)解决方案，支持各类内核尺寸、深度和输入规格。Vision C5 DSP 采用多项系数压缩／解压技术，支持未来添加的新计算层。与之相反，CNN 硬件加速器由于程序重编能力有限，扩展能力较差。

Vision C5 DSP 搭载 Cadence 神经网络 Mapping 工具链，可将 Caffe 和 TensorFlow 等映射为在 Vision C5 DSP 上高度优化过的可执行代码，充分发挥手动优化神经网络库的丰富功能。

Cadence 正与多家早期客户展开合作。如需了解 Vision C5 DSP的详细内容，请联系您的Cadence销售代表。

关于楷登电子 Cadence

Cadence 公司致力于推动电子系统和半导体公司设计创新的终端产品，以改变人们的工作、生活和娱乐方式。客户采用 Cadence的软件、硬件、IP 和服务，覆盖从半导体芯片到电路板设计乃至整个系统，帮助他们能更快速向市场交付产品。Cadence 公司创新的 “系统设计实现” (SDE) 战略，将帮助客户开发出更具差异化的产品，无论是在移动设备、消费电子、云计算、汽车电子、航空、物联网、工业应用等其他的应用市场。Cadence 公司同时被财富杂志评选为“全球年度最适宜工作的100家公司”之一。

来源：Cadence楷登

Xilinx、Arm、Cadence和台积公司共同宣布全球首款采用7纳米工艺的 CCIX 测试芯片

内容摘要：2017年9月11日，中国上海 — 赛灵思、Arm、Cadence和台积公司今日宣布一项合作，将共同构建首款基于台积 7 纳米 FinFET 工艺的支持芯片间缓存一致性（CCIX）的加速器测试芯片，并计划在 2018 年交付。这一测试芯片旨在从硅芯片层面证明 CCIX 能够支持多核高性能 Arm CPU 和 FPGA 加速器实现一致性互联。Babu Mandava，Cadence高级副总裁兼IP部门总经理“通过与合作伙伴构建高性能计算的生态系统，我们将帮助客户在7纳米和其他高级节点上快速部署创新的新架构，从而服务于不断增长的数据中心应用。CCIX行业标准将有助于推动下一代互联，提供市场所需的高性能缓存一致性。这款采用台积7纳米工艺的测试芯片将以Arm最新的DynamIQ CPU为基础，并采用CMN-600互联片上总线和其他基础IP。为了验证完整的子系统，Cadence提供了关键I/O和内存子系统，其中包括了CCIX IP解决方案（控制器和PHY）、PCI Express 4.0/3.0（PCIe 4/3）IP解决方案（控制器和PHY）、DDR4 PHY、外设IP（例如I2C、SPI和QSPI）、以及相关的IP驱动程序。 Cadence的验证和实施工具将被用于构建该测试芯片。测试芯片可通过CCIX片到片互联一致性协议（CCIX chip-to-chip coherent interconnect protocol）实现与赛灵思16纳米Virtex UltraScale+ FPGAs的连接。来源：Cadence楷登