专家分享 | Linley Group：在数据中心做训练，在边缘做推理_汽车_电子_芯片_自动驾驶_Cadence

专家分享 | Linley Group：在数据中心做训练，在边缘做推理

Paul Mclellan

特别邀请Cadence资深博主Paul Mclellan分享关于Cadence热门技术和产品信息。

Linley处理器大会已于四月中旬顺利举办。和往常一样，Linley Group首席分析师Linley Gwennap发表了开幕主旨演讲，主题为《您的处理器支持AI的程度如何》（How Well Does Your Processor Support AI？）。

在数据中心做训练

会议议题涉及了多个领域的AI 应用，因为不同领域对处理器的需求实在是多种多样，包括数据中心、汽车、客户端计算和物联网等。

如果要挑出一个人工智能领域最重头的发展趋势，神经网络当仁不让地在众多机器学习方法中脱颖而出。神经网络推理由三个阶段构成：数据预处理，上传到云端，在数据中心进行推理。Alexa和Siri就是这样运行的：首先由设备检测语音唤醒指令（比如“Alexa”、“Hey Siri”，“Okay Google”），自然语言处理则在云端实现。

然而，这种方式正在被逐渐取代。未来，数据中心将被用于网络训练；推理工作也将更多在边缘设备上进行。有人可能会说，Alexa哪怕要花晚十分之一秒的时间才能告诉你明天的天气没什么大不了；但是，当你的无人驾驶汽车需要识别红绿灯的时候，就必须做到没有延迟。瞬息的延迟都会让你觉得是不是网络崩溃了，或者数据中心服务器是不是过载了。

大多数人工智能研究工作都是在数据中心进行的，因为只有那里才能满足庞大的计算机功耗需求。此外，许多训练工作都在采用NVIDIA的GPU。亚马逊AWS拥有多达8个Tesla GPU的实例，确保所有的训练工作都得以发挥32位浮点运算性能。但是，过去几年的研究表明，推理工作其实并不需要太过精确，使用8位甚至更低的数据和权重所推理的结果较32位相差无几。

NVIDIA可以说是数据中心训练领域的龙头老大。去年，NVIDIA的数据中心业务年收入高达18亿美元。Tesla V100“Volta”拥有80个核心x4 warp，32单精度运行，以及支持每秒14万亿次浮点运算的1.37GHz主频。4 HBM2标准的DRAM芯片能够实现900GB/s的传输速率。

但是，GPU开始应用于神经网络训练实属偶然。GPU原本并不是专为神经网络训练而设计的。谷歌将自己设计的芯片命名为张量处理单元（TPU），并在过去几年将数千个TPU部署在自己的数据中心。微软用了一段时间FPGA，最初是为了加快搜索速度，但最近却将其用于神经网络，将性能提高了2-3倍。就在几天前，英特尔宣布自己的一些客户正大量推出内置Altera（Intel PSG事业部公布的官方名称）FPGA的服务器，希望开启新的应用生态系统。

在边缘做推理

无论物理尺寸还是市场规模，汽车绝对是当之无愧的最大边缘设备之一。现在的汽车都备有支持车道偏离警告和自动紧急制动等功能的高级驾驶辅助系统（ADAS），有些甚至已经有了更高级的功能，比如在高速公路和拥堵等路况不太复杂的情况下执行接近自动驾驶的操作。但是和其他性能一样，实现上述功能的电子元件尚比较昂贵，所以只能率先部署在价格较高的豪车（或商用车）上。

Linley Group预计，3级自动驾驶车辆将在2022年降至5,000美元以下，由于保险上省下的钱基本可以抵消车辆本身成本的上涨甚至还略有盈余，自然而然地会推动3级自动驾驶汽车的普及。尽管前途光明，但要真正实现5级自动驾驶可能还要10年的时间甚至更久。5级自动驾驶已无需驾驶员操作，甚至不再需要配备方向盘和其他操控装置，而是由汽车来操控驾驶动作。

目前，伦敦船埠区轻轨（Dockland Light Railway）仍设有（隐藏的）的手动控制面板。也就是说，连铁路这样沿着轨道运行的相对简单的驾驶操作都未能完全实现自动化，要解决路况千变万化的汽车全自动驾驶问题确实任重道远。

推理工作的边缘设备化并不仅仅发生在交通领域。目前，许多高端智能手机都装有人工智能加速器模块，比如内置Bionic神经引擎的苹果A11应用处理器，以及装有我们Tensilica P6 DSP的MediaTek P60。上述处理器将在未来一到两年进入主流手机市场。按照Linley Group的预测，人工智能处理器还可能会被装在PC端。

物联网设备是另一种会内置人工智能模块的边缘设备，比如语音助手以及能过滤掉大部分（几乎全部）无所不在的无关数据的智能安防摄像头。为了避开障碍物，跟踪滑雪运动员或自行车选手等目标，无人机需要具备一定程度的视觉处理功能和人工智能。一些初创企业也开发出了面向物联网设备的“微型”引擎。由于物联网消费品对价格较为敏感，加上今天的物联网设备也不过是可有可无的物件，所以不太会像工业物联网一样发展得那么快。但是，一旦智能化产品开始比传统产品更便宜，智能化产业将蓬勃发展，一切都会朝着智能化趋势发展，比如智能电表、智能停车场和资产追踪等。

还有一个有趣的进展，NVIDIA已经开始提供基于Xavier的开源神经网络加速器；但其是否会对市场产生重大影响还不得而知。

来源：Cadence楷登

DARPA选定Cadence负责电子复兴计划机器学习项目，加速电子设计创新

Cadence MAGESTIC项目汇聚卡内基梅隆大学和NVIDIA的机器学习专家，推进智能芯片、封装和电路板设计流程开发中国上海，2018年7月31日——楷登电子（美国 Cadence 公司，NASDAQ：CDNS）今日宣布，正式通过美国国防高级研究计划局（DARPA）筛选，为其电子资产智能设计（IDEA）项目提供支持。IDEA 是 DARPA 电子复兴计划（ERI）六个新项目之一，利用先进的机器学习技术为片上系统（SoC）、系统封装（SiP）和印刷电路板（PCB）打造统一平台，开发完整集成的智能设计流程。 ERI 投资将进一步实现更加自动化的电子设计能力，有效满足航空航天/国防生态系统和电子行业的商业需求。为履行四年期合同的项目章程，Cadence 创建 MAGESTIC 研发项目（Machine learning-driven Automatic Generation of Electronic Systems Through Intelligent Collaboration）。项目赋予设计过程更高水平的自主权，开发真正由设计意图驱动的产品，为系统设计的实现奠定基础。 Cadence 领导的团队汇聚了两家世界最著名的机器学习引领者——卡内基梅隆大学和NVIDIA。 “在利用机器学习、分析和优化技术来开发、部署和支持电子设计流程这一领域，我们一直业界领先。该项目将帮助我们加速我们的战略路线图，为设计生产力的下一次重大飞跃开发更智能的设计流程，”Cadence公司总裁Anirudh Devgan表示。“同时，它也将为我们的模拟、数字、验证、封装和PCB EDA技术奠定基础，为客户提供最先进的系统设计实现解决方案。” DARPA 电子复兴计划致力于解决迫在眉睫的工程设计和经济成本双重挑战，如果依然悬而未决，微电子技术长达半个世纪的快速发展可能面临中断；且推动微电子技术发展的设计和制造已然愈加困难昂贵。 MAGESTIC项目旨在解决： -拓展机器学习前沿技术的边界，开发优化性能的先进算法-扩展对先进CMOS工艺节点（包括7nm及以下）及其他工艺节点的支持-布线和设备调试的自动化，提高可靠性、电路性能和弹性-利用机器学习、分析和优化，达成更优化的功耗、性能和面积（PPA）目标-分阶段推进技术采纳，系统可以向用户学习，用户反之也能了解如何更好地利用工具达成预期目标。项目亦将扩展Cadence云服务设计系统的使用范围，以应对大规模分布式处理需求，加速设计实现。关于楷登电子CadenceCadence 公司致力于推动电子系统和半导体公司设计创新的终端产品，以改变⼈们的工作、生活和娱乐方式。客户采用Cadence的软件、硬件和半导体IP，帮助他们能更快速向市场交付产品。Cadence公司的“系统设计实现” （SDE）战略，将帮助客户开发出更具差异化的产品——覆盖从芯片到电路板设计乃至整个系统——涵盖移动设备、消费电子、云数据中心、汽车、航空、物联网、工业应用以及其他细分市场。Cadence公司同时被财富杂志评选为“全球年度最适宜工作的100家公司”之一。来源：Cadence楷登