不懂写软件的显卡芯片商不是自动驾驶好玩家 记英伟达GTC2019
算上今年的GTC,笔者已经是第三次在现场听到黄仁勋老先生的演讲,每次的感受都差不多——未来科技真香。在这次的GTC上,让笔者收获最大的,还是人工智能对于汽车产业的影响与改变。不仅仅是硬件计算能力的提升,软件的创造将把硬件的性能发挥到极致,且可以一脉相承,打造一个天长地久的智能化平台。而这样的平台对于自动驾驶与车内智能双方向都会带来巨大的进步。
从显卡到自动驾驶处理单元的GPU
科技成果的达成往往不是一蹴而就,就像电脑游戏中的 科技树 ,需要一步一个脚印逐个达成,最终积累成一个里程碑式的结果。不过,往往促成意想不到大成就的,是研发过程中不经意的一小步。例如汽车轮胎中的硫化橡胶,来源于帆布鞋的硫化大底,汽车风挡用的不会碎片飞溅的钢化玻璃则来源于防毒面具中眼部的夹层玻璃。而自动驾驶的计算单元芯片,溯源于电脑显卡的GPU。
GTC大会名字的全称是GPU Technology Conference,GPU技术大会,而GPU的全称是Graphics Processing Unit,也就是图形处理单元的简写。GPU最早是作为CPU的助手而存在的。CPU像一名非常能干的教授,单兵作战能力很强, 给他任何难题他都能解决的很好。而GPU则是一群具备简单计算能力的学生,虽然单兵作战能力不强,但是可以快速处理大量简单的工作。由于3D显示技术的发展,电脑需要计算大量的像素内容,虽然单个像素的计算并不复杂,但如果让CPU挨个处理上百万个像素,一方面大材小用, 一方面也比较耗时,效率不高。教授处理有难度单任务的能力是碾压学生的,但是对于没那么复杂的任务,还是顶不住人多,这时,GPU的先天优势得以显现。
随着时代的发展,人们发现GPU处理数量繁多简单任务的能力,不仅可以用于显卡,也可用于具有极高的可预测性和大量相似的运算以及高延迟、高吞吐的架构运算。例如自动驾驶中涉及到的数据融合以及行为预测就是其中之一。进而GPU成为了汽车自动驾驶与车载信息娱乐领域核心的处理单元。
性能7倍于前代的自动驾驶计算单元Orin诞生
每次的GTC大会,都少不了重磅硬件的发布。全新一代专攻自动驾驶的SoC芯片被命名为Orin(命名来自于DC漫画中海王的名字,英伟达的芯片命名通常以美式漫画中的角色名字命名),并在大会上正式发布。
在这里先解释一下SoC的含义。与纯电动汽车中State Of Charge(充电状态)不同,这里的三个字母是System-on-a-Chip的缩写。可被翻译为系统级芯片,或片上系统。如果说中央处理器(CPU)是大脑,那么SoC就是包括大脑、心脏、眼睛和手的复杂系统。
Orin平台内置的芯片由170 亿个晶体管组成,由英伟达团队耗时四年打造。Orin SoC 集成了英伟达新一代GPU 架构和Arm Hercules CPU 内核以及全新深度学习和计算机视觉加速器,每秒可运行200 万亿次计算,几乎是英伟达上一代Xavier 芯片性能的7 倍,Xavier每秒可运行30万亿次计算。这款芯片计划于2022年开始量产上市。
其实,早在2018 年CES展上,英伟达发布的全球首款自主机器处理器——NVIDIA DRIVE Xavier已是石破天惊。BAO爱车工作室在2015年,有幸参加了百度率先在国内进行的L4级自动驾驶测试。当时使用的试验车平台基于宝马3系GT改造而来。选择3系GT的原因是其拥有一个超大的后备箱,由于计算系统使用的是多颗传统服务器级CPU,导致体积过于庞大,只有这款车的后备箱可以勉强承载。但采用Xavier为核心的计算单元,大小仅如一块显卡,为车辆的布局节省了大量空间。后续德尔福(后独立为安波福公司)的L4级demo car以及即将于明年量产的小鹏P7都采用了Xavier为核心的系统,已克服了早期计算单元体积过的弊病。
但随着自动驾驶研究的不断深入,整个业界对于自动驾驶难度的认知不断更新。大量的特殊案例(Corner Case)涌现,使得传感器的数量和数据计算量比此前业界的预估值大幅提升,这也就对单车的运算能力有了更大的要求,再加上车内智能化的快速发展,语音识别与车载智能助手的功能也在不断完善,对车辆算力的要求也与日俱增。
为了应对此需求,Orin应运而生,虽然体积未变,但计算能力已大幅提升。更为重要的是,在软件的兼容性和安全性方面也有较大幅度改进。
在大会演讲中黄仁勋表示,Orin的软件系统向下兼容,此前的Xavier平台研发成果都可在Orin平台使用,其性能会得到增益。就好比购买索尼的PS3游戏机,会兼容此前购买的PS2游戏一样,可谓开发者节约大量的开发成本。
在安全性问题上,BAO爱车工作室对此专门提问英伟达CEO黄仁勋,Orin的设计是否充分考虑了未来车企EEA架构高度集成的设计需求,以及由此带来的安全隐患问题。黄仁勋给出的回答是:三重机制保障安全。
第1, Orin支持虚拟机软件隔离,即通过模拟器将应用层与系统层隔离;
第2, 所有程序访问内存都是加密的;
第3, Orin有一个足够快的加密引擎,把所有写入内存存储和网络的数据都进行加密。有私钥和公钥两把密钥,私钥可保证自己使用的机器是统一的,即每一台车都是独一的。此外,私钥的通信也是私下进行的,可保障通信通道安全和计算机安全,防止被篡改。
黄仁勋告诉BAO爱车工作室: Orin的(安全)设计就像数据中心一样,而不是简单的一个芯片。
硬件之上的软件正在加速进化
不过自动驾驶不是简单硬件的堆叠,硬件是基础,软件是灵魂。自动驾驶功能的研发,需要经历从数据采集、模型训练、驾驶仿真和车载电脑实际搭载这些过程。其中的基础设施、软件应用以及人工智能算法,英伟达都深度参与其中。软件是其中的重头戏。
说到这里不得不介绍NVIDIA DRIVE。它是NVIDIA旗下一个自动驾驶行业的研发测试平台。平台包括车载计算机(DRIVE AGX)和完整参考架构(DRIVE Hyperion),以及数据中心托管模拟(DRIVE Constellation?)和深度神经网络(DNN)培训平台(DGX?)。这些平台还包括丰富的软件开发工具包(SDK),以加速自动驾驶汽车(AV)的开发。在这座平台的帮助下,开发者可以低成本高效率的对传感器创数的数据以及修正后的算法模型进行开发和验证。
在本次大会上,英伟达宣布将向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络,在NGC(NVIDIA GPU Cloud英伟达GPU云)上推出NVIDIA DRIVE预训练模型。其做法是补完目前其在商用车及其他如物流车等特种车辆的自动驾驶算法逻辑,这两块领域与普通的乘用车自动驾驶存在着模式与逻辑层面的巨大不同,英伟达此举已得到了包括戴姆勒、沃尔沃以及丰田等公司的响应。
此外,英伟达还在本次大会上宣布,滴滴出行将使用NVIDIA GPU和其他技术开发自动驾驶和云计算解决方案。滴滴将在数据中心使用NVIDIA GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力。
推理软件将车内实现人机流利对话变为可能
此外,本次大会上让BAO爱车工作室较为关注的消息是推理优化软件TensorRT将推出第七代产品。TensorRT是NVIDIA针对神经网络推理阶段提供的加速软件,它能通过提供优化的AI模型来大幅提升计算性能。
去年在GTC China大会上发布的TensorRT 5仅支持CNN(Convolutional Neural Networks,卷积神经网络)和30种计算变换,而TensorRT 7面向Transformer(Transformer模型是一种日益流行的神经网络结构,此前的星际争霸人机世纪大战就用的此神经网络结构)和RNN(Recursive Neural Network循环神经网络)做了大量优化,能以更少内存实现高效运算,并支持1000多种计算变换和优化。TensorRT 7能融合水平和垂直方向的运算,可为开发者设计的大量RNN配置自动生成代码,逐点融合LSTM(长短时记忆网络Long Short Term Memory Network)单元,甚至可跨多个时间步长进行融合,并尽可能做自动低精度推理。此外,NVIDIA在TensorRT 7中引入一个内核生成功能,用任何RNN可生成一个优化的内核。
如果上面这一段不容易理解,可以直接跳过。简而言之,该软件进一步优化了实时会话式AI,使T4 GPU上的推理延迟缩短为了使用CPU的1/10;思考的时间只有0.3秒。这就意味着此前车机内的人机对话,漫长的等待时间可以缩短到0.3秒,使真正的人机对话成为可能。
- 标签:
- 编辑:杨保录
- 相关文章