“大数据和超算中心的大规模应用,是自动驾驶的AI基础设施,而DriveGPT将重塑汽车智能化技术路线。”在第八届 HAOMO AI DAY 发布会上,毫末智行CEO顾维灏说。
(资料图)
可以确定的是,AI技术正在改变世界,AI也被视为当今最高效的生产工具,它的出现将重塑更行各业。比如chatgpt4.0和百度的文心一言,它们的出现会取代多个机械师的工作种类。所以,GPT技术也给自动驾驶行业带来足够多的想象空间。
至此,毫末智行正式发布自动驾驶生成式大模型DriveGPT,中文名“雪湖·海若”。
那么毫末的DriveGPT会给智能驾驶带来哪些颠覆,这是我们要重点讨论的内容。
GPT技术将要颠覆各行各业
你或许不知道DriveGPT,但是你大概率知道OPEN AI的ChatGPT。
首先,GPT的全称是生成式预训练Transformer模型,本质上是在求解下一个词出现的概率,这是它的数学原理,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。
ChatGPT凭借大模型,预训练、大数据、RLHF(人类反馈强化学习)技术,让其变得越来越聪明。
举个例子,2018年,OPEN AI的发布了GPT-1,虽然大家足够兴奋,但是他生成的语言不够连贯和流畅,答案也不总是合理的,事实证明它的性能仍有很大提升空间。
到今天的GPT-4,其有强大的图像识别能力;创意文本,写代码、生成歌词的能力,实现风格变化,而且回答准确率显着提高。
这就是GPT技术的魅力,从2018年到2022年短短时间,通过大模型和引入RLHF(人类反馈强化学习)技术,让其快速迭代,自成长。
之所以说GPT技术会颠覆多个行业,是因为GPT本身是一种非常通用的建模范式,能应用的领域非常之多,这其中就包括智能驾驶领域。
毫末智行CEO 顾维灏表示:“在自动驾驶领域,由于在公开的互联网上相关数据几乎没有,所有就会形成一个稀有的垂类GPT。那这个自动驾驶GPT,也就是DriveGPT雪湖·海若”
DriveGPT和ChatGPT技术同源,他们都有大模型,预训练、大数据、RLHF(人类反馈强化学习)技术支持。
因此,DriveGPT的可期待是它的可成长性,这就好比它现在处于GPT-1,目前是处于提升认知和决策的阶段,但到了4.0阶段则,可能解决的就是端到端的问题了。
DriveGPT的技术优势在哪
顾维灏认为,在大数据的基础上,加上新范式的加持,这将加速自动驾驶3.0时代更早到来,而这新范式指的就是DriveGPT。
首先,DriveGPT雪湖·海若可以具有三个能力:
1、DriveGPT雪湖·海若可以按概率生成很多个驾驶场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。
2、它的第二个特性是在所有场景序列都产生的情况下,能把场景中我们最关注的自车行为轨迹给量化出来,也就是生成场景的同时,便会产生自车未来的轨迹信息。
3、仅有轨迹是不够的,毫末希望这条轨迹是可解释的,而GPT模型最擅长的领域便是对话和推理,DriveGPT雪湖·海若也很好地继承了这种特性,在生成场景序列、轨迹的同时,也会把整个决策逻辑链给输出。
简单理解就是,可生成场景,量化场景,场景可解释。
1、从自然文本到Drive Language
上文提到,GPT的本质上是在求解下一个词出现的概率。而DriveGPT雪湖·海若是自动驾驶领域的生成式预训练Transformer大模型,也是在求解下一个Token的概率。每一次调用都相当于根据前序Token序列生成一个Token,这些Token就相当于自然语言处理中的一个词语,只不过毫末的Token是用来描述驾驶场景的。
众所周知,ChatGPT更多的是自然语言文本训练,其训练的是文本。而DriveGPT训练的是视频和图片。
那么问题来了,自动驾驶如何场景化表达?毫末的答案是Drive Language。而且有了Drive Language,就可以开始做强化训练了。
举个例子,自然语言中的Token很好理解,就是单字或单词,中文的Token词表有5万个左右。把Token输入到模型,输出则是下一个字词的概率,这种概率分布隐藏了语言中的知识和逻辑,例如:根据一部侦探小说复杂线索,推理出凶手是谁。
DriveGTP其实也是在推理,只不过Drive Language基于毫末的CSS场景库理论,将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末Token的词表空间是50w个左右。
如果输入一连串过去已经发生的场景Token序列,那模型就可以根据历史,去生成未来所有可能的场景,DriveGPT雪湖·海若就像一部推理机器,你告诉它过去发生了什么,它按概率推理出未来多个可能。
2、对预训练进行打分排序,得出最优结果
如何把模型训练做到最高质量?毫末的做法是根据驾驶数据以及毫末的CSS(场景库理论)做一个大规模的预训练。
我们来看一看结果,通过一些在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,再用强化学习的思路,把反馈模型认为好的结果排上来,差的结果排下去,最后把参数更新到一个备份模型(Active Model)中。
我自己的理解是,相当于ChatGP做预训练,把对话好的内容结果进行打分和排序,再接着强化思路,把反馈模型认为好的结果排上来,差的结果排下去,基本上是一个思路。
DriveGPT雪湖·海若的整个迭代流程中利用了大量的接管或者不接管的数据,这些数据中隐藏了不同场景下错误的自动驾驶开法与正确的人类开法。通过强化学习的方式,这样能看到DriveGPT雪湖·海若生成的效果就会有一个明显地提升。这跟GPT技术强调的,自学习快成长不谋而合。
那毫末是如何做预训练的?
毫末的做法是从encoder+decoder的结构,调整为Decode-only结构的GPT模型,其中每一个Token都是Drive Language,用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。
毫末的预训练模型使用了1200亿个参数的大模型,使用4000万量产车驾驶数据训练,模型本身能够对各种场景做生成式任务,但这些生成结果还需要按照人类偏好去调优,在安全、高效、舒适等维度上做出取舍。
对于筛选的人类接管数据,毫末做了5万个Clips做反馈模型的训练。反馈模型的样本使用了这部分实车的接管数据,这些数据经过预训练模型后,可以生成出多种结果。
假如:A、B、C、D四个结果,这四种结果都是机器生成的,毫末用人驾接管数据去做一个Grading打分模块,用这个模块对四个结果做评分,这样就能产生一组带有偏序关系的Pair样本对,即C>A、C>B、D>A、D>B。
有了偏序对之后,就可以用LTR(Learning To Rank)的思路去训练反馈模型(Reward Model)。
最终结果是毫末的影子模式从车端转到云端,规模更大,效果更强。
3、输出结果具有逻辑链
如何让模型学习逻辑链,这也是DriveGPT的亮点之一。
毫末的做法是把模型中完整的超车决策逻辑,拆解为“直行-被压速-左变道-再直行-再右变道超车”等多个子过程。
把带有prompt提示语和完整决策过程的样本交给模型去学习,那模型就能学到一种推理关系,即“要快速抵达路口目标处”,需要“先直行,后左右变道超车,再加速直行”,模型通过大量含有CoT逻辑链的样本,就能产生一种推理能力。下次遇到一个新的指示,例如:“慢点抵达地图上500m处目标点”,它就会生成很多比较“慢”的决策逻辑,有的是“减速跟车”,有的是“路口让行”,开得会稳重一点,那如果你换个prompt提示语,比如让它快一点,它又会重新生成一些“快”的逻辑。
4、极具性价比的4D Clips自动标注方案
在DriveGPT雪湖·海若发布之外,另外一个值得关注的点是,毫末智行还对外开放了该模型。
此外,在毫末智行在使用数据的过程中,还建立了一套极具性价比的,基于4D Clips数据的自动化标注方案。目前,一张正确标注结果的图片在行业中的市场价是5块钱,如果使用DriveGPT的标注服务,这个价格将只需5毛钱。
而这也带来了2个意义。首先,To 车端,这可以让智能辅助驾驶更快到来。对云端而言,场景识别能力变强,降低标注成本。
5、上车魏牌摩卡(参数|询价)DHT-PHEV
按照毫末智行的规划,雪湖・海若即将应用到毫末第三代智能驾驶系统HPilot3.0 上。首先落地的车型是魏牌新摩卡DHT-PHEV,后续还有魏牌蓝山。
雪湖・海若引入车端之后,其决策会让车辆的动作更丝滑、更人性,且会有合理的逻辑告诉驾驶者,车辆为什么会选择这样的决策动作。对于普通用户来说,对车辆的信任感也会增强,可感受到车辆的行为都是可预期、可理解的。
6、雪湖绿洲的加持
MANA OASIS就是雪湖绿洲,它也是毫末的核心武器。它的浮点运算可以达到每秒67亿亿次,存储带宽达到每秒2T,通信带宽方面达到每秒800G。
官方表示:这是中国自动驾驶业内算力最大的智算平台。作为对比,之前小鹏在内蒙古自建的超算中心,算力是60亿亿次每秒。
这些数据代表了什么?
MANA OASIS与普通的云服务有所不同,它是专门根据自动驾驶3.0时代需求设计的。按照毫末智行CEO顾维灏的介绍,自动驾驶对智算中心有六个独特要求:
1、算力要大。浮点算力67亿亿次每秒这个数据,代表着能做什么大模型,能做多少大模型,能够允许多少个AI工程师在这个“练武场”中进行训练。
2、小文件存储效率。自动驾驶的数据是片段式的,最大特点是小文件多,达到百亿个。对这些小文件随机存储的效率,代表着训练效率。
3、存储带宽。自动驾驶的大模型训练需要交换的数据多,要求有高性能的存储带宽,这样,大量数据才能在大模型中顺畅流动。
4、通讯带宽。所有的计算能力目前还不能在单台服务器中完成,需要多台服务器协同工作,这就要求了集群的通讯带宽。
5、自动驾驶需要的模型,例如transformer模型,当变得很大时,就会稀疏。要求智算中心有更好的并行计算框架,在训练时能把硬件资源都利用起来。
6、兼容性。人工智能发展很快,新的算法层出不穷,要求智算中心能够尽快引入新的技术和新的模型。
AI 大模型下视觉感知能力持续提升
“把感知和认知相关大模型能力统一整合到DriveGPT——就是我们的自动驾驶生成式的大模型”顾维灏介绍道。
除了DriveGPT 雪湖・海若的架构升级之外,MANA 视觉感知能力的提升也是毫末的重磅内容。
这里我们要聊的是,MANA的提升配合GPT会有什么效果?
1、干掉雷达数量
什么是视觉自监督大模型?简单理解就是把一段视频里的离散单帧变成连续帧,但人工标注费时费力,毫末就自己开发了视觉自监督大模型。
毫末对视觉自监督大模型又做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个大模型训练目标里。训练后的模型就可以理解场景当中的结构、速度和纹理等核心信息。
具体做法是将一个Clips序列的前K帧的部分输入模型,要求模型的4D编码器提取出相关的动静态障碍物,路面、天气、光照等局部和全局的语义信息,形成 4D 特征空间。有了这个由前面 K 个时刻融合的 4D 特征,再输入解码器 3D 空间的位置编码,经过神经辐射场就可以渲染出后续h帧的图片和深度。
顾维灏表示:“模型要想渲染得和真实后继视频一致,就得理解场景里面的我们所关心的这些结构速度和纹理的核心信息。”
“目前,我们的视觉自监督大模型的数据集超过 400 万 Clips,感知性能提升 20%。”顾维灏介绍道。
那这么做的好处是什么?最直接的体现是这样的精度可以用视觉取代USS(超声波雷达传感器),进一步降低整体方案的成本。这将降低智能驾驶软硬件的整体成本,也就是用更少的钱做更多的事情。
2、可以降低对激光雷达的依赖
目前,毫末通过视觉自监督大模型技术,可以做到不依赖激光雷达,将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。
背后是怎么做的?
毫末对NeRF做了专门的升级,重点突破了影响精度的几个关键技术点,现在可以做到重建误差小于10cm,并且对于场景中的动态物体。
在特斯拉之后,毫末智行在中国开始验证能否使用鱼眼相机代替超声波雷达进行测距,以及如何使用纯视觉NeRF网络重建高精度3维模型,并同时完成自动标注。
毫末在视觉感知能力上的进步,落到量产阶段最直观的体现是同等能力前提下,智能驾驶硬件成本更低(取消各种雷达),功能进一步下放主流价位车型。
DriveGPT「雪湖·海若」会带来哪些改变
顾维灏表示:“今年2月所有行业都看到了AI大模型所带来的人工智能能力质的飞跃,AI大模型与我们之前提及的五大大模型有很多共同之处,我们相信在大数据的基础上,加上新范式的加持,自动驾驶的DriveGPT也将重塑汽车智能化的技术路线,加速自动驾驶3.0时代更早到来。”
做一个猜测,自动驾驶的DriveGPT会对智能驾驶行业带来如下改变:
第一,毫末是首个将GTP技术引入智能驾驶的企业,技术方面运用了大模型,预训练、大数据、RLHF等,让智能驾驶变得具有快速成长的能力。
第二,自动驾驶的场景化表达,有了Drive Language毫末可以进行大规模预训练。
第三,通过对感知的提升,可降低对毫米波雷达的依靠,目前一台具有NOH功能的车型,保守有10颗以上的毫米波雷达,如果凭借视觉感知的提升,这将会降低对毫米波雷达的依赖。
第四,让自动驾驶企业对数据的需求越来越大,不建设智算中心,已经跟不上自动驾驶潮流的发展,会让自动驾驶企业进入淘汰赛。
第五,对消费者而言,智能驾驶越来越好用,越来越安全和实用。
仅就毫末智行来说,雪湖·海若投入使用给业务带来的提升,至少有三个层面。短期来看,最早上车的长城魏牌车主用户,能享受更加好用强大的智能驾驶功能;中期来看,目前各家争夺的城市领航辅助功能,毫末借助大模型的迭代效率,很有可能在年内实现规模化上线(并非只在一两个城市)。
而长期来看,毫末智行将自动驾驶各个环节接入雪湖·海若之后,会进一步加速纯视觉方案能力的提升和成本下降,实现数据规模从量变到质变,从而最终实现端到端自动驾驶。
毫末智行在AI DAY上除了发布DriveGPT、MANA的升级,还宣布了6P开放合作的新进展:已经获得3家主机厂的定点合同,相关项目正在交付中。