【资料图】
科技讯 7月5日消息,近日,毫末智行联合清华大学智能产业研究院(AIR)举办了今年第二场自动驾驶精品公开课,深入分享了大数据、大算力、大模型驱动下的自动驾驶发展趋势和技术原理。
现场,毫末智行数据智能科学家贺翔以《大数据、大算力、大模型驱动下的自动驾驶》为主题,从AI大模型的内核讲起,结合毫末发布的业内首个自动驾驶生成式大模型DriveGPT雪湖·海若,通过毫末在自动驾驶行业里用大模型思路实践经验,全面分享了大模型技术落地自动驾驶的新范式。
回顾自动驾驶行业过去这些年的发展,贺翔将技术演进分为了3个阶段,即以硬件驱动为主的1.0时代、以软件驱动为主的2.0时代,以及正在进入的、以数据驱动为主要特征的自动驾驶3.0时代。“自动驾驶3.0时代的特点,是Transformer这样千亿级别的大模型,模型参数很大,一定是大参数、大模型、大数据。而大模型的必要条件是有大的算力。”
贺翔认为,自动驾驶当前的技术范式与十几年前的自然语言处理技术非常相近,即小数据、小模型,通过采集各种各样的交通数据、进行人工标注、再用这些数据训练出小模型,然后再把模型部署到车上,结合业务规则,去控制车。这种模式的弊端十分明显——一旦量产上车,当数十万辆车在全国各地跑起来,就会出现各种各样的路况、场景,如果还按照之前的思路去做人工标注,一方面,需要消耗大量的人力成本和时间,另一方面,则永远不可能标注完所有场景,就像运载着各种货物的挂车这类交叉组合的特殊场景需要做出不同种类的标注,而这种组合几乎是无穷的。
2023年4月,基于GPT大模型所具有的生成式、预训练、人类反馈强化学习等技术优势,毫末将视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型等五大模型进行统一升级,发布了行业首个自动驾驶生成式大模型DriveGPT雪湖·海若。
据贺翔介绍,DriveGPT大模型现在分成两个阶段,一个阶段是更通用、更基础的能力,即空间计算能力。另一个阶段是做驾驶决策,即要知道怎么开车。也就是在空间计算能力之上,再去叠加认知决策的能力。“驾驶决策,这其实还是一项特殊的技能,需要我们所有人学开车时候都要去驾校学一遍,大模型就相当于做(驾驶技能教学)这个事情。驾驶的技能都需要依赖对周围空间的三维感知,这种空间感知能力也是一种通用能力,我们希望这种通用感知能力,能对接不同的决策模型,完成不同的任务。例如对接自动驾驶决策模型就可以实现自动驾驶、对接机器人决策模型就可以实现具身机器人等等。
贺翔表示,DriveGPT目前仍然以云端训练和推理的方式为主,但它已可以通过多种方式来赋能车端智驾能力。首先,可以通过多模态大模型的场景理解能力,进行高效数据筛选,为车端小模型训练提供所需要的海量极端、困难场景数据。
在现场问答环节,面对“大模型到底能给自动驾驶带来什么样飞跃”的提问,贺翔解释说:“我们希望通过大模型非常强大的泛化能力,能够大规模提升自动驾驶对于corner case的处理能力,有了这种能力之后,自动驾驶可以去任何地方,任何路况,自动驾驶的范围能处理的场景可能比现在大得多。”
而当谈到自动驾驶的“ChatGPT时刻”会在什么时候到来时,贺翔也给出了自己的看法。在他看来,ChatGPT之所以给了大家如此大的震撼,在于它天然是多面手。但是,一方面,在自动驾驶领域里面,不同于ChatGPT只处理文本信号,自动驾驶还要处理图片、点云、交通法规、地图、驾驶行为等一系列信息,自动驾驶要处理的数据模态更复杂;另一方面,自动驾驶对模型的输出精度要求更高、可解释性要求也更强。面对这种特别复杂的模态、特别高的输出要求,实现自动驾驶大模型道阻且长,但行则将至。
标签: