2022-11-222023-01-30

李月：仿真赋能、数据驱动，X-In-Loop技术体系推动智能驾驶安全落地

以下文章来源于“2022中国汽车论坛”官方网站

2022年11月8日-10日，由中国汽车工业协会主办的第12届中国汽车论坛在上海嘉定举办。作为党的“二十大”召开后的汽车行业首场盛会，本届论坛以“聚力行稳蓄势新程”为主题，共设置“1场闭门峰会+1个大会论坛+16个主题论坛”，以汽车产业的高质量发展为主线，与行业精英一起贯彻新精神，研判新形势，共商新举措。其中，在11月10日下午举办的“主题论坛12：跨界融合，赋能自动驾驶落地”上，IAE智行众维联合创始人、CTO李月发表精彩演讲。以下内容为现场演讲实录：

大家好！今天我给大家主要分享的是关于仿真测试以及仿真测试所需要的数据工作。演讲主要分为五个部分：

第一部分，IAEX-in-Loop仿真测试技术体系。

第二部分，服务于仿真测试的场景工场。

第三部分，如何从道路采集获得所需要的数据并进行处理，到构建场景工场。

第四部分和第五部分，分享基于场景工场、暨海量场景库，能够做的一些事儿：进行仿真测试，或者是为机器学习提供训练的数据集。

一、IAEX-In-Loop技术体系

　　先介绍一下仿真测试技术体系，把技术体系称为X-In-Loop，针对智能驾驶的“V字型”开发流程所贯穿的各个环节测试，比如在最初的概念设计阶段，可能会已形成一些模型，基于模型做主客观评价测试。主要做的工作是MIL或者DIL。

　　软件形成之后，主要面向软件测试，之后会做HIL仿真测试，在V流程的右边阶段做得更多的是Validation的工作，围绕已经成型的产品、控制器做硬件在环的测试，或者等到整车完成做整车在环测试，以及最后做性能相关的验证，在场地上完成相关的测试。所以，我们是围绕各个环节在环测试的智能驾驶测试合作伙伴。

　　贯穿所有测试过程中的关键环节就是场景数据库、暨场景工场，下面介绍一下场景工场生产场景的上下游体系。

　　在场景工场、场景库的上游主要是生产工具链、方法论，以及完成场景库生产的过程。今天在其他环节不占用大家更多时间了，主要围绕场景生产的工具链到场景库，以及场景库如何服务于仿真测试、如何生成训练数据集，这个简单的链路跟大家展开介绍。

二、“水木灵境”场景工场（海量场景库）

　　如何定义场景？对我们来说，做智能驾驶相关的测试场景会拆解为静态和动态两部分。

　　静态场景：主要围绕交通设施，比如说周边的建筑、路灯、植被等都属于设施方面的东西。以及交通参与的主要要素，比如说信号灯、标牌、道路、车道线等。设施和要素主要会构成静态场景的部分，通过三维建模，结合逻辑信息建模，把它整合成静态场景。

　　动态场景：交通参与者，比如说车辆、行人等参与交通动态行为的目标物，会定义他行驶的轨迹、触发的事件。环境和天气的条件也是构成动态场景的一部分。场景由静态和动态的组成部分共同构成。

　　在场景工场中采用这样的划分，根据场景库覆盖的范围，把场景分为三大类：

　　第一大类：“有迹可循”

　　参考真实的环境、真实道路采集来的数据，或者是依据真实道路上发生的事件数据重构出来的，称为有迹可循。

　　主要包括像真实基于地图构建的城市和高速数字孪生场景，也包括在实际道路测试中车辆采集回来的数据，把它通过数据格式的转换形成自然驾驶场景。

　　还有事故场景，事故数据是发生事故之后，交警去现场勘探，把发生事故前一段时间的数据进行虚拟重构，这部分也可以把它做成检验智能驾驶行为的场景，这部分是CIDAS中国数据库。

　　第二大类：“有法可依”

　　主要是围绕法规和标准构建的功能场景，比如说ADAS系列会有一系列Euro-NCAP、C-NCAP、ISO、GB等行业标准，依据标准构建出来法规ADAS的测试用例和场景。针对车联网、V2X也有一定的SAE行业标准，依据行业标准构建了V2X的测试场景。还有根据交通规则行为和相关法规构建交规场景。

　　第三大类：“有需可取”

　　这些场景大部分结合所测试对象的功能来进行功能正向拆解，如结合SOTIF预期功能安全，会分析功能的局限性，以及可能带来的危害性，充分结合被测对象进行构建的场景，把它归到有需可取类。

　　以上是场景工场的大概情况，后面会给大家分享场景数据的实例和体现的形式。比如说像数字孪生的场景，已构建了国内多个城市孪生的场景，和城市道路是一比一复现的。结合高精地图的高级别智能驾驶算法，可以结合这些场景进行测试。

　　还有EURO-NCAP这类结合ADAS的测试标准，测试标准里会有相应的假人、假车，为了实现这种场景，也结合3D目标物的特征进行数字化建模。再有事故发生碰撞的场景，以及结合系统极限性SOTIF的场景。

　　这两例测试场景分别是刮撞二轮车的CIDAS交通事故复现场景，以及决策系统局限、交互局限的SOTIF场景。

三、场景数据采集及预处理

　　前面所介绍的仿真场景数据里有一部分被称为自然驾驶（仿真测试）场景，这些自然驾驶场景是怎么获取的？这个涉及到我们的工具链和处理的过程。

　　介绍一下进行自然驾驶场景采集所需要的工具链，从采集的终端、车载的终端设备，从传感器到终端设备，再到中间数据的预处理、回传的机制，到场景数据的处理，比如说切片、清洗，最终才可以形成刚刚看到的这样一个场景片段的数据。

　　这一环节涉及到配备iTT PLUS等车载数据采集终端设备去采集不同传感器的数据。采回来的数据会有涉及到原始数据，这部分原始数据可以进行标注服务于算法的训练。采回来的还有传感器，比如说毫米波雷达、摄像头、激光雷达融合后目标的轨迹数据，这个轨迹数据就是我们构建自然驾驶仿真场景中动态场景的核心的部分。

　　通过数据采集，我们把采集回来的数据先回传到我们数据中心，在数据中心进行预处理，预再经过IAE自研的CRAB软件做场景数据的深加工，直到生成我们所需要在仿真引擎中能够直接运行的场景数据。

　　采集的数据还需要做各种处理，比如，数据可能会是非常长的，所以我们需要基于一些事件还有时间点去做一些切片工作，去对里面采回来的目标做一些清理。再如，在正常采集的过程中，可能会发生目标突变，它本来是前面一个ID，采集过程中变成另外一个，这种数据为了让它能够在仿真里面形成一个连续的轨迹，需要把它进行合并或者删除。完整工具链是服务于我们整个自然驾驶场景生产的过程，直至生成动态场景文件，能够直接通过仿真引擎来调用。

　　这是典型的自然驾驶场景的示例，大家可以看到左上角是真实采集的视频的还原，大的范围是我们仿真重构出来的自然驾驶场景。

　　以上是场景工场的介绍以及我们场景构建中的一个途径、如何生产自然驾驶场景。而生产这些场景数据之后用它来做什么，也是我们需要解决的问题。第一个方面是服务于仿真测试。对于我们来讲，仿真测试有一系列闭环，可以是MIL测试，可以是软件在环SIL测试，也可以是硬件在环HIL测试，还可以是针对整车级别的整车在环测试，这些都是归属仿真测试大的范畴内，我们的场景工场和海量场景库将服务于以上各个环节的仿真测试。

四、基于场景工场实现仿真测试

　　今天着重介绍一下基于场景工场和海量场景库来做SIL、针对软件算法的大规模测试。

　　在软件测试阶段目标是积累大量的虚拟里程来尽可能让我们的算法覆盖尽可能多的corner case，我们采用的手段就是海量场景仿真+自动化测试。这个海量仿真需要有一个平台来做支撑，我们使用的仿真平台需要能够整体管控我们仿真测试的全部节点，规划整个仿真测试用例的使用，并且能够具备仿真测试KPI的体系，从而在测试之后自动化地去输出评价的结果，这样才能快速的完成软件开发过程中的迭代。

　　IAE构建了这样一个“水母”云仿真平台，将场景工场和自动化仿真测试充分结合。

　　在“水母”云仿真平台上可以对我们算法、场景、数据和模型，如刚刚看到的场景模型进行管理，能够结合我们需求进行弹性调用。同时，我们的仿真计算节点并行布属在这样一个云平台上，能够通过自动化的系统调用我们的仿真节点和算力，给每个仿真节点弹性分配仿真测试的任务，在完成仿真测试之后，可以自动化地做数据的后处理，输出我们用于评价的KPI指标，并尽快把指标反馈到我们测试指定的团队去。整个这样的平台通过这样一个工作流的形式来结合起来，最终定义好需求。

　　这套仿真测评体系可以服务于两个方面：服务于自动驾驶研发测试、软件和系统开发验证的全过程；同时，不仅可以服务于研发，也可以服务于监管需要。

　　目前一些城市开始加速推进并进一步规范道路测试和示范应用许可的发放，并将仿真测试用于测试评估。我们有幸参与了某个城市的相关工作，基于“水母”云仿真平台，结合整个运营范围区域的特征去搭建数字孪生仿真场景，并制定评测的方法，给想要申请许可的企业提供这样的测试服务，政府根据测试评估达到的结果，让企业能够申请这个许可。

　　结合地区城市道路特征搭建场景，并且基于仿真平台来制定评测的方法，给出测评的指标，帮助企业尽快实现许可的申请和落地。

　　对于测试示范区管理单位，这也将起到监管和保障的作用。申请许可的时候如果只是单纯的道路测试能覆盖的极限场景毕竟是少量的，我们通过仿真的形式结合当地实际道路的特征，搭建极限场景来测评未来在这个区域运行的车辆的安全性。

五、基于场景工场生成训练数据集。

　　刚刚我们看到的是场景工场应用于仿真测试，我们的场景工场还可以服务于研发的更早期阶段，就是算法训练。在算法训练的过程中需要大量的数据集，采用传统的标注数据集，对于数据集的采集和累积是代价非常高的事，每个车型采集回来的数据只能服务于这个车型，我们在新车型开发迭代过程中，需要有大量新的数据来服务。

　　通过仿真场景工场的形式就可以更加便捷、更加快速，并且能够更加灵活地把我们建的场景数据生成数据集，去快速地服务于机器学习的过程。

　　对我们提出的挑战是，我们在仿真过程当中需要做更精细化的建模，以及需要通过专门的后处理调参的方式来优化我们渲染引擎输出的图像的质量，以期让这个图像更匹配真实道路采集的图像。

　　我们可以覆盖和提供的数据集包括这些类型，用于车道线检测，用于动态目标物检测，交通信号灯，交通标识识别类的数据集，同时借助渲染的能力可以提供语义分割所需要的数据集。这样的数据集具备四个大的特征：

　　1、数据集生产的链条完全自动化。在场景工场整个数据构成场景之后，想要输出图片的数据以及它所需要的标注信息，我们是可以完全采用自动化的链条实现。并不需要由人工进行任何的标注。我们整个仿真系统里的真值可以自动输出。

　　2、场景和模型可以高度灵活适配各个车型，甚至不同传感器的类型。能够通过模型的灵活性提高场景的灵活性和复用性。

　　3、构建的场景库里具备中国交通特色的场景，也包括如SOTIF场景等相关的模型，比如说装载树木的卡车之类特殊化的模型。在真实道路采集的时候，很难出现这样实例，在仿真里面可以更容易地构建这样的情境。

　　4、可以覆盖不同的天气、光照以及遮挡的条件，让整个数据集更加多元、更加丰富，具有更高的覆盖度。

　　以上就是我今天介绍的内容，谢谢大家！

　　（注：本文根据现场速记整理，未经演讲嘉宾审阅）