作者 | Jessie
出品 | 焉知
本文接續(xù)前文,首先進(jìn)一步廣泛調(diào)查自動(dòng)駕駛端到端開(kāi)發(fā)方法面臨的關(guān)鍵挑戰(zhàn)。同時(shí),我們總結(jié)了主要方面并提供了深入的分析,包括普遍性、語(yǔ)言引導(dǎo)學(xué)習(xí)、因果混亂等主題。
涵蓋了如何采用大型基礎(chǔ)模型和數(shù)據(jù)引擎的更廣泛影響。我們相信,這一研究領(lǐng)域及其提供的大規(guī)模高質(zhì)量數(shù)據(jù)可以顯著推進(jìn)該領(lǐng)域的發(fā)展。
5、可解釋性
可解釋性有助于人類(lèi)理解端到端模型的決策過(guò)程、感知故障和輸出的可靠性,因此,可解釋性在自動(dòng)駕駛中起著至關(guān)重要的作用。它使工程師和研究人員能夠更好地測(cè)試、調(diào)試和改進(jìn)系統(tǒng),從社會(huì)角度提供性能保證,增加用戶(hù)信任,促進(jìn)公眾接受。然而,實(shí)現(xiàn)端到端自動(dòng)駕駛模型(通常被稱(chēng)為黑匣子)的可解釋性具有挑戰(zhàn)性。
給定訓(xùn)練有素的自動(dòng)駕駛模型,一些事后 X-AI(可解釋的人工智能)技術(shù)可以應(yīng)用于學(xué)習(xí)模型以獲得顯著圖。顯著圖突出顯示模型主要依賴(lài)于視覺(jué)輸入進(jìn)行規(guī)劃的特定區(qū)域。然而,這種方法提供的信息有限,其有效性和有效性難以評(píng)估。相反,我們專(zhuān)注于直接增強(qiáng)模型設(shè)計(jì)可解釋性的自動(dòng)駕駛框架。我們將在下面的圖6中介紹每個(gè)類(lèi)別的可解釋性。
圖 6:不同形式的可解釋性總結(jié)。
5.1 注意力可視化:
注意力機(jī)制通常提供一定程度的可解釋性。可以應(yīng)用學(xué)習(xí)的注意力權(quán)重來(lái)聚合中間特征圖中的重要特征。學(xué)習(xí)注意力權(quán)重以自適應(yīng)地組合來(lái)自不同對(duì)象區(qū)域或固定網(wǎng)格的 ROI 池化特征。NEAT迭代聚合特征來(lái)預(yù)測(cè)注意力權(quán)重并細(xì)化聚合特征。最近,Transformer注意力機(jī)制在許多自動(dòng)駕駛模型中得到了普遍應(yīng)用。采用Transformer注意力塊來(lái)更好地聚合來(lái)自傳感器輸入的信息,注意力圖顯示輸入中用于駕駛決策的重要區(qū)域。在 PlanT 中,注意力層處理來(lái)自不同車(chē)輛的特征,為相應(yīng)的動(dòng)作提供可解釋的見(jiàn)解。與事后顯著性方法類(lèi)似,雖然學(xué)習(xí)到的注意力圖可以提供一些關(guān)于模型焦點(diǎn)的直接線索,但它們的忠實(shí)度和實(shí)用性仍然有限。
5.2 可解釋的任務(wù):
在深度駕駛模型中,輸入最初被編碼為中間表示以供后續(xù)預(yù)測(cè)。因此,許多基于IL的工作通過(guò)將潛在特征表示解碼為其他有意義的信息來(lái)引入可解釋性,例如語(yǔ)義分割,對(duì)象檢測(cè),可供性預(yù)測(cè),運(yùn)動(dòng)預(yù)測(cè)和注視圖估計(jì)。盡管這些方法提供了可解釋的信息,但大多數(shù)僅將這些預(yù)測(cè)視為輔助任務(wù),對(duì)最終的駕駛決策沒(méi)有明確的影響。一些通過(guò)將這些輸出用于最終駕駛動(dòng)作,但它們僅用于執(zhí)行額外的安全檢查。
5.3 成本學(xué)習(xí):
基于成本學(xué)習(xí)的方法與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)有一些相似之處,因此表現(xiàn)出一定程度的可解釋性。NMP和 DSDNet 結(jié)合檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)結(jié)果構(gòu)建成本量。P3 將預(yù)測(cè)的語(yǔ)義占用圖與舒適度和交通規(guī)則約束相結(jié)合來(lái)構(gòu)建成本函數(shù)。采用各種表示形式對(duì)采樣軌跡進(jìn)行評(píng)分,例如概率占用和時(shí)間運(yùn)動(dòng)場(chǎng)、緊急占用和自由空間。安全性、舒適性、交通規(guī)則以及基于感知和預(yù)測(cè)輸出的路線等因素都被明確包含在內(nèi)來(lái)構(gòu)建成本量。
5.4 語(yǔ)言可解釋性:
可解釋性的一個(gè)方面是幫助人類(lèi)理解系統(tǒng),因此自然語(yǔ)言是實(shí)現(xiàn)此目的的合適選擇。生成 BDD-X 數(shù)據(jù)集,將駕駛視頻與描述和解釋配對(duì)。他們還提出了一種帶有車(chē)輛控制器和解釋生成器的自動(dòng)駕駛模型,并強(qiáng)制兩個(gè)模塊的空間注意力權(quán)重保持一致。BEEF提出了一個(gè)解釋模塊,融合預(yù)測(cè)軌跡和中間感知特征來(lái)預(yù)測(cè)決策的理由。也有引入了一個(gè)名為 BBD-OIA 的數(shù)據(jù)集,其中包括駕駛決策的注釋和高密度交通場(chǎng)景的解釋。最近,ADAPT 提出了一種基于 Transformer 的網(wǎng)絡(luò),根據(jù) BBD-X 數(shù)據(jù)集中的駕駛視頻來(lái)聯(lián)合估計(jì)動(dòng)作、敘述和推理。鑒于多模態(tài)和基礎(chǔ)模型的最新進(jìn)展,我們相信,進(jìn)一步將語(yǔ)言與自動(dòng)駕駛模型相結(jié)合有望實(shí)現(xiàn)卓越的可解釋性和性能。
5.5 不確定性建模:
不確定性是解釋模型輸出可靠性的定量方法。由于規(guī)劃結(jié)果并不總是準(zhǔn)確或最佳,因此設(shè)計(jì)者和用戶(hù)必須識(shí)別不確定的情況以進(jìn)行改進(jìn)或必要的干預(yù)。對(duì)于深度學(xué)習(xí)來(lái)說(shuō),有兩種類(lèi)型的不確定性:任意不確定性和認(rèn)知不確定性。任意不確定性是任務(wù)固有的,而認(rèn)知不確定性是由于有限的數(shù)據(jù)或建模能力造成的。對(duì)端到端自動(dòng)駕駛系統(tǒng)的不確定性進(jìn)行了定量評(píng)估,可以有效利用模型中的某些隨機(jī)正則化來(lái)執(zhí)行多個(gè)前向傳遞作為樣本來(lái)測(cè)量不確定性。然而,多次前向傳遞的要求在實(shí)時(shí)場(chǎng)景中是不可行的。RIP建議通過(guò)專(zhuān)家似然模型集合來(lái)捕獲認(rèn)知不確定性,并匯總結(jié)果以執(zhí)行安全規(guī)劃。關(guān)于建模任意不確定性的方法中明確預(yù)測(cè)了駕駛行為/規(guī)劃和不確定性(通常用方差表示)。根據(jù)預(yù)測(cè)的不確定性,從多個(gè)輸出中選擇不確定性最低的輸出,生成建議行動(dòng)的加權(quán)組合。VTGNet不直接使用不確定性進(jìn)行規(guī)劃,但證明對(duì)數(shù)據(jù)不確定性進(jìn)行建??梢蕴岣呖傮w性能。目前,預(yù)測(cè)的不確定性主要與硬編碼規(guī)則結(jié)合使用。有必要探索更好的方法來(lái)建模和利用自動(dòng)駕駛的不確定性。
5.6 因果混亂
駕駛是一項(xiàng)表現(xiàn)出時(shí)間平滑性的任務(wù),這使得過(guò)去的動(dòng)作可以可靠地預(yù)測(cè)下一個(gè)動(dòng)作。然而,使用多個(gè)幀訓(xùn)練的方法可能會(huì)過(guò)度依賴(lài)此快捷方式,并在部署過(guò)程中遭受災(zāi)難性失敗。這個(gè)問(wèn)題在一些作品中被稱(chēng)為模仿問(wèn)題,是因果混亂的表現(xiàn),即訪問(wèn)更多信息會(huì)導(dǎo)致性能更差。LeCun 等人最早報(bào)道了這種效應(yīng),他們使用單個(gè)輸入幀進(jìn)行轉(zhuǎn)向預(yù)測(cè),以避免這種推斷。盡管很簡(jiǎn)單,但這仍然是當(dāng)前最先進(jìn)的模仿學(xué)習(xí)方法中的首選解決方案。不幸的是,使用單幀的缺點(diǎn)是無(wú)法提取周?chē)\(yùn)動(dòng)體的速度。因果混亂的另一個(gè)來(lái)源是速度測(cè)量,如下圖 7 顯示了汽車(chē)等紅燈的示例。
圖 7:模仿學(xué)習(xí)中的因果混亂
汽車(chē)的速度與制動(dòng)動(dòng)作高度相關(guān),因?yàn)槠?chē)正在等待許多速度為零且動(dòng)作為制動(dòng)的幀。僅在交通信號(hào)燈從紅色變?yōu)榫G色的單幀處,這種相關(guān)性才會(huì)被打破。實(shí)際上,汽車(chē)當(dāng)前的動(dòng)作與低維虛假特征(例如速度或汽車(chē)過(guò)去的軌跡)密切相關(guān)。端到端模型可能會(huì)抓住它們,導(dǎo)致因果混亂。
使用多個(gè)框架時(shí),有多種方法可以解決因果混淆問(wèn)題。ChauffeurNet通過(guò)在 BEV 中使用中間視覺(jué)抽象來(lái)解決這個(gè)問(wèn)題。一種抽象是自我代理的過(guò)去,而其他抽象不包含此信息。在訓(xùn)練期間,自我代理過(guò)去的動(dòng)作以 50% 的概率被丟棄。然而,為了使這種方法有效地工作,需要顯式的抽象。有研究者試圖通過(guò)訓(xùn)練預(yù)測(cè)自我代理過(guò)去行為的對(duì)抗模型,從學(xué)習(xí)到的中間瓶頸表示中消除虛假的時(shí)間相關(guān)性。這導(dǎo)致了最小-最大優(yōu)化問(wèn)題,其中模仿?lián)p失最小化,而對(duì)抗性損失最大化。直觀地說(shuō),這訓(xùn)練網(wǎng)絡(luò)從中間層消除自己的過(guò)去。這種方法在 MuJoCo 中效果很好,但無(wú)法擴(kuò)展到復(fù)雜的基于視覺(jué)的駕駛。第一個(gè)致力于驅(qū)動(dòng)復(fù)雜性的是建議增加訓(xùn)練損失中關(guān)鍵幀的權(quán)重。關(guān)鍵幀是發(fā)生決策更改的幀(因此無(wú)法通過(guò)推斷過(guò)去來(lái)預(yù)測(cè))。為了找到關(guān)鍵幀,他們訓(xùn)練了一種策略,僅以自我代理的過(guò)去作為輸入來(lái)預(yù)測(cè)動(dòng)作。PrimeNet通過(guò)使用集成來(lái)提高與關(guān)鍵幀相比的性能,其中單幀模型的預(yù)測(cè)作為多幀模型的附加輸入給出。后又有用動(dòng)作殘差而不是動(dòng)作來(lái)監(jiān)督多幀網(wǎng)絡(luò)。OREO將圖像映射到表示語(yǔ)義對(duì)象的離散代碼,并將隨機(jī)丟棄掩碼應(yīng)用于共享相同離散代碼的單元。這在 Confounded Atari 中很有幫助,因?yàn)橹暗牟僮鲿?huì)呈現(xiàn)在屏幕上。在自動(dòng)駕駛中,可以通過(guò)僅使用激光雷達(dá)歷史(具有單幀圖像)并將點(diǎn)云重新對(duì)齊到同一坐標(biāo)系來(lái)避免因果混亂的問(wèn)題。這會(huì)刪除有關(guān)自車(chē)運(yùn)動(dòng)的信息,同時(shí)保留有關(guān)其他車(chē)輛過(guò)去狀態(tài)的信息。
近二十年來(lái),模仿學(xué)習(xí)中的因果混亂一直是一個(gè)持續(xù)的挑戰(zhàn)。近年來(lái),人們投入了大量精力來(lái)研究這個(gè)問(wèn)題。然而,這些研究使用了經(jīng)過(guò)修改的環(huán)境,以簡(jiǎn)化因果混淆問(wèn)題的研究。在最先進(jìn)的設(shè)置中顯示性能改進(jìn)仍然是一個(gè)懸而未決的問(wèn)題。
6、魯棒性評(píng)測(cè)
6.1 長(zhǎng)尾分布
長(zhǎng)尾分布問(wèn)題的一個(gè)重要方面是數(shù)據(jù)集不平衡,其中少數(shù)類(lèi)別占大多數(shù),而許多其他類(lèi)別只有有限數(shù)量的樣本,如下圖8(a)所示。
圖 8:穩(wěn)健性方面的挑戰(zhàn)
與數(shù)據(jù)集分布差異相關(guān)的三個(gè)主要泛化問(wèn)題,即長(zhǎng)尾和正常情況、專(zhuān)家演示和測(cè)試場(chǎng)景以及位置、天氣等領(lǐng)域的轉(zhuǎn)移。這對(duì)模型泛化到各種環(huán)境提出了巨大的挑戰(zhàn)。有多種方法通過(guò)數(shù)據(jù)處理來(lái)解決這個(gè)問(wèn)題,包括過(guò)采樣,欠采樣和數(shù)據(jù)增強(qiáng)。此外,基于加權(quán)的方法也常用于緩解數(shù)據(jù)集不平衡問(wèn)題。研究通過(guò)對(duì)抗性攻擊以數(shù)據(jù)驅(qū)動(dòng)的方式生成安全關(guān)鍵場(chǎng)景。有用貝葉斯優(yōu)化被用來(lái)生成對(duì)抗場(chǎng)景。學(xué)習(xí)碰撞將駕駛場(chǎng)景表示為構(gòu)建塊上的聯(lián)合分布,并應(yīng)用策略梯度 RL 方法來(lái)生成風(fēng)險(xiǎn)場(chǎng)景。AdvSim修改代理的軌跡,同時(shí)仍然堅(jiān)持物理合理性,以導(dǎo)致失敗并相應(yīng)地更新 LiDAR。最近的工作提出了一種通過(guò)可微運(yùn)動(dòng)學(xué)模型使用梯度來(lái)解決安全關(guān)鍵擾動(dòng)的優(yōu)化算法。
一般來(lái)說(shuō),有效生成涵蓋長(zhǎng)尾分布的現(xiàn)實(shí)安全關(guān)鍵場(chǎng)景仍然是一個(gè)重大挑戰(zhàn)。雖然許多工作關(guān)注模擬器中的對(duì)抗場(chǎng)景,但更好地利用現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行關(guān)鍵場(chǎng)景挖掘和對(duì)模擬的潛在適應(yīng)也至關(guān)重要。此外,系統(tǒng)、嚴(yán)格、全面、現(xiàn)實(shí)的測(cè)試框架對(duì)于評(píng)估這些長(zhǎng)尾分布式安全關(guān)鍵場(chǎng)景下的端到端自動(dòng)駕駛方法至關(guān)重要。
6.2 協(xié)變量平移
行為克隆的一個(gè)重要挑戰(zhàn)是協(xié)變量轉(zhuǎn)變。專(zhuān)家策略的狀態(tài)分布和經(jīng)過(guò)訓(xùn)練的代理策略的狀態(tài)分布不同,當(dāng)經(jīng)過(guò)訓(xùn)練的代理部署在看不見(jiàn)的測(cè)試環(huán)境中或當(dāng)其他代理的反應(yīng)與訓(xùn)練時(shí)間不同時(shí),會(huì)導(dǎo)致復(fù)合錯(cuò)誤。這可能會(huì)導(dǎo)致受過(guò)訓(xùn)練的代理處于專(zhuān)家訓(xùn)練分布之外的狀態(tài),從而導(dǎo)致嚴(yán)重的失敗。
圖 8 (b) 給出了一個(gè)示例。DAgger(數(shù)據(jù)集聚合)是克服這個(gè)問(wèn)題的常用方法。DAgger 是一個(gè)迭代訓(xùn)練過(guò)程,在每次迭代中推出當(dāng)前訓(xùn)練的策略來(lái)收集新數(shù)據(jù),并使用專(zhuān)家來(lái)標(biāo)記訪問(wèn)過(guò)的狀態(tài)。通過(guò)添加如何從不完美的策略可能訪問(wèn)的次優(yōu)狀態(tài)中恢復(fù)的示例,豐富了訓(xùn)練數(shù)據(jù)集。然后在增強(qiáng)數(shù)據(jù)集上訓(xùn)練該策略,并重復(fù)該過(guò)程。然而,DAgger 的一個(gè)缺點(diǎn)是需要一位可用的專(zhuān)家在線查詢(xún)。
對(duì)于端到端自動(dòng)駕駛,通過(guò)結(jié)合 DAgger 和基于 MPC 的專(zhuān)家。為了減少不斷查詢(xún)專(zhuān)家的成本并提高安全性,SafeDAgger 通過(guò)學(xué)習(xí)估計(jì)當(dāng)前策略與專(zhuān)家策略之間偏差的安全策略來(lái)擴(kuò)展原始 DAgger 算法。只有當(dāng)偏差較大時(shí)才會(huì)詢(xún)問(wèn)專(zhuān)家,在那些危險(xiǎn)的情況下專(zhuān)家就會(huì)接手。MetaDAgger將元學(xué)習(xí)與 DAgger 結(jié)合起來(lái),聚合來(lái)自多個(gè)環(huán)境的數(shù)據(jù)。LBC采用DAgger對(duì)數(shù)據(jù)進(jìn)行重采樣,使得損失較高的樣本被更頻繁地采樣。在 DARB中,對(duì) DAgger 進(jìn)行了一些修改以適應(yīng)駕駛?cè)蝿?wù)。為了更好地利用故障或安全相關(guān)樣本,它提出了多種機(jī)制,包括基于任務(wù)、基于策略以及基于策略和專(zhuān)家的機(jī)制,來(lái)對(duì)此類(lèi)關(guān)鍵狀態(tài)進(jìn)行采樣。它還使用固定大小的重播緩沖區(qū)進(jìn)行迭代訓(xùn)練,以增加多樣性并減少數(shù)據(jù)集偏差。
6.3 域適配
在端到端自動(dòng)駕駛的背景下,長(zhǎng)尾分布問(wèn)題尤為嚴(yán)重。數(shù)據(jù)集不平衡在駕駛數(shù)據(jù)集中尤其成問(wèn)題,因?yàn)榇蠖鄶?shù)典型的駕駛都是重復(fù)且無(wú)趣的,例如,在許多幀中沿著車(chē)道行駛。相反,有趣的安全關(guān)鍵場(chǎng)景很少發(fā)生,但本質(zhì)上是多種多樣的。為了解決這個(gè)問(wèn)題,一些工作依賴(lài)于手工制作的場(chǎng)景來(lái)在模擬中生成更加多樣化和有趣的數(shù)據(jù)。LBC 利用特權(quán)代理來(lái)創(chuàng)建以不同導(dǎo)航命令為條件的假想監(jiān)督。LAV 認(rèn)為,雖然用于數(shù)據(jù)收集的自車(chē)很少有容易發(fā)生事故的情況,但其他智能體可能經(jīng)歷過(guò)一些安全關(guān)鍵或有趣的情況。因此,它包括其他智能體的軌跡進(jìn)行訓(xùn)練,以促進(jìn)數(shù)據(jù)多樣性。
領(lǐng)域適配(DA)是一種遷移學(xué)習(xí),其中目標(biāo)任務(wù)與源任務(wù)相同,但領(lǐng)域不同。在這里,我們討論源域有可用標(biāo)簽而目標(biāo)域沒(méi)有標(biāo)簽或可用標(biāo)簽數(shù)量有限的場(chǎng)景。域隨機(jī)化也是一種簡(jiǎn)單有效的技術(shù),用于在模擬器中進(jìn)行 RL 策略學(xué)習(xí)的模擬到真實(shí)的適應(yīng),并進(jìn)一步適用于端到端自動(dòng)駕駛。它是通過(guò)隨機(jī)化模擬器的渲染和物理設(shè)置來(lái)實(shí)現(xiàn)的,以覆蓋訓(xùn)練過(guò)程中現(xiàn)實(shí)世界的可變性,并獲得具有良好泛化能力的訓(xùn)練策略。
如圖8(c)所示,自動(dòng)駕駛?cè)蝿?wù)的領(lǐng)域適應(yīng)包含幾種情況。這里需要注意的是,上述情況經(jīng)常重疊。
① 模擬到真實(shí):用于訓(xùn)練的模擬器與用于部署的現(xiàn)實(shí)世界之間存在巨大差距。
② 地理位置到地理位置:不同的地理位置具有不同的環(huán)境外觀。
③ 天氣變化:由雨、霧和雪等天氣條件引起的傳感器輸入變化。
④ 晝夜:傳感器輸入的照度變化。
⑤ 傳感器與傳感器之間:傳感器特性可能存在差異,例如分辨率和相對(duì)位置。
VISRI等人使用翻譯網(wǎng)絡(luò)將模擬圖像映射到真實(shí)圖像,并使用分割圖作為中間表示。強(qiáng)化學(xué)習(xí)代理根據(jù)翻譯后的模擬圖像進(jìn)行訓(xùn)練。通過(guò)圖像翻譯器和鑒別器實(shí)現(xiàn)域不變特征學(xué)習(xí),將兩個(gè)域的圖像映射到公共潛在空間。類(lèi)似地,LUSR 采用循環(huán)一致 VAE 將圖像投影到由特定領(lǐng)域部分和通用領(lǐng)域部分組成的潛在表示中,并在此基礎(chǔ)上學(xué)習(xí)策略。UAIL 通過(guò)將不同天氣條件下的圖像分解為可區(qū)分的風(fēng)格空間和與 GAN 共享的內(nèi)容空間來(lái)實(shí)現(xiàn)天氣到天氣的適應(yīng)。在SESR 中,從語(yǔ)義分割掩模中提取類(lèi)解纏結(jié)編碼,以減少模擬器中的圖像與現(xiàn)實(shí)世界之間的域差距。
目前,通過(guò)源目標(biāo)圖像映射或域不變特征學(xué)習(xí)進(jìn)行模擬到真實(shí)的適應(yīng)是端到端自動(dòng)駕駛的焦點(diǎn)。其他領(lǐng)域適應(yīng)案例,例如地理到地理或天氣到天氣的適應(yīng),是通過(guò)訓(xùn)練數(shù)據(jù)集的多樣性和規(guī)模來(lái)處理的。由于激光雷達(dá)已成為一種流行的駕駛輸入方式,鑒于當(dāng)前的工作主要集中在基于圖像的自適應(yīng)上,因此還必須設(shè)計(jì)適合激光雷達(dá)特性的特定自適應(yīng)技術(shù)。此外,應(yīng)注意交通人員的行為和模擬器與現(xiàn)實(shí)世界之間的交通規(guī)則差距,因?yàn)楫?dāng)前的方法僅關(guān)注圖像中的視覺(jué)差距。通過(guò) NeRF 等技術(shù)將現(xiàn)實(shí)世界的數(shù)據(jù)納入模擬則是另一個(gè)有前途的方向。
7、未來(lái)趨勢(shì)
考慮到所討論的挑戰(zhàn)和機(jī)遇,本文列出了未來(lái)研究的一些關(guān)鍵方向,這些方向可能會(huì)在該領(lǐng)域產(chǎn)生更廣泛的影響。
7.1 零樣本和少樣本學(xué)習(xí)
自動(dòng)駕駛模型最終不可避免地會(huì)遇到超出訓(xùn)練數(shù)據(jù)分布范圍的現(xiàn)實(shí)場(chǎng)景。這就提出了一個(gè)問(wèn)題:我們是否可以成功地將模型適應(yīng)一個(gè)看不見(jiàn)的目標(biāo)領(lǐng)域,其中可用的標(biāo)記數(shù)據(jù)是有限的甚至沒(méi)有。將這項(xiàng)任務(wù)形式化為端到端駕駛領(lǐng)域并結(jié)合零樣本/少樣本學(xué)習(xí)文獻(xiàn)中的技術(shù)是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵步驟。
7.2 模塊化端到端規(guī)劃
模塊化端到端規(guī)劃框架優(yōu)化多個(gè)模塊,同時(shí)優(yōu)先考慮下游規(guī)劃任務(wù),其具有可解釋性的優(yōu)勢(shì),某些行業(yè)解決方案(Tesla、Wayve 等)也涉及類(lèi)似的想法。在設(shè)計(jì)這些可微感知模塊時(shí),會(huì)出現(xiàn)一些關(guān)于損失函數(shù)選擇的問(wèn)題,例如用于對(duì)象檢測(cè)的 3D 邊界框的必要性、占用表示是否足以檢測(cè)一般障礙物,或者選擇 BEV 分割相對(duì)于車(chē)道的優(yōu)勢(shì)靜態(tài)場(chǎng)景感知的拓?fù)洹?/span>
7.3 數(shù)據(jù)引擎
大規(guī)模、高質(zhì)量數(shù)據(jù)對(duì)于自動(dòng)駕駛的重要性怎么強(qiáng)調(diào)都不為過(guò)。建立具有自動(dòng)標(biāo)記管道的數(shù)據(jù)引擎可以極大地促進(jìn)數(shù)據(jù)和模型的迭代開(kāi)發(fā)。自動(dòng)駕駛的數(shù)據(jù)引擎,特別是模塊化的端到端規(guī)劃系統(tǒng),需要借助大型感知模型,以自動(dòng)的方式簡(jiǎn)化高質(zhì)量感知標(biāo)簽的標(biāo)注過(guò)程。它還應(yīng)該支持挖掘困難/極端情況、場(chǎng)景生成和編輯,以促進(jìn)數(shù)據(jù)驅(qū)動(dòng)評(píng)估。促進(jìn)數(shù)據(jù)的多樣性和模型的泛化能力。數(shù)據(jù)引擎將使自動(dòng)駕駛模型能夠不斷改進(jìn)。
7.4 基礎(chǔ)模型
語(yǔ)言和視覺(jué)大型基礎(chǔ)模型的最新進(jìn)展對(duì)社會(huì)的各個(gè)方面產(chǎn)生了重大影響。大規(guī)模數(shù)據(jù)和模型能力的利用釋放了人工智能在高級(jí)推理任務(wù)中的巨大潛力。微調(diào)或即時(shí)學(xué)習(xí)的范式、自監(jiān)督重建或?qū)Ρ葘?duì)形式的優(yōu)化以及數(shù)據(jù)流水線等都適用于端到端端自動(dòng)駕駛領(lǐng)域。然而,直接語(yǔ)言模型注入自動(dòng)駕駛代理似乎在兩個(gè)目標(biāo)的不同目標(biāo)之間不一致。自主代理的輸出通常需要穩(wěn)定且準(zhǔn)確的測(cè)量,而語(yǔ)言模型中的生成序列輸出旨在表現(xiàn)得像人類(lèi),而不管其準(zhǔn)確性如何。開(kāi)發(fā)大型自動(dòng)駕駛模型的一個(gè)可行解決方案是訓(xùn)練一個(gè)視頻預(yù)測(cè)器,該視頻預(yù)測(cè)器可以以 2D 或 3D 方式對(duì)環(huán)境進(jìn)行長(zhǎng)期預(yù)測(cè)。為了在規(guī)劃等下游任務(wù)上表現(xiàn)良好,大型模型的優(yōu)化目標(biāo)需要足夠復(fù)雜,超出幀級(jí)感知。
7.5 車(chē)對(duì)萬(wàn)物(V2X)
遮擋和超出感知范圍的障礙物是現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)的兩個(gè)基本挑戰(zhàn),這甚至?xí)o人類(lèi)駕駛員在需要對(duì)交叉代理做出快速反應(yīng)時(shí)帶來(lái)很大困難。車(chē)對(duì)車(chē)(V2V)、車(chē)對(duì)基礎(chǔ)設(shè)施(V2I)和車(chē)對(duì)一切(V2X)系統(tǒng)為解決這個(gè)難題提供了有前景的解決方案,來(lái)自不同觀點(diǎn)的信息補(bǔ)充了自車(chē)盲點(diǎn)。這些系統(tǒng)見(jiàn)證了多智能體場(chǎng)景信息傳輸機(jī)制的進(jìn)步,可以提供一種解決方案來(lái)實(shí)現(xiàn)自動(dòng)駕駛車(chē)輛之間的高級(jí)決策智能。
總結(jié)
本文對(duì)端到端自動(dòng)駕駛系統(tǒng)的研發(fā)現(xiàn)狀進(jìn)行了全面分析,涵蓋了端到端自動(dòng)駕駛的動(dòng)機(jī)、路線圖、方法論、挑戰(zhàn)和未來(lái)趨勢(shì)。重點(diǎn)介紹了幾個(gè)關(guān)鍵挑戰(zhàn),包括多模態(tài)、可解釋性、因果混亂、穩(wěn)健性和世界模型等。此外,我們還討論了基礎(chǔ)模型和視覺(jué)預(yù)訓(xùn)練方面的當(dāng)前進(jìn)展,以及如何將這些技術(shù)整合到端到端駕駛框架中。端到端自動(dòng)駕駛面臨著巨大的機(jī)遇和挑戰(zhàn),基于端到端研發(fā)現(xiàn)狀的基本方法,通過(guò)擁抱快速發(fā)展的基礎(chǔ)模型和數(shù)據(jù)引擎的努力,并強(qiáng)調(diào)了廣泛的關(guān)鍵挑戰(zhàn)提出有希望的解決方案,最終針對(duì)智能汽車(chē)打造多面智能體是我們這代人可以完全預(yù)見(jiàn)的。


