日前,廣州南沙自動駕駛明星企業小馬智行正式發布其在物理AI領域的最新技術成果——PonyWorld世界模型2.0。
【資料圖】
這是自動駕駛核心訓練體系的一次重大升級。與1.0相比,2.0最本質的變化在于世界模型具備了自我診斷與定向進化的能力:AI不再依賴工程師花大量精力判斷模型哪里有問題、需要采集什么樣的數據來迭代,而是能夠自主診斷自身短板,自我定向進化,并主動“指導”人類團隊的研發和數據采集工作。這一變化標志著小馬智行的自動駕駛技術進入全新的研發訓練范式。
目前,世界模型2.0已經應用在小馬智行L4級無人駕駛車隊和研發體系中,來確保車輛不斷提升安全性、舒適性和通行效率,從而帶動更快的擴張速度和商業變現能力。當無人駕駛車隊規模從百輛躍升至千輛乃至萬輛,要確保安全性等各項指標整體上穩步提升,自動駕駛技術亦需要不斷迭代進化,世界模型2.0是目前技術的最優解。PonyWorld不局限于優化自動駕駛場景,也具有探索其他物理AI場景和應用的可能。
作為物理AI的第一個成熟商業化落地的應用,L4級自動駕駛和Robotaxi對安全性的要求極高,只有具備遠超人類的安全性,才能大規模上路運營并被公眾接受。正因如此,小馬智行認為自動駕駛模型的訓練目標不應是“像人開得一樣好”,而是“比人開得好”,這意味著一種范式的變化——從模仿學習到強化學習。
小馬智行從2020年起,通過數年時間逐步打造并完善了一套貫穿云端與車端的完整體系,讓AI通過強化學習增強模型開車能力,使AI可以在“虛擬駕校”中反復開車、訓練車端模型的駕駛能力,這也就是“世界模型”。世界模型不是簡單生成虛擬數據的仿真環境,而是一套完整的強化學習訓練系統以及開發范式,幫助AI提升駕駛中最重要的博弈交互能力。
只有世界模型的精度足夠高,AI司機才可以在這個環境中取得正向訓練結果,否則AI模型的駕駛能力可能越學越錯,甚至還不如引入海量人類駕駛數據的模仿學習。通過世界模型,小馬智行提升自動駕駛能力的過程,本質上也是提升世界模型精度的過程。
而隨著AI司機的能力尤其是安全性已經遠超人類,小馬智行世界模型的精度也達到了很高的水平,如何進一步高效率提升世界模型精度的迭代效率便成為核心目標。小馬智行為此打造了一套更進化的世界模型系統——由AI驅動,可以主動找到自己精度不足的場景,主動尋求人類幫助去提升——也就是PonyWorld世界模型2.0。
PonyWorld世界模型2.0
三大核心能力突破,精度持續提升
PonyWorld世界模型2.0可根據車端模型的薄弱環節,在世界模型中自動生成針對性訓練場景,大幅減少無效訓練數據的存儲與計算開銷,顯著提升每一輪迭代的效率和效果。
小馬智行強調,世界模型精度的持續提升依賴于一個自我強化的精度飛輪:大規模L4無人車隊商業運營→產生真實世界高價值數據→世界模型提升精度→車端模型持續增強 →支撐更大規模L4部署→產生更多高精度數據。
當AI駕駛能力遠超人類司機水平后,普通人類駕駛數據對世界模型精度的提升價值趨近于零。只有L4級全無人車隊在真實交通環境中獨立運營所產生的數據——包含AI與其他交通參與者之間獨特的交互模式——才能持續推動世界模型進化。小馬智行已積累千萬公里級、多城市復雜場景的純無人駕駛數據,覆蓋城區、高速、園區、停車場等多元場景,形成了難以復制的結構性優勢。
自動駕駛研發范式變革:
從“人類驅動”走向“AI驅動”
從更廣義的視角看,小馬智行此次發布的PonyWorld世界模型2.0,是自動駕駛研發范式的一次深層轉變。
在行業發展早期階段,AI能力弱于人或者與人接近,所以研發高度依賴人類工程師的經驗——由人來設計規則、標注數據、判斷訓練重點。這種由人類驅動的研發模式,效率天花板受限于團隊規模和工程師的認知帶寬。
PonyWorld世界模型2.0所展現的方向是:當AI在一項任務中的水平遠超人類水平后,人類不一定能很好地評估其能力和繼續幫助AI進化,AI系統開始接管自身進化過程中越來越多的環節,甚至整個公司的研發環節(包含數據收集、模型訓練、仿真效果評估等)都主要由AI驅動。
人類工程師的角色從“駕校教練”逐漸轉變為“定向數據采集員”,成為AI大腦自我進化的物理執行者。這讓研發節奏不再依賴人類經驗判斷,而是由AI系統根據自身進化需求自動生成,也顯著地提高了世界模型的持續迭代效率。這為后續物理AI的更多應用場景提供了進化能力的基礎。
(圖片來源:廣州南沙)
X 關閉
X 關閉