在昨日舉行的NVIDIA GTC 2025大會上,理想汽車自動駕駛技術研發負責人賈鵬正式發布了公司的下一代自動駕駛架構——MindVLA。這一架構融合了空間智能、語言智能和行為智能,旨在將汽車從單純的運輸工具轉變為能夠理解、思考并適應環境的智能體。 MindVLA是理想汽車自研的視覺-語言-行為融合模型(VLA),它成功整合了3D空間理解、邏輯推理與行為生成能力,為自動駕駛技術注入了新的活力。據理想汽車自動駕駛技術研發負責人賈鵬介紹,MindVLA不僅具備強大的感知和決策能力,還能夠像人類一樣理解并執行自然語言指令,實現更加智能化的駕駛體驗。 在發布會上,賈鵬詳細闡述了MindVLA的技術亮點。該架構采用三維空間編碼器與語言模型融合設計,通過自研的混合專家(MoE)模型基座實現多任務處理。其3D高斯表征建模技術提升了自動駕駛場景建模效率,訓練速度較傳統方法加快7倍。同時,MindVLA還利用擴散模型(Diffusion)生成駕駛軌跡,結合常微分方程采樣器實現高質量軌跡的快速生成。 除了技術上的創新,MindVLA還為用戶帶來了前所未有的智能駕駛體驗。它“聽得懂”用戶的語音指令,能夠實時調整車輛路線和行為;它“看得見”非標準化交通標志和復雜環境,確保駕駛安全;它“找得到”目的地和車位,即使在沒有導航信息的情況下也能自主漫游尋找。 為了驗證MindVLA的實際效果,理想汽車還分享了實車自動駕駛實測視頻。視頻中,搭載MindVLA架構的理想汽車能夠準確理解并執行駕駛員的語音指令,如尋找星巴克門店、調整行駛速度、自動泊車等。這些場景充分展示了MindVLA如何讓車輛像人類一樣理解物理世界,實現更加智能化的駕駛。 據悉,MindVLA已完成工程化適配,計劃于2026年搭載于量產車型中。這一消息無疑讓廣大消費者對未來智能駕駛充滿了期待。同時,理想汽車還表示,該架構未來或拓展至室內環境等非駕駛場景,探索物理與數字世界結合的通用人工智能路徑。 賈鵬在發布會上表示:“MindVLA是理想汽車在智能駕駛領域的重要突破,它將為汽車賦予類似人類的認知和適應能力,將其轉變為能夠思考的智能體。我們相信,MindVLA的發布將引領智能駕駛新紀元,為用戶帶來更加智能、便捷的出行體驗! 核心特性 3D高斯建模:通過多尺度幾何表達與自監督學習,實現復雜環境的實時解析,提升下游任務性能超30%。 MoE架構+稀疏注意力:采用混合專家架構與稀疏注意力技術,保持毫秒級推理速度的同時,模型規模增長。 人類式思考:引入“快思考”與“慢思考”雙模式,車輛能在常規場景中快速響應,在復雜博弈中深度分析。 擴散模型優化:基于擴散模型與ODE采樣器,僅需2-3步即可生成高精度軌跡,優化安全底線。 云端世界模型:自研“重建+生成”云端模型,通過3D高斯技術將場景重建速度提升7倍,支持大規模閉環強化學習。 跨領域泛化:模型在訓練中融入多模態數據,展現出室內導航、物流調度等跨場景潛力。 行業影響 理想汽車CEO李想表示:“MindVLA將像iPhone 4重新定義手機一樣,顛覆自動駕駛!边@一技術的發布不僅對汽車行業產生深遠影響,還將為物流、安防等領域帶來新的發展機遇,打開萬億級AGI市場。 |