特斯拉的 Dojo 超級(jí)計(jì)算機(jī)并非普通的硬件項(xiàng)目,可以說(shuō)是一次“射月計(jì)劃”, 是對(duì)構(gòu)建一臺(tái)專(zhuān)門(mén)解決 AI 問(wèn)題的特殊超算的大膽嘗試。然而,據(jù)彭博社 8/7 報(bào)道,特斯拉正在解散 Dojo 項(xiàng)目團(tuán)隊(duì),意味著 Dojo 已徹底落下帷幕。Dojo 的設(shè)計(jì)哲學(xué)是通過(guò)復(fù)雜的編程來(lái)實(shí)現(xiàn)高標(biāo)準(zhǔn)的制造工藝,進(jìn)而獲得理論上的 峰值性能。
然而在核心人才流失、晶圓級(jí)封裝的良率瓶頸以及外部 GPU 技 術(shù)快速迭代的三重壓力下,其高昂的研發(fā)成本與不確定的商業(yè)回報(bào)最終難以 為繼。隨著人工智能模型規(guī)模的日益龐大和計(jì)算需求的持續(xù)增長(zhǎng),傳統(tǒng)計(jì)算 架構(gòu)所面臨的性能瓶頸日益凸顯。在此背景下,我們依然看好新一代芯片架 構(gòu)如晶圓級(jí)集成芯片和粗粒度可重構(gòu)架構(gòu),在突破制造瓶頸和良率問(wèn)題后, 有望提升 AI 計(jì)算效率與靈活性。
Dojo 架構(gòu)的雄心壯志是什么?
Dojo 的設(shè)計(jì)哲學(xué)是極致優(yōu)化,即通過(guò)剝離一代通用計(jì)算功能,打造出一個(gè) 精簡(jiǎn)的、大規(guī)模并行的訓(xùn)練“猛獸”。其架構(gòu)建立在兩個(gè)激進(jìn)的 AI 內(nèi)存墻 和互聯(lián)墻的破局設(shè)計(jì)之上:1) 無(wú)緩存的雙層存儲(chǔ)系統(tǒng)。Dojo 的 D1 計(jì)算芯 片完全摒棄了傳統(tǒng)的緩存層次結(jié)構(gòu)和虛擬內(nèi)存,354 個(gè)內(nèi)核都能直接訪(fǎng)問(wèn) 1.25MB 的本地 SRAM。這通過(guò)去除復(fù)雜的內(nèi)存管理硬件,最大化了計(jì)算密 度和功耗效率。然而,這是典型的 NUMA(Non-Uniform Memory Access) 結(jié)構(gòu):不在本地 SRAM 中的數(shù)據(jù)必須從位于獨(dú)立的 DIP(Dojo Interface Processors)上的系統(tǒng)級(jí) HBM 中獲取,跨越互連結(jié)構(gòu)的回路會(huì)產(chǎn)生顯著延 遲,代價(jià)是將內(nèi)存管理的全部復(fù)雜性轉(zhuǎn)移至軟件層面,并在本地 SRAM 與 遠(yuǎn)端 HBM 之間形成了巨大的性能鴻溝。
2) “無(wú)膠化(Glueless)”的晶 圓級(jí)互連。Dojo 目標(biāo)的真正核心是其互連設(shè)計(jì)。特斯拉利用臺(tái)積電的 InFO_SoW(晶圓上集成扇出, Integrated Fan-Out System on Wafer)技術(shù) 創(chuàng)建了“Training Tile”訓(xùn)練單元,其并非 PCB 板,而是建立在載體晶圓上 的單一、巨大的多芯片模組,以 5x5 陣列的方式容納 25 個(gè) D1 芯片。這些 芯片專(zhuān)為“無(wú)膠化”通信而設(shè)計(jì),通過(guò)數(shù)千個(gè)高速 SerDes 鏈路直接連接到 相鄰芯片,創(chuàng)造了一個(gè)統(tǒng)一的計(jì)算平面,可達(dá) 36TB/秒片外帶寬,消除困擾 傳統(tǒng)超算的網(wǎng)絡(luò)瓶頸。
如何從 Dojo 的失敗中吸取經(jīng)驗(yàn)?
Dojo 的前瞻設(shè)計(jì)同時(shí)也是其弱點(diǎn),Dojo 的失敗并非單一技術(shù)問(wèn)題,而是三 大深層原因共同作用的結(jié)果:
1)人才流失。復(fù)雜技術(shù)需要深厚的知識(shí)儲(chǔ)備, 據(jù)彭博報(bào)道,2023 年 Dojo 負(fù)責(zé)人 Ganesh Venkataramanan 離開(kāi)后成立了 競(jìng)對(duì)初創(chuàng)公司 DensityAI,目前約 20 名核心工程師也離開(kāi)特斯拉并加入 DensityAI。另外,現(xiàn)任 Dojo 負(fù)責(zé)人 Peter Bannon 據(jù)彭博報(bào)道也將離開(kāi) 特斯拉,導(dǎo)致攻克 Dojo 高度定制化架構(gòu)所需的技術(shù)積淀與 Know-how 嚴(yán)重 流失。
2) 良率缺陷。晶圓級(jí)互連理論上很“聰明”,但在產(chǎn)業(yè)制造過(guò)程中 卻極具挑戰(zhàn)性。在晶圓尺寸的模組上,任何微小的布線(xiàn)缺陷或 25 顆 D1 芯 片中任一的貼裝瑕疵,都可能導(dǎo)致高價(jià)值的 Training Tile 整體報(bào)廢。低良率 使得規(guī)模化部署的成本高昂,較難具備商業(yè)上的經(jīng)濟(jì)可行性。
3) 戰(zhàn)略層面 轉(zhuǎn)為以實(shí)用為先。Dojo 在延期和低良率中受阻,而外部供應(yīng)商英偉達(dá)和 AMD 等 GPU 性能與生態(tài)系統(tǒng)持續(xù)高速發(fā)展。因此對(duì)于特斯拉而言,追求高風(fēng)險(xiǎn) 內(nèi)部項(xiàng)目的成本效益比開(kāi)始衰減。特斯拉已將戰(zhàn)略重心轉(zhuǎn)向更為務(wù)實(shí)的方 案,即加強(qiáng)與英偉達(dá)、AMD、三星等產(chǎn)業(yè)鏈伙伴的合作。特斯拉于 7/27 宣 布,與三星簽訂了 165 億美元的合同來(lái)制造其 AI6 推理芯片,并在訓(xùn)練算 力集群方面加強(qiáng)了對(duì)英偉達(dá)和 AMD 的依賴(lài)。
從射月到折戟:淺談特斯拉 Dojo 的隕落
馬斯克宣布中止 Dojo 超級(jí)計(jì)算機(jī)項(xiàng)目并非臨時(shí)決策,而是多重因素疊加的結(jié)果,其背后原 因主要來(lái)自于:技術(shù)瓶頸、成本壓力及核心人才流失,這三個(gè)原因最終促使公司選擇放棄 其內(nèi)部的超級(jí)計(jì)算機(jī)研發(fā)。
原因#1:始于人才外流 Dojo
項(xiàng)目的首個(gè)重大沖擊來(lái)自核心團(tuán)隊(duì)集體流失。據(jù)彭博社報(bào)道,2023 年 Dojo 負(fù)責(zé)人 Ganesh Venkataramanan 離開(kāi)后成立了競(jìng)對(duì)初創(chuàng)公司 DensityAI,目前約 20 名核心工程 師也離開(kāi)特斯拉并加入 DensityAI。另外,現(xiàn)任 Dojo 負(fù)責(zé)人 Peter Bannon 據(jù)彭博報(bào)道也 將離開(kāi)特斯拉。這使項(xiàng)目在研發(fā)與執(zhí)行層面出現(xiàn)明顯真空。DensityAI 聚焦為機(jī)器人、AI Agent 及汽車(chē)領(lǐng)域的 AI 數(shù)據(jù)中心提供芯片、硬件及軟件解決方案,產(chǎn)品方向與 Dojo 高度重 疊,直接進(jìn)入特斯拉原本擬依托 Dojo 搶占的市場(chǎng)賽道。公司由前特斯拉 AI 與芯片研發(fā)骨 干創(chuàng)立,包括 Ganesh Venkataramanan、Bill Chang、Benjamin Floerin 等 Dojo 核心負(fù)責(zé) 人及技術(shù)骨干。

原因#2:戰(zhàn)略轉(zhuǎn)向經(jīng)濟(jì)性,并開(kāi)始依靠外部合作伙伴
面對(duì)核心團(tuán)隊(duì)流失帶來(lái)的執(zhí)行壓力,特斯拉加快調(diào)整戰(zhàn)略,轉(zhuǎn)向依賴(lài)行業(yè)領(lǐng)先廠(chǎng)商的成熟 方案,以降低研發(fā)及量產(chǎn)風(fēng)險(xiǎn)。公司正顯著提升向英偉達(dá)與 AMD 的采購(gòu)比例,因直接引入 同類(lèi)最佳、經(jīng)過(guò)驗(yàn)證的 AI 硬件,可以避免從零開(kāi)發(fā)所需的高投入與不確定性,確保完全自 動(dòng)駕駛(FSD)及 Optimus 機(jī)器人等關(guān)鍵產(chǎn)品路線(xiàn)圖不受內(nèi)部硬件瓶頸影響。同時(shí)特斯拉 與三星簽訂總額 165 億美元的合同,在德克薩斯州生產(chǎn)下一代 AI6 推理芯片,可印證公司 向?qū)嵱眯詰?zhàn)略的轉(zhuǎn)變。 馬斯克長(zhǎng)期將 Dojo 定位為高風(fēng)險(xiǎn)、高回報(bào)的“前瞻性項(xiàng)目”,其可行性核心在于:定制化 架構(gòu)在性能上的優(yōu)勢(shì)能否足以抵消所需的巨額投入與研發(fā)難度。然而,隨著英偉達(dá) Blackwell、 Rubin 系列及 AMD MI350、MI400 系列等高性能芯片相繼推出,Dojo 的潛在性能領(lǐng)先空間 明顯收窄。在內(nèi)部成本持續(xù)攀升、項(xiàng)目進(jìn)度多次延期且需從其他戰(zhàn)略重點(diǎn)轉(zhuǎn)移資源的背景 下,項(xiàng)目風(fēng)險(xiǎn)已部分兌現(xiàn),而回報(bào)的不確定性顯著上升。在公司充分考慮成本效益平衡下, 已轉(zhuǎn)而傾向于外部成熟方案。
原因#3:架構(gòu)復(fù)雜難以駕馭,產(chǎn)業(yè)鏈存在制造瓶頸
Dojo 項(xiàng)目的核心矛盾源于其顛覆性的設(shè)計(jì)理念。該架構(gòu)摒棄了傳統(tǒng) CPU/GPU 的通用性設(shè) 計(jì)思路,專(zhuān)注于將 AI 訓(xùn)練負(fù)載的計(jì)算密度與能效推向極致。然而,這種對(duì)特定目標(biāo)的極致 追求,導(dǎo)致其在內(nèi)存和互連系統(tǒng)上引入了極高的技術(shù)復(fù)雜度。這種設(shè)計(jì)在理論上性能卓越, 但在工程實(shí)踐與量產(chǎn)中面臨的挑戰(zhàn)巨大,最終成為項(xiàng)目失敗的根本原因。

內(nèi)存架構(gòu):無(wú)緩存的雙層系統(tǒng)
Dojo 的內(nèi)存設(shè)計(jì)摒棄了通用計(jì)算中的標(biāo)準(zhǔn)功能,創(chuàng)造了一個(gè)在特定工作負(fù)載上高度優(yōu)化但 在編程和管理上具有挑戰(zhàn)性的系統(tǒng)。在核心層面,Dojo 放棄了傳統(tǒng)的數(shù)據(jù)側(cè)緩存和虛擬內(nèi) 存支持。D1 芯片上的 354 個(gè)處理核心中均沒(méi)有 L1/L2/L3 緩存層次結(jié)構(gòu),而是直接訪(fǎng)問(wèn)本 地 1.25MB 的 SRAM 塊。通過(guò)移除高速緩沖存儲(chǔ)器標(biāo)簽(Cache tags)、一致性狀態(tài)位(State bits)、TLB 和硬件頁(yè)表遍歷(Page-walking hardware),Dojo 節(jié)省了大量的芯片面積和功 耗,允許更密集的計(jì)算陣列。然而,這一設(shè)計(jì)的代價(jià)是將內(nèi)存管理(如數(shù)據(jù)局部性、預(yù)取 等)的全部復(fù)雜性轉(zhuǎn)移至軟件與編譯器層面,極大地增加了編程難度。
在內(nèi)存層面,系統(tǒng)呈現(xiàn)出典型的雙層非統(tǒng)一內(nèi)存訪(fǎng)問(wèn)(Non-Uniform Memory Access, NUMA)架構(gòu),包括:
1)本地內(nèi)存層 (SRAM):每個(gè)核心私有的 1.25MB 高速 SRAM,作 為主要的計(jì)算工作區(qū),訪(fǎng)問(wèn)延遲極低;
2)遠(yuǎn)端內(nèi)存層 (HBM):由 HBM2e/HBM3 構(gòu)成的大 容量系統(tǒng)內(nèi)存。關(guān)鍵在于,該層內(nèi)存無(wú)法被 D1 計(jì)算核心直接尋址,而是掛載于計(jì)算陣列邊 緣獨(dú)立 DIP(Dojo Interface Processors, Dojo 接口處理器)上。核心若要訪(fǎng)問(wèn) HBM,其請(qǐng) 求必須穿越復(fù)雜的片上網(wǎng)絡(luò)(NoC)抵達(dá) DIP,延遲遠(yuǎn)高于訪(fǎng)問(wèn)本地 SRAM。
這種設(shè)計(jì)導(dǎo)致核上 SRAM 與片外 HBM 之間形成了巨大的性能鴻溝(Performance Cliff), 對(duì)軟件調(diào)度和數(shù)據(jù)排布提出了極為苛刻的要求,進(jìn)一步加劇了軟件棧的開(kāi)發(fā)與優(yōu)化挑戰(zhàn)。

互連結(jié)構(gòu):“無(wú)膠化”晶圓級(jí)設(shè)計(jì)
Dojo 的互連架構(gòu)是其設(shè)計(jì)的核心亮點(diǎn),亦是其技術(shù)實(shí)現(xiàn)中最具挑戰(zhàn)的一環(huán)。其目標(biāo)在于通 過(guò)多層級(jí)的定制化設(shè)計(jì),構(gòu)建一個(gè)具備超高帶寬的大規(guī)模統(tǒng)一計(jì)算平面。該架構(gòu)主要包含 兩個(gè)層面:
1) 片上互連采用二維網(wǎng)格 (On-Chip 2D Mesh) :在單顆 D1 芯片內(nèi)部,集成了 354 個(gè)計(jì) 算核心,并以二維網(wǎng)格結(jié)構(gòu)進(jìn)行排布。這種設(shè)計(jì)實(shí)現(xiàn)了極高帶寬和低延遲的核心間通信, 為大規(guī)模并行計(jì)算中的數(shù)據(jù)共享與同步等操作提供了高效的底層支持。
2) 晶圓級(jí)集成下的訓(xùn)練單元 (Training Tile) :這是 Dojo 架構(gòu)復(fù)雜性的集中體現(xiàn),也是 其良率問(wèn)題的核心瓶頸。Training Tile 并非傳統(tǒng)的 PCB 電路板,而是基于臺(tái)積電的 InFO_SoW(晶圓上集成扇出, Integrated Fan-Out System on Wafer)技術(shù),在同一基 底晶圓上構(gòu)建的超大尺寸多芯片模組。該模組以 5x5 陣列集成了 25 顆 D1 芯片。D1 芯片的邊緣設(shè)計(jì)了 576 個(gè)高速雙向 SerDes,實(shí)現(xiàn)了芯片間的“無(wú)膠化(Glueless)” 直接互連,即無(wú)需任何外部橋接芯片即可通信。這種設(shè)計(jì)使得每顆 D1 芯片能夠與其四 周的鄰近芯片直接通信,單顆芯片的總 I/O 帶寬高達(dá) 8TB/s。最終,單個(gè) Training Tile 的總片外帶寬可達(dá) 36TB/秒,這一指標(biāo)遠(yuǎn)超傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)交換設(shè)備的能力,是其性 能領(lǐng)先的關(guān)鍵。
為實(shí)現(xiàn)超越單個(gè)訓(xùn)練單元(Training Tile)的規(guī)模化部署,Dojo 采用了多層級(jí)的物理集成方 案:通過(guò)定制化的高密度連接器,將多個(gè)訓(xùn)練單元集成為一個(gè)系統(tǒng)托架(System Tray), 通過(guò)托架間的互連,組成完整的機(jī)柜(cabinet),并最終形成龐大的 exaPOD 計(jì)算集群。 系統(tǒng)的對(duì)外通信由 DIP 承擔(dān)。DIP 作為連接主機(jī)系統(tǒng)的“網(wǎng)關(guān)”,通過(guò)支持特斯拉自研傳輸 協(xié)議(TTP)的標(biāo)準(zhǔn) PCIe 4.0 總線(xiàn)與服務(wù)器進(jìn)行數(shù)據(jù)交換。
然而,Dojo 最具雄心的晶圓級(jí)集成方案,也構(gòu)成了其最大的可制造性難題。高良率地制造 一個(gè)晶圓尺寸、包含 25 顆 D1 芯片和數(shù)千個(gè)高速互連的復(fù)雜模組,對(duì)現(xiàn)有工藝是巨大的考驗(yàn)。基底晶圓上任何微小的布線(xiàn)缺陷,或是在 D1 芯片的貼裝與鍵合過(guò)程中出現(xiàn)任何瑕疵, 都可能導(dǎo)致整個(gè)價(jià)值不菲的訓(xùn)練單元直接報(bào)廢,從而造成良率損失。
Dojo 的設(shè)計(jì)哲學(xué),本質(zhì)上是通過(guò)復(fù)雜的編程來(lái)實(shí)現(xiàn)高標(biāo)準(zhǔn)的制造工藝,進(jìn)而獲得理論上的 峰值性能。精簡(jiǎn)的內(nèi)存模型需要復(fù)雜的軟件,前瞻性的晶圓級(jí)互連將半導(dǎo)體制造工藝難度 推到了極限,創(chuàng)造了一個(gè)在概念上出色但在規(guī)模化實(shí)現(xiàn)上極其困難的系統(tǒng)。
直接后果體現(xiàn):極低的良率 這種架構(gòu)復(fù)雜性的直接后果是極低的制造良率。由于新穎設(shè)計(jì)和芯片集成互連結(jié)構(gòu)所需的 高精度,Dojo 芯片中有較高比例有缺陷且無(wú)法使用。這個(gè)制造瓶頸是最終的技術(shù)障礙,架 構(gòu)層面的前瞻設(shè)計(jì)最終導(dǎo)向了產(chǎn)業(yè)鏈的剛性制約。
可以說(shuō),Dojo 項(xiàng)目的終止是必然結(jié)果,其核心在于特斯拉的宏大技術(shù)構(gòu)想與半導(dǎo)體產(chǎn)業(yè)客 觀(guān)規(guī)律之間的尖銳矛盾。前者是特斯拉打造完美 AI 超算的“執(zhí)念”,后者則是半導(dǎo)體制造 嚴(yán)苛的物理規(guī)律與經(jīng)濟(jì)成本。當(dāng)能夠平衡二者的核心技術(shù)團(tuán)隊(duì)離開(kāi)后,項(xiàng)目的失敗便無(wú)可 避免。Dojo 是一次雄心勃勃的“射月”計(jì)劃,但最終還是回到了地面。這次嘗試劃定了特 斯拉技術(shù)愿景的邊界,也為行業(yè)留下了關(guān)于技術(shù)路線(xiàn)與商業(yè)化可行性的深刻啟示。