在人工智能從云端大規(guī)模向終端設(shè)備遷移的浪潮中,計(jì)算架構(gòu)的創(chuàng)新是決定其深度與廣度的核心。我們近期與Arm終端計(jì)算事業(yè)部副總裁Paul Williamson進(jìn)行了一場(chǎng)深度對(duì)話,探討了其全新推出的計(jì)算子系統(tǒng)(Compute Subsystem,CSS)——Lumex,以及它如何正在重新定義端側(cè)AI計(jì)算的范式,并深刻影響基礎(chǔ)軟件開發(fā)的未來路徑。
一、 Lumex CSS:為原生端側(cè)AI而生的架構(gòu)革新
Paul Williamson明確指出,Lumex CSS的設(shè)計(jì)初衷,是為了解決當(dāng)前終端設(shè)備在運(yùn)行復(fù)雜AI工作負(fù)載時(shí)面臨的能效比、性能與開發(fā)復(fù)雜度三大核心挑戰(zhàn)。它并非僅僅是CPU、GPU與NPU的簡(jiǎn)單堆疊,而是一個(gè)經(jīng)過深度優(yōu)化與緊密集化的“系統(tǒng)級(jí)解決方案”。
- 異構(gòu)計(jì)算的“無縫交響”:Lumex的核心在于其智能數(shù)據(jù)流架構(gòu)。它通過高效的一致性互聯(lián)與共享內(nèi)存系統(tǒng),讓CPU、新一代高效GPU(如Immortalis)以及性能大幅躍升的NPU能夠以前所未有的低延遲協(xié)同工作。Paul比喻道:“過去,數(shù)據(jù)在不同處理單元間搬運(yùn)如同城市擁堵;而Lumex構(gòu)建了智能立交系統(tǒng),讓AI任務(wù)能夠以最流暢的路徑自動(dòng)分配給最合適的計(jì)算單元執(zhí)行。”這意味著,從實(shí)時(shí)圖像分割到多模態(tài)大語言模型推理,工作負(fù)載可以動(dòng)態(tài)、高效地分布,最大化整體能效。
- 性能與能效的再平衡:Lumex針對(duì)從高端智能手機(jī)到下一代筆記本電腦等設(shè)備進(jìn)行了優(yōu)化。其NPU算力實(shí)現(xiàn)了代際飛躍,支持更復(fù)雜的模型(如數(shù)十億參數(shù)的生成式AI模型)在終端高效運(yùn)行。通過先進(jìn)的制程工藝支持和全棧功耗管理,它在提供澎湃算力的嚴(yán)格約束功耗邊界,將“每瓦性能”提升至新的高度,為全天候的AI體驗(yàn)奠定硬件基礎(chǔ)。
二、 引領(lǐng)端側(cè)AI計(jì)算革新的三大維度
Paul Williamson闡述了Lumex CSS引領(lǐng)革新的具體方向:
- 從“連接依賴”到“自主智能”:通過強(qiáng)大的本地算力,許多AI推理任務(wù)無需上傳云端,大幅降低了延遲、保護(hù)了用戶隱私、并節(jié)省了網(wǎng)絡(luò)帶寬。這使得實(shí)時(shí)性要求極高的應(yīng)用(如實(shí)時(shí)翻譯、交互式AR、個(gè)性化的健康監(jiān)測(cè))體驗(yàn)得以質(zhì)變。
- 解鎖生成式AI的終端潛力:Lumex的架構(gòu)優(yōu)化直接針對(duì)Transformer等生成式AI模型的關(guān)鍵計(jì)算模式。這意味著,文生圖、實(shí)時(shí)對(duì)話助手、個(gè)性化內(nèi)容創(chuàng)作等生成式AI應(yīng)用,將能夠更流暢、更私密地在個(gè)人設(shè)備上運(yùn)行,開創(chuàng)全新的交互與生產(chǎn)力模式。
- 催化AI應(yīng)用的普惠化:隨著性能提升和能效優(yōu)化,原本僅存在于頂級(jí)旗艦設(shè)備的AI能力,將能夠下放到更廣泛的終端品類中,加速AI技術(shù)的普及,催生更豐富、更細(xì)分場(chǎng)景的創(chuàng)新應(yīng)用。
三、 對(duì)基礎(chǔ)軟件開發(fā)的深刻影響與賦能
Paul特別強(qiáng)調(diào),硬件革新必須與軟件生態(tài)協(xié)同共進(jìn)。Lumex CSS的推出,正對(duì)基礎(chǔ)軟件開發(fā)產(chǎn)生深遠(yuǎn)影響:
- 統(tǒng)一、簡(jiǎn)化的開發(fā)體驗(yàn):Arm通過其成熟的軟件生態(tài)系統(tǒng)(如Compute Library, NN SDK)為L(zhǎng)umex提供強(qiáng)力支持。目標(biāo)是讓開發(fā)者無需深究底層硬件細(xì)節(jié),通過主流AI框架(如TensorFlow Lite, PyTorch Mobile)即可高效調(diào)用整個(gè)CSS的異構(gòu)算力。統(tǒng)一的軟件接口和優(yōu)化的驅(qū)動(dòng)棧,極大地降低了針對(duì)復(fù)雜異構(gòu)芯片的優(yōu)化門檻。
- 推動(dòng)系統(tǒng)級(jí)軟件優(yōu)化:操作系統(tǒng)的調(diào)度器、內(nèi)存管理器和驅(qū)動(dòng)模型需要與Lumex的智能數(shù)據(jù)流架構(gòu)深度協(xié)同。這促使基礎(chǔ)軟件研發(fā)從傳統(tǒng)的、以CPU為中心的模式,轉(zhuǎn)向真正感知并協(xié)同管理CPU、GPU、NPU乃至其他加速器的“系統(tǒng)級(jí)資源管理”模式。Arm正與谷歌、微軟、Linux社區(qū)及各大OEM密切合作,推動(dòng)此類系統(tǒng)軟件的演進(jìn)。
- 安全與可信計(jì)算的基石:端側(cè)AI處理大量敏感數(shù)據(jù)。Lumex CSS集成了Arm最新的機(jī)密計(jì)算架構(gòu)(如CCA)技術(shù),從硬件層面為AI工作負(fù)載和數(shù)據(jù)提供隔離的安全執(zhí)行環(huán)境(TEE)。這為基礎(chǔ)軟件開發(fā)提供了構(gòu)建可信AI應(yīng)用的原生硬件信任根,簡(jiǎn)化了實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù)和安全推理的軟件復(fù)雜性。
- 激發(fā)原生AI應(yīng)用創(chuàng)新:穩(wěn)定、高性能且易于開發(fā)的硬件平臺(tái)是創(chuàng)新的土壤。Lumex為軟件開發(fā)者提供了更可預(yù)測(cè)的性能基準(zhǔn)和更強(qiáng)大的計(jì)算上限,鼓勵(lì)他們?nèi)?gòu)思和開發(fā)此前在終端設(shè)備上不可行的、原生AI驅(qū)動(dòng)的全新應(yīng)用和服務(wù),從底層推動(dòng)應(yīng)用生態(tài)的繁榮。
與Paul Williamson的對(duì)話清晰地揭示,Arm Lumex CSS代表的不僅是一次產(chǎn)品迭代,更是一種面向“AI原生設(shè)備時(shí)代”的系統(tǒng)設(shè)計(jì)哲學(xué)。它將計(jì)算從以單元為中心轉(zhuǎn)向以工作負(fù)載和能效為中心,通過硬件架構(gòu)的深層革新,為端側(cè)AI計(jì)算注入全新動(dòng)力,并同步牽引著基礎(chǔ)軟件開發(fā)向更高效、更統(tǒng)一、更安全的方向演進(jìn)。這場(chǎng)始于芯片架構(gòu)的變革,最終將透過層層軟件棧,重塑每一個(gè)終端用戶的智能體驗(yàn)。