近日,阿里云機(jī)器學(xué)習(xí)PAI主導(dǎo)的論文《機(jī)器學(xué)習(xí)訪存密集計(jì)算編譯優(yōu)化框架AStitch》入選國(guó)際頂會(huì)ASPLOS 2022,論文通過(guò)編譯優(yōu)化的手段來(lái)自動(dòng)化地提高機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行效率。此次入選意味著阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI自研的深度學(xué)習(xí)編譯優(yōu)化系統(tǒng)達(dá)到了全球業(yè)界先進(jìn)水平,獲得了國(guó)際學(xué)者的認(rèn)可,展現(xiàn)了中國(guó)機(jī)器學(xué)習(xí)系統(tǒng)技術(shù)創(chuàng)新在國(guó)際上的競(jìng)爭(zhēng)力。
ASPLOS是計(jì)算機(jī)系統(tǒng)領(lǐng)域的頂級(jí)國(guó)際會(huì)議,涉及體系結(jié)構(gòu)、編程語(yǔ)言和操作系統(tǒng)等多個(gè)方向,尤其重視不同方向之間的交叉,該會(huì)議曾推動(dòng)了多核處理器、虛擬化、RAID、RISC、深度學(xué)習(xí)處理器等計(jì)算機(jī)系統(tǒng)領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。
訪存密集型的計(jì)算已經(jīng)成為當(dāng)今流行的機(jī)器學(xué)習(xí)模型的一個(gè)性能瓶頸;然而,業(yè)界先進(jìn)的工作中(TVM、XLA等),由于其自動(dòng)生成代碼的能力有限,難以針對(duì)復(fù)雜的訪存密集算子子圖進(jìn)行高效的代碼生成。
針對(duì)這一問(wèn)題,AStitch提出了一種大粒度計(jì)算融合的編譯優(yōu)化手段,通過(guò)計(jì)算圖的依賴(lài)關(guān)系特性、GPU多層次存儲(chǔ)架構(gòu)上的數(shù)據(jù)局部性、以及不同數(shù)據(jù)尺寸之下的線程并發(fā)性等三個(gè)方面的聯(lián)合考慮,自動(dòng)化地為大粒度的復(fù)雜訪存密集算子子圖生成高效的GPU代碼,從而大幅減少GPU kernel調(diào)用及框架層算子調(diào)度的額外開(kāi)銷(xiāo),避免不必要的重復(fù)計(jì)算,大幅減少片外訪存,同時(shí)適配各種數(shù)據(jù)尺寸以得到最佳并行效率。對(duì)比XLA,AStitch最高可以取得2.73倍的性能加速。

AStitch技術(shù)已經(jīng)集成在阿里云機(jī)器學(xué)習(xí)PAI的編譯優(yōu)化引擎中,為阿里巴巴集團(tuán)內(nèi)部廣泛的機(jī)器學(xué)習(xí)模型帶來(lái)了性能加速,在集團(tuán)內(nèi)部GPU集群上,AStitch每周可以為數(shù)萬(wàn)的機(jī)器學(xué)習(xí)任務(wù)節(jié)省總計(jì)20000小時(shí)以上的GPU使用時(shí)長(zhǎng)。
阿里云機(jī)器學(xué)習(xí)PAI已經(jīng)被廣泛應(yīng)用于各行各業(yè),實(shí)現(xiàn)企業(yè)自主可控的AI方案,全面提升機(jī)器學(xué)習(xí)工程效率。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。