3月24日消息,近日寒武紀正式發(fā)布新款訓練加速卡MLU370-X8。MLU370-X8搭載雙芯片四芯粒思元370,集成寒武紀MLU-Link™多芯互聯(lián)技術,主要面向訓練任務,在業(yè)界應用廣泛的YOLOv3、Transformer等訓練任務中, 8卡計算系統(tǒng)的并行性能平均達到350W RTX GPU的155%。
雙芯思元370架構(gòu)
MLU370-X8智能加速卡提供250W最大訓練功耗,可充分發(fā)揮AI訓練加速中常見的FP32、FP16或BF16計算性能。寒武紀首次將雙芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了兩倍于標準思元370加速卡的內(nèi)存、編解碼資源,同時搭載MLU-Link™多芯互聯(lián)技術。在YOLOv3、Transformer、BERT和ResNet101訓練任務中, 8卡并行平均性能達350W RTX GPU的155%。
MLU-Link™多芯互聯(lián)技術
MLU370-X8智能加速卡支持MLU-Link™多芯互聯(lián)技術,提供卡內(nèi)及卡間互聯(lián)功能。寒武紀為多卡系統(tǒng)專門設計了MLU-Link橋接卡,可實現(xiàn)4張加速卡為一組的8顆思元370芯片全互聯(lián),每張加速卡可獲得200GB/s的通訊吞吐性能,帶寬為PCIe 4.0 的3.1倍,可高效執(zhí)行多芯多卡訓練和分布式推理任務。
訓推一體的Cambricon NeuWare交付優(yōu)秀訓練性能
Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自適應精度訓練等多種訓練方式并提供靈活高效的訓練工具,高性能算子庫已完整覆蓋視覺、語音、自然語言處理、搜索推薦和自動駕駛等典型深度學習應用,可滿足用戶對于算子覆蓋率以及模型精度的需求。
在Cambricon NeuWare SDK上實測,在常見的4個深度學習網(wǎng)絡模型上,MLU370-X8單卡性能與主流350W RTX GPU相當;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互聯(lián)技術和Cambricon NeuWare CNCL通訊庫的優(yōu)化,在8卡環(huán)境下達到更優(yōu)的并行加速比。
MLU370-X8補全思元370系列產(chǎn)品線
寒武紀長期秉承“云邊端一體、訓推一體、軟硬件協(xié)同”的技術理念。MLU370-X8提供兩倍思元370的內(nèi)存帶寬,結(jié)合MLUarch03架構(gòu)和MLU-Link多芯互聯(lián)技術,將思元370芯片在訓練任務的優(yōu)勢充分發(fā)揮。MLU370-X8定位中高端,與高端訓練產(chǎn)品思元290、玄思1000相互結(jié)合,進一步豐富了寒武紀的訓練算力交付方式;并與基于思元370芯粒(chiplet)技術構(gòu)建的MLU370-X4、MLU370-S4智能加速卡協(xié)同,形成完整的云端訓練、推理產(chǎn)品組合。
MLU370-X8加速卡與國內(nèi)主流服務器合作伙伴的適配工作已經(jīng)完成,并已對客戶實現(xiàn)小規(guī)模出貨。
關鍵詞: