10 月 28 日,百度智能云宣布攜手SGLang 社區(qū),將一套針對(duì)DeepSeek-V3.2推理性能優(yōu)化的 MTP(Multi-Token Prediction,多token預(yù)測(cè))技術(shù)代碼正式開(kāi)源。SGLang 社區(qū)實(shí)測(cè)顯示,采用這套技術(shù), DeepSeek-V3.2 模型解碼吞吐量能提升超過(guò) 2 倍。?
據(jù)了解,這套技術(shù)代碼來(lái)自于百度智能云內(nèi)部百舸AI計(jì)算平臺(tái)團(tuán)隊(duì)。代碼開(kāi)源之前也已經(jīng)在百度內(nèi)部核心業(yè)務(wù)中長(zhǎng)期運(yùn)行,性能與穩(wěn)定性上均經(jīng)過(guò)嚴(yán)苛考驗(yàn)。社區(qū)用戶可以結(jié)合自身業(yè)務(wù)場(chǎng)景,“開(kāi)箱即用”地使用這套代碼能力。


今年年初,DeepSeek以低成本和高性能橫空出世,迅速吸引全球科技圈關(guān)注。而MTP正是其實(shí)現(xiàn)這一效果的核心技術(shù)創(chuàng)新之一。
在DeepSeek之前,大模型和推理多采用傳統(tǒng)的自回歸解碼方式,模型每次只生成一個(gè) token,生成下一個(gè)時(shí)必須等待上一個(gè)完成。如同逐字輸入,過(guò)程穩(wěn)定但速度存在瓶頸。
MTP則采用的是批量生成、集中驗(yàn)證的機(jī)制。模型會(huì)一次性智能地推算出多個(gè)后續(xù) token 作為候選,然后統(tǒng)一進(jìn)行驗(yàn)證。這好比從逐字輸入升級(jí)為智能聯(lián)想輸入,一次性能提供多個(gè)候選詞句,從而大幅減少生成輪次,突破序列化瓶頸。
在訓(xùn)練階段,MTP有助于大模型更好地理解詞元之間的依賴(lài)關(guān)系,從而提升大模型整體性能;在推理階段,MTP快速生成多個(gè)候選詞元,并由主模型進(jìn)行一次前向傳播來(lái)驗(yàn)證和修正,從而實(shí)現(xiàn)推理加速。
作為模型的配套技術(shù),MTP需要與大模型自身的架構(gòu)保持深度適配。這也導(dǎo)致最新的 DeepSeek-V3.2由于采用了與過(guò)往不同的的 DSA(DeepSeek Sparse Attention,稀疏注意力)架構(gòu),使得此前適用于 DeepSeek 老版本的 MTP 代碼無(wú)法直接復(fù)用于 DeepSeek-V3.2,急需全新的系統(tǒng)級(jí)優(yōu)化和深度適配工作。
百度百舸團(tuán)隊(duì)此次開(kāi)源的MTP 方案,與 DeepSeek-V3.2的 DSA架構(gòu)進(jìn)行了深度適配,并在百度集團(tuán)內(nèi)部業(yè)務(wù)中進(jìn)行了生產(chǎn)級(jí)場(chǎng)景的完整驗(yàn)證。此次開(kāi)源,使得 SGLang 社區(qū)開(kāi)發(fā)者無(wú)需重復(fù)底層探索與試錯(cuò),能夠直接獲得性能倍增且穩(wěn)定可靠的推理能力。
未來(lái),百度百舸團(tuán)隊(duì)將持續(xù)開(kāi)源生產(chǎn)級(jí)別核心代碼,方便中小企業(yè)及開(kāi)發(fā)者快速、穩(wěn)定、低成本地部署先進(jìn)AI能力,加速創(chuàng)新落地。
百度百舸AI計(jì)算平臺(tái)是百度智能云打造的面向大模型訓(xùn)推一體化的基礎(chǔ)設(shè)施,可以從資源準(zhǔn)備、模型開(kāi)發(fā)、模型訓(xùn)練到模型部署,為AI工程全周期提供豐富特性和極致易用體驗(yàn)。今年8月,百度智能云正式發(fā)布百度百舸5.0,在網(wǎng)絡(luò)、算力、推理系統(tǒng),以及訓(xùn)推一體系統(tǒng)等四大方向上全面升級(jí),并正式上線了昆侖芯超節(jié)點(diǎn)公有云服務(wù)。
代碼地址:https://github.com/sgl-project/sglang/pull/11652?
?
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。
關(guān)鍵詞: