根據(jù)開源社區(qū)Hugging Face 10月29日最新榜單數(shù)據(jù),SoulX-Podcast模型在發(fā)布第二天登頂TTS(Text To Speech,從文本到語音)趨勢榜。

此前,Soul App AI團隊(Soul AI Lab)聯(lián)合西北工業(yè)大學ASLP@NPU團隊和上海交通大學X-LANCE Lab正式開源SoulX-Podcast,該模型是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩(wěn)定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。
傳統(tǒng)語音合成系統(tǒng)在多人、多輪對話場景常面臨一些痛點問題,例如上下文銜接不自然;缺少副語言(如笑/嘆氣)、方言等的可控生成能力,缺少“活人感”;情緒狀態(tài)無法隨對話內(nèi)容流暢改變,影響沉浸體驗等。SoulX-Podcast致力于解決這些核心問題,其在播客場景、通用語音合成或克隆場景下出色表現(xiàn),以及生動、真實的語音體驗也讓該模型在開源社區(qū)發(fā)布后迅速獲得關(guān)注。
作為全球最大AI開源社區(qū),Hugging Face匯聚了超百萬開發(fā)者,海量開源模型在此發(fā)布,全球活躍開發(fā)者們則“用手投票”,讓高性能表現(xiàn)、高效易用的模型脫穎而出。SoulX-Podcast在發(fā)布第二天快速沖上Hugging Face TTS趨勢榜榜首,并且在趨勢總榜排名持續(xù)上升中。這也證明了行業(yè)對AI語音對話的關(guān)注,以及模型本身的較高吸引力和討論度。

在開源社區(qū)受到廣泛關(guān)注之外,SoulX-Podcast在發(fā)布后也引發(fā)了眾多AI從業(yè)者、AI發(fā)燒友的討論,以及對國產(chǎn)語音合成開源模型能力的認可。

Hugging Face CEO Clément Delangue 轉(zhuǎn)發(fā)相關(guān)討論內(nèi)容


據(jù)了解,Soul AI團隊未來將持續(xù)聚焦語音對話合成、全雙工語音通話、擬人化表達、視覺交互等核心交互能力的提升,并加速技術(shù)在多樣化應(yīng)用場景與整體生態(tài)中的融合落地,為用戶帶來更加沉浸、智能且富有溫度的交互體驗,持續(xù)提升個體的幸福感與歸屬感。同時,團隊將進一步深化開源生態(tài)建設(shè),與全球開發(fā)者攜手,共同拓展 AI 語音等前沿能力的邊界,探索 “AI +社交” 的更多可能。
Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast
關(guān)鍵詞: