在電腦屏幕上,手指往上一劃,播放出來的聲音尾音揚起,似少年般俏皮清亮起來;手指往下一掃,尾音變成降調(diào),聲音也瞬間沉穩(wěn)了……這只是智能語音領(lǐng)域里一個簡單的小技術(shù)。
一個人無聊時,和人工智能設(shè)備聊聊天,它聽得懂,還會回答你“無理取鬧”的問題,這是智能語音在發(fā)揮作用;用微信說一段話,先轉(zhuǎn)換成文字再發(fā)送給對方,這種禮貌靠智能語音就能輕松實現(xiàn)。當(dāng)然,如果你能邀請海綿寶寶錄上300句話,智能語音就能模擬出它的音色、語速,每天陪你聊天,這也是智能語音的研究領(lǐng)域。
聲音,在智能加持下,愈發(fā)迷人。而這背后,是一群研究人員默默讀聲、辨聲、擬聲。楊明祺是其中的一位,他所在的猿輔導(dǎo)人工智能實驗室研究團隊,剛剛斬獲了2021年聲學(xué)、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰(zhàn)旗艦任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)子賽道第一名。這表明,我國在智能語音的部分關(guān)鍵核心技術(shù)和應(yīng)用上取得了重要進展。
聲聲入耳
今年1月29日,還有不到一周就是小年兒了,楊明祺和同事守在電腦前,點下發(fā)送鍵,正式提交了2021年聲學(xué)、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰(zhàn)旗艦任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)的參賽作品——一段語音合成音頻。
當(dāng)天,楊明祺給在承德老家的父母打了個電話:不回家過年了。一方面是響應(yīng)防疫要求,另一方面也因為工作忙。“家人都理解,也支持。”他頓了一下,自己加了一句解釋,“我努力的方向是能模擬出有溫度的聲音,讓家人的聲音變得可以隨身攜帶。遇到類似情況,可能就會給更多人帶去溫暖。”
楊明祺和人對話時,有著自己特有的“職業(yè)病”——會貼心地將專業(yè)術(shù)語翻譯成白話:“語音合成(TTS)簡單地說,就是輸一個文本給電腦,然后它產(chǎn)生一個語音。在日常生活中,我們經(jīng)常會驚嘆于手機的語音助手、智能機器人能夠‘說出’非常逼真、自然的話,幾乎可以以假亂真。但這種令人驚嘆的能力其實是通過單一說話人的大量語音數(shù)據(jù)集‘訓(xùn)練’而成的。我們此次參賽,是要挑戰(zhàn)多說話人和多風(fēng)格的語音合成,特別是在可利用資源極少的情況下,盡可能讓語音的質(zhì)量、發(fā)音準(zhǔn)確率、和目標(biāo)說話人的相似度這幾個方面都令人滿意。”
作為國際語音領(lǐng)域為數(shù)不多的頂級會議,M2VoC挑戰(zhàn)賽為參賽者提供了一個通用的數(shù)據(jù)集以及一個公平的測試平臺。參賽者需要做的,是利用大賽提供的聲音樣本和平臺,研究并完成語音克隆任務(wù),包含少樣本賽道和極少樣本賽道兩個任務(wù)。楊明祺團隊參加的是極少樣本賽道中的子賽道,他解釋說:“在比賽中,主辦方會提供3個具有不同講話風(fēng)格的目標(biāo)說話人,每個說話人有5個語音數(shù)據(jù)樣本。我們要做的,就是對這3個目標(biāo)說話人的聲音進行克隆,形成音頻,用于最終測試。在最終測試環(huán)節(jié),主辦方會對收集到的語音合成系統(tǒng)進行評估,系統(tǒng)轉(zhuǎn)化的語音與樣本相似度越高,發(fā)音越準(zhǔn)確,得分就越高。”
如果將這場比賽描述得再刺激一點兒,就是楊明祺和團隊其他4名同事要從主辦方提供的僅有的5句樣本中,抓取到盡可能多的聲音特色,再原汁原味地“復(fù)刻”它。而正常情況下,拷貝一個聲音,大約需要有300句語音樣本進行校驗、建模和測試。“一般來說,正常數(shù)量的樣本是300句、半個小時左右的語音,而少樣本只有100句,我們挑戰(zhàn)的極少樣本僅有5句。”
如此苛刻的條件,楊明祺和團隊的備賽時間卻只用了1周左右。他還沒解釋,就先笑著賣了個關(guān)子:“因為有外援。”
與來自科研院所、高校的參賽隊伍不同,楊明祺和團隊在比賽期間并不能全身心投入研究,他們還有很多日常工作需要完成,但正是工作中點滴積累的經(jīng)驗幫了大忙。“這次參賽算是我們研究團隊的一次檢驗考,備賽的大部分模塊使用的都是日常工作中小組共同設(shè)計完成的產(chǎn)品,這些‘養(yǎng)熟’的模型就是最佳外援。”
聰者聽于無聲,明者見于無形。幕后的努力,往往是研究人員鮮少提及的,因為在他們眼里這是一件再普通不過的事兒。在追問下,楊明祺說,“養(yǎng)熟”一個模型,背后需要積累的數(shù)據(jù)樣本是幾十人到上百人的聲音解讀。“時間越長越好,這樣抓取的聲音特征就越準(zhǔn)確。”他打了個比方,先讓100個人說上足夠時長的話,來養(yǎng)成一個模型,當(dāng)模型足夠成熟,可以快速準(zhǔn)確抓取和識別不同聲音樣本特征了,再加入主辦方提供的5句樣本,“讓模型帶著特定的樣本‘訓(xùn)練’,合成音頻,可以在保證機器‘發(fā)音’標(biāo)準(zhǔn)的基礎(chǔ)上,讓克隆出的聲音音色更接近說話人的本聲。”
大賽的真人審核時間持續(xù)了大約半個月。這期間,所有參賽隊伍提交的音頻會被打亂,由普通人聽完后進行評分。“這種將文本轉(zhuǎn)換成自然語音的一類技術(shù),是智能語音領(lǐng)域的前沿技術(shù),在語音助手、信息播報、有聲讀物等方面具有重要的應(yīng)用價值。而且最終都是要服務(wù)人的,所以人耳當(dāng)裁判最公平。”楊明祺說,平時團隊在養(yǎng)成模型的過程中,也會請許多人來當(dāng)檢驗官,“他們不需要在聽力上有任何特長,甚至越普通越好。如果隨便一個人都能認可我們模擬的聲音,我們的目的就達到了。”
在一次次塑造聲音的過程中,楊明祺等人發(fā)現(xiàn),語音合成中的韻律信息至關(guān)重要。“韻律把控得好,可以讓語音合成效果更加流暢、自然、有節(jié)奏感,也算是團隊的秘密武器。”楊明祺耐心解釋說,畢竟聲音是有感情的,讀音是否準(zhǔn)確、聲音是否流暢,千人千感,聽得舒服,是一個產(chǎn)品是否過關(guān)的關(guān)鍵。
最終,楊明祺和同事們從極少樣本子賽道的20多支隊伍中脫穎而出,斬獲冠軍。
“聲”臨其境
聽上去絕對炫酷、科技感滿分的智能語音領(lǐng)域,楊明祺選擇入行的理由卻是:這行夠傳統(tǒng)。他解釋說,自己本科和研究生專業(yè)研究方向是信號處理,臨畢業(yè)時,他才決定“轉(zhuǎn)專業(yè)”。理由給得更是簡單且真誠——AlphaGo(阿爾法圍棋)人工智能機器人在人機對決中獲勝的消息,讓很多人都希望投身人工智能領(lǐng)域研究。2019年,楊明祺畢業(yè)找工作時就是奔著這個方向去的。
“當(dāng)時,人工智能領(lǐng)域的研究主要包括智能語音、圖像識別、自然語言處理幾個方向,后兩種備受追捧。而智能語音的研究門檻較高,從事的人也比較少,而且使用的算法、技術(shù)都是十幾年甚至幾十年積累起來的,不會像其他領(lǐng)域一樣頻繁迭代。”他俏皮地總結(jié),這也算是個“偷懶”的選擇。
真正入行,靠的也是最傳統(tǒng)的方式——公司有師父帶,課本是網(wǎng)上的各種研究論文。“我們會給論文作者發(fā)郵件,討論一些問題,絕大部分都收到了回復(fù)。有些論文的作者是企業(yè)工程師,在不涉及商業(yè)機密的前提下,他們會盡自己所能伸出援助之手。這些無聲的幫助,讓我們覺得特別溫暖。”如今,楊明祺也會收到各種郵件,只要是學(xué)術(shù)研討類的,他也會無聲地傳遞自己的溫暖。
楊明祺清楚地記得,自己接到的第一份作業(yè)——給聲碼器加速。“簡單來說,我們做的語音合成,就是兩個過程。第一個過程是分析聲音,標(biāo)注特征,形成文本。第二個過程是用聲碼器,按需輸出,生成新的聲音。”他用手比劃著解釋,正常情況下,聲碼器翻譯一段話要從頭到尾進行運算,相當(dāng)于電路中的“串聯(lián)”,這種方法耗時較長。由他設(shè)計改進后,把一段話分解成幾段,同時并行運算,最后合成,相當(dāng)于“并聯(lián)”,節(jié)省了運算時間,“雖然是個小改動,但是研發(fā)效率提高了,獲得了團隊內(nèi)部一致好評。”
其實試想一下,最簡單的TTS,就是讀文本,曾經(jīng)有官方發(fā)布過數(shù)據(jù),目前漢字的總數(shù)已經(jīng)超過了8萬個,而常用的只有3500字。如果找人將這3500個字都念一遍,然后拼字組句,也可以實現(xiàn)“智能輸出”。不過現(xiàn)實生活中,每種聲音都有自己的“脾氣”,而這些也成了研發(fā)人員需要攻克的難題,其中最令楊明祺頭疼的是識字。幫助機器識字,需要研發(fā)人員將每一句話翻譯成機器能夠看懂的語言。最常用的方法就是把所有字都轉(zhuǎn)換成漢語拼音。這背后花費的精力,是楊明祺等研發(fā)人員鮮少提及的。
多音字,是他們面對的頭號難題。“一開始真沒有想到,一段話會有那么多的多音字。”楊明祺說,一次合成音頻時直接就露了怯。第一批音頻出來之后,陰陽怪調(diào),仔細一聽發(fā)現(xiàn)是多音字惹了簍子。他舉例,最簡單的“一”字就有好多個音:一個人,讀二聲;一只碗,讀四聲;一二三四,讀一聲。
類似的例子,在日常講話時習(xí)以為常,但在嚴格按規(guī)章辦事的程序世界,這就成了一件棘手的事兒。楊明祺等人最初設(shè)計的程序,只是簡單按字典標(biāo)注的漢語拼音給每個字注音,后來考慮到多音字問題,團隊開始給程序增寫規(guī)矩。攻關(guān)過程中,一遍遍重復(fù)聽音頻、摳字音,讓楊明祺對聲音格外敏感。其他團隊成員沒意識到的小問題,都成了他特別關(guān)注的點,甚至細到“口語需要的變音”。他解釋說:“比如‘你好’這個詞,按照標(biāo)準(zhǔn)拼音,這兩個字都是三聲,但更多時候我們會自然而然地把‘你’字讀成二聲。”
還有標(biāo)點符號的處理,數(shù)字、字母的處理,這些都需要用各種細致的規(guī)范來完成。當(dāng)然,還包括分詞斷句的技術(shù)。解決辦法,在他的描述下也變得很簡單:不斷試錯,嘗試了各種辦法,反復(fù)調(diào)整模型,直到效果被人耳認可。
“我們希望合成的語音不僅準(zhǔn)確,還能實現(xiàn)讓人‘聲’臨其境的感覺。”楊明祺說,除了成人用戶,合成語音在智慧教育方面的應(yīng)用也越來越廣泛,面向正在成長階段的兒童和學(xué)生,如果讀錯音會對他們產(chǎn)生誤導(dǎo),所以團隊對發(fā)音的正確率摳得特別嚴。
“聲”而有用
如今,和楊明祺并肩作戰(zhàn)的研發(fā)同事有二三十人。而5年前,這個團隊才只有4個人。夏龍是元老,現(xiàn)在是猿輔導(dǎo)人工智能語音實驗室負責(zé)人。他回憶,2016年他從廣告推薦小組離開,開始“零起點”攻堅智能語音研發(fā)。
“4個人沒有一個是智能語音專業(yè)的,突然轉(zhuǎn)到語音組,能做什么、怎么做,大家都有點兒蒙。”夏龍很坦誠地說,開始多少帶著點兒不情愿,但團隊已經(jīng)建起來了,只能硬著頭皮往上沖,“我開始帶著大家天天啃論文,進行頭腦風(fēng)暴……學(xué)著學(xué)著,發(fā)現(xiàn)智能語音還挺好玩兒的。”
建組半年后,第一個任務(wù)來了——研發(fā)一個古詩詞背誦檢測系統(tǒng)。而這個創(chuàng)意來自同事的一次抱怨:“孩子背古詩,家長得守在邊上監(jiān)督,逐字逐句地檢查。要是有個工具能自動檢查就好了,給家長老師都減減負。”
聽者有心。夏龍決定用這個應(yīng)用場景,檢驗一下半年的學(xué)習(xí)成果。
第一步是教電腦“背詩”,這是個大工程。中小學(xué)語文課本涉及的所有古詩詞背誦篇目,首先要找到專業(yè)的語文教師一首一首地準(zhǔn)確朗讀出來,并逐字標(biāo)注正確的拼音,再由夏龍團隊將每一個拼音轉(zhuǎn)化成代碼語言。
在研發(fā)過程中,為了檢查電腦學(xué)會的篇目是否準(zhǔn)確,夏龍和同事還會時常扮演一下學(xué)生的角色,幫助機器進行自測。“背誦詩詞的時候,我們每發(fā)出一個字的讀音,就會被系統(tǒng)自動識別,并和它已經(jīng)記住的字音進行比對,如果出現(xiàn)字音錯誤、漏讀等問題,顯示器上會實時將錯誤的地方標(biāo)紅。”夏龍打趣說,上學(xué)時候都沒這么認真背過課文,真的是學(xué)了不少知識。“比如李白的《將進酒》,‘將’字一直以為是讀jiāng,后來被系統(tǒng)糾錯了,原來正確的應(yīng)該念qiāng。”
一個月后,夏龍團隊研發(fā)的第一款智能語音產(chǎn)品順利投入應(yīng)用。之后一年,團隊根據(jù)用戶反饋情況,對產(chǎn)品進行了迭代升級,詩詞背誦檢測準(zhǔn)確率不斷提高。夏龍笑言:“我們團隊的詩詞水平直線上升。”
人工智能語音實驗室的陣容也不斷擴大。如今,團隊成員有30人,平均年齡28歲左右,每個人都有各自擅長的研究領(lǐng)域,讀聲辨聲變得更專業(yè)。
最令夏龍自豪的是,每逢中高考語文考試前一天,古詩詞背誦檢測系統(tǒng)的用戶需求尤為明顯,“我們得加機器才能完成龐大的運算量。”
這種“聲”而有用,還體現(xiàn)在很多地方。楊明祺舉例說,以前如果找國外的教師來錄制英語聽力素材,由于時差等原因,一來一回,制作周期需要一周左右。如果后期有修改,反反復(fù)復(fù)的時間會更長。但現(xiàn)在通過智能語音模型,一段大約3分鐘的文本,幾秒鐘時間就可以實現(xiàn)語音轉(zhuǎn)換,而且保證原汁原味。
楊明祺給自己設(shè)定了今年的研究方向——為聲音賦情。他說,想比較完整地合成一種個性化的聲音,至少需要300句話、半個小時以上的聲音樣本,才能讓電腦學(xué)會,以后看到任何文本,都能自然而然地用這個聲音讀出來。這個過程并不是簡單地找樣本、建模型、跑數(shù)據(jù)就可以出成果的。
“比如有些場景需要聲音情感飽滿度高一點,有的時候希望用一個小男孩清脆一點的聲音,有的時候希望要一個溫柔一點的語氣。而每一個需求,都需要幕后有匹配的人去錄制聲音樣本。以目前業(yè)界現(xiàn)有的技術(shù),對聲音情緒進行調(diào)整,基本需要逐字去操作,工程非常繁瑣。”楊明祺說,我們希望可以最終實現(xiàn)“一鍵調(diào)節(jié)”,甚至連高興、悲傷的等級都可以設(shè)定,不過辨別聲音里的情緒,給這些看不見摸不著的感覺下指標(biāo),難度可想而知。“這是我們努力的方向。”
每天雖然面對著冷冰冰的電腦,研發(fā)人員的心卻比誰都細致、柔軟。夏龍說:“如果眼光放長遠一些,隨著人工智能和其他前沿技術(shù)的進步,可能會給社會帶來更多積極影響。”可預(yù)見的未來,有情感的聲音能夠被進一步應(yīng)用到教育、醫(yī)療等行業(yè)和領(lǐng)域中,可以服務(wù)配音合成、智能出題、智能客服諸多應(yīng)用場景,不斷刷新行業(yè)效率。
人工智能技術(shù)還可以打破地域資源的限制,讓農(nóng)村地區(qū)的孩子也可以享受和城市孩子一樣的教學(xué),和“外教”交流,學(xué)習(xí)純正的發(fā)音。楊明祺說:“我們可以通過語音合成、智能語音評測技術(shù),開發(fā)語言教學(xué)系統(tǒng),構(gòu)建標(biāo)準(zhǔn)化的語音教學(xué)環(huán)境,幫助解決農(nóng)村等邊遠地區(qū)的學(xué)科因師資力量短缺而難以開展的問題。”
夏龍說,讓機器學(xué)會特定聲音,需要花費大量的時間,其中需要工程師做大量的“標(biāo)注”工作,幫機器完成學(xué)習(xí)。他和團隊正在探索和努力的方向,是要用盡可能少的人力、物力成本,加快機器學(xué)會發(fā)聲的進度,讓聲音更智能。
關(guān)鍵詞: 先聲奪人