首頁 > 科技 > > 正文

先聲奪人

2021-04-08 06:30:42來源：互聯(lián)網(wǎng)

在電腦屏幕上，手指往上一劃，播放出來的聲音尾音揚起，似少年般俏皮清亮起來；手指往下一掃，尾音變成降調(diào)，聲音也瞬間沉穩(wěn)了……這只是智能語音領(lǐng)域里一個簡單的小技術(shù)。

一個人無聊時，和人工智能設(shè)備聊聊天，它聽得懂，還會回答你“無理取鬧”的問題，這是智能語音在發(fā)揮作用；用微信說一段話，先轉(zhuǎn)換成文字再發(fā)送給對方，這種禮貌靠智能語音就能輕松實現(xiàn)。當(dāng)然，如果你能邀請海綿寶寶錄上300句話，智能語音就能模擬出它的音色、語速，每天陪你聊天，這也是智能語音的研究領(lǐng)域。

聲音，在智能加持下，愈發(fā)迷人。而這背后，是一群研究人員默默讀聲、辨聲、擬聲。楊明祺是其中的一位，他所在的猿輔導(dǎo)人工智能實驗室研究團隊，剛剛斬獲了2021年聲學(xué)、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰(zhàn)旗艦任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)子賽道第一名。這表明，我國在智能語音的部分關(guān)鍵核心技術(shù)和應(yīng)用上取得了重要進展。

聲聲入耳

今年1月29日，還有不到一周就是小年兒了，楊明祺和同事守在電腦前，點下發(fā)送鍵，正式提交了2021年聲學(xué)、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰(zhàn)旗艦任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)的參賽作品——一段語音合成音頻。

當(dāng)天，楊明祺給在承德老家的父母打了個電話：不回家過年了。一方面是響應(yīng)防疫要求，另一方面也因為工作忙。“家人都理解，也支持。”他頓了一下，自己加了一句解釋，“我努力的方向是能模擬出有溫度的聲音，讓家人的聲音變得可以隨身攜帶。遇到類似情況，可能就會給更多人帶去溫暖。”

楊明祺和人對話時，有著自己特有的“職業(yè)病”——會貼心地將專業(yè)術(shù)語翻譯成白話：“語音合成（TTS）簡單地說，就是輸一個文本給電腦，然后它產(chǎn)生一個語音。在日常生活中，我們經(jīng)常會驚嘆于手機的語音助手、智能機器人能夠‘說出’非常逼真、自然的話，幾乎可以以假亂真。但這種令人驚嘆的能力其實是通過單一說話人的大量語音數(shù)據(jù)集‘訓(xùn)練’而成的。我們此次參賽，是要挑戰(zhàn)多說話人和多風(fēng)格的語音合成，特別是在可利用資源極少的情況下，盡可能讓語音的質(zhì)量、發(fā)音準(zhǔn)確率、和目標(biāo)說話人的相似度這幾個方面都令人滿意。”

作為國際語音領(lǐng)域為數(shù)不多的頂級會議，M2VoC挑戰(zhàn)賽為參賽者提供了一個通用的數(shù)據(jù)集以及一個公平的測試平臺。參賽者需要做的，是利用大賽提供的聲音樣本和平臺，研究并完成語音克隆任務(wù)，包含少樣本賽道和極少樣本賽道兩個任務(wù)。楊明祺團隊參加的是極少樣本賽道中的子賽道，他解釋說：“在比賽中，主辦方會提供3個具有不同講話風(fēng)格的目標(biāo)說話人，每個說話人有5個語音數(shù)據(jù)樣本。我們要做的，就是對這3個目標(biāo)說話人的聲音進行克隆，形成音頻，用于最終測試。在最終測試環(huán)節(jié)，主辦方會對收集到的語音合成系統(tǒng)進行評估，系統(tǒng)轉(zhuǎn)化的語音與樣本相似度越高，發(fā)音越準(zhǔn)確，得分就越高。”

如果將這場比賽描述得再刺激一點兒，就是楊明祺和團隊其他4名同事要從主辦方提供的僅有的5句樣本中，抓取到盡可能多的聲音特色，再原汁原味地“復(fù)刻”它。而正常情況下，拷貝一個聲音，大約需要有300句語音樣本進行校驗、建模和測試。“一般來說，正常數(shù)量的樣本是300句、半個小時左右的語音，而少樣本只有100句，我們挑戰(zhàn)的極少樣本僅有5句。”

如此苛刻的條件，楊明祺和團隊的備賽時間卻只用了1周左右。他還沒解釋，就先笑著賣了個關(guān)子：“因為有外援。”

與來自科研院所、高校的參賽隊伍不同，楊明祺和團隊在比賽期間并不能全身心投入研究，他們還有很多日常工作需要完成，但正是工作中點滴積累的經(jīng)驗幫了大忙。“這次參賽算是我們研究團隊的一次檢驗考，備賽的大部分模塊使用的都是日常工作中小組共同設(shè)計完成的產(chǎn)品，這些‘養(yǎng)熟’的模型就是最佳外援。”

聰者聽于無聲，明者見于無形。幕后的努力，往往是研究人員鮮少提及的，因為在他們眼里這是一件再普通不過的事兒。在追問下，楊明祺說，“養(yǎng)熟”一個模型，背后需要積累的數(shù)據(jù)樣本是幾十人到上百人的聲音解讀。“時間越長越好，這樣抓取的聲音特征就越準(zhǔn)確。”他打了個比方，先讓100個人說上足夠時長的話，來養(yǎng)成一個模型，當(dāng)模型足夠成熟，可以快速準(zhǔn)確抓取和識別不同聲音樣本特征了，再加入主辦方提供的5句樣本，“讓模型帶著特定的樣本‘訓(xùn)練’，合成音頻，可以在保證機器‘發(fā)音’標(biāo)準(zhǔn)的基礎(chǔ)上，讓克隆出的聲音音色更接近說話人的本聲。”

大賽的真人審核時間持續(xù)了大約半個月。這期間，所有參賽隊伍提交的音頻會被打亂，由普通人聽完后進行評分。“這種將文本轉(zhuǎn)換成自然語音的一類技術(shù)，是智能語音領(lǐng)域的前沿技術(shù)，在語音助手、信息播報、有聲讀物等方面具有重要的應(yīng)用價值。而且最終都是要服務(wù)人的，所以人耳當(dāng)裁判最公平。”楊明祺說，平時團隊在養(yǎng)成模型的過程中，也會請許多人來當(dāng)檢驗官，“他們不需要在聽力上有任何特長，甚至越普通越好。如果隨便一個人都能認可我們模擬的聲音，我們的目的就達到了。”

在一次次塑造聲音的過程中，楊明祺等人發(fā)現(xiàn)，語音合成中的韻律信息至關(guān)重要。“韻律把控得好，可以讓語音合成效果更加流暢、自然、有節(jié)奏感，也算是團隊的秘密武器。”楊明祺耐心解釋說，畢竟聲音是有感情的，讀音是否準(zhǔn)確、聲音是否流暢，千人千感，聽得舒服，是一個產(chǎn)品是否過關(guān)的關(guān)鍵。

最終，楊明祺和同事們從極少樣本子賽道的20多支隊伍中脫穎而出，斬獲冠軍。

“聲”臨其境

聽上去絕對炫酷、科技感滿分的智能語音領(lǐng)域，楊明祺選擇入行的理由卻是：這行夠傳統(tǒng)。他解釋說，自己本科和研究生專業(yè)研究方向是信號處理，臨畢業(yè)時，他才決定“轉(zhuǎn)專業(yè)”。理由給得更是簡單且真誠——AlphaGo（阿爾法圍棋）人工智能機器人在人機對決中獲勝的消息，讓很多人都希望投身人工智能領(lǐng)域研究。2019年，楊明祺畢業(yè)找工作時就是奔著這個方向去的。

“當(dāng)時，人工智能領(lǐng)域的研究主要包括智能語音、圖像識別、自然語言處理幾個方向，后兩種備受追捧。而智能語音的研究門檻較高，從事的人也比較少，而且使用的算法、技術(shù)都是十幾年甚至幾十年積累起來的，不會像其他領(lǐng)域一樣頻繁迭代。”他俏皮地總結(jié)，這也算是個“偷懶”的選擇。

真正入行，靠的也是最傳統(tǒng)的方式——公司有師父帶，課本是網(wǎng)上的各種研究論文。“我們會給論文作者發(fā)郵件，討論一些問題，絕大部分都收到了回復(fù)。有些論文的作者是企業(yè)工程師，在不涉及商業(yè)機密的前提下，他們會盡自己所能伸出援助之手。這些無聲的幫助，讓我們覺得特別溫暖。”如今，楊明祺也會收到各種郵件，只要是學(xué)術(shù)研討類的，他也會無聲地傳遞自己的溫暖。

楊明祺清楚地記得，自己接到的第一份作業(yè)——給聲碼器加速。“簡單來說，我們做的語音合成，就是兩個過程。第一個過程是分析聲音，標(biāo)注特征，形成文本。第二個過程是用聲碼器，按需輸出，生成新的聲音。”他用手比劃著解釋，正常情況下，聲碼器翻譯一段話要從頭到尾進行運算，相當(dāng)于電路中的“串聯(lián)”，這種方法耗時較長。由他設(shè)計改進后，把一段話分解成幾段，同時并行運算，最后合成，相當(dāng)于“并聯(lián)”，節(jié)省了運算時間，“雖然是個小改動，但是研發(fā)效率提高了，獲得了團隊內(nèi)部一致好評。”

其實試想一下，最簡單的TTS，就是讀文本，曾經(jīng)有官方發(fā)布過數(shù)據(jù)，目前漢字的總數(shù)已經(jīng)超過了8萬個，而常用的只有3500字。如果找人將這3500個字都念一遍，然后拼字組句，也可以實現(xiàn)“智能輸出”。不過現(xiàn)實生活中，每種聲音都有自己的“脾氣”，而這些也成了研發(fā)人員需要攻克的難題，其中最令楊明祺頭疼的是識字。幫助機器識字，需要研發(fā)人員將每一句話翻譯成機器能夠看懂的語言。最常用的方法就是把所有字都轉(zhuǎn)換成漢語拼音。這背后花費的精力，是楊明祺等研發(fā)人員鮮少提及的。

多音字，是他們面對的頭號難題。“一開始真沒有想到，一段話會有那么多的多音字。”楊明祺說，一次合成音頻時直接就露了怯。第一批音頻出來之后，陰陽怪調(diào)，仔細一聽發(fā)現(xiàn)是多音字惹了簍子。他舉例，最簡單的“一”字就有好多個音：一個人，讀二聲；一只碗，讀四聲；一二三四，讀一聲。

類似的例子，在日常講話時習(xí)以為常，但在嚴格按規(guī)章辦事的程序世界，這就成了一件棘手的事兒。楊明祺等人最初設(shè)計的程序，只是簡單按字典標(biāo)注的漢語拼音給每個字注音，后來考慮到多音字問題，團隊開始給程序增寫規(guī)矩。攻關(guān)過程中，一遍遍重復(fù)聽音頻、摳字音，讓楊明祺對聲音格外敏感。其他團隊成員沒意識到的小問題，都成了他特別關(guān)注的點，甚至細到“口語需要的變音”。他解釋說：“比如‘你好’這個詞，按照標(biāo)準(zhǔn)拼音，這兩個字都是三聲，但更多時候我們會自然而然地把‘你’字讀成二聲。”

還有標(biāo)點符號的處理，數(shù)字、字母的處理，這些都需要用各種細致的規(guī)范來完成。當(dāng)然，還包括分詞斷句的技術(shù)。解決辦法，在他的描述下也變得很簡單：不斷試錯，嘗試了各種辦法，反復(fù)調(diào)整模型，直到效果被人耳認可。

“我們希望合成的語音不僅準(zhǔn)確，還能實現(xiàn)讓人‘聲’臨其境的感覺。”楊明祺說，除了成人用戶，合成語音在智慧教育方面的應(yīng)用也越來越廣泛，面向正在成長階段的兒童和學(xué)生，如果讀錯音會對他們產(chǎn)生誤導(dǎo)，所以團隊對發(fā)音的正確率摳得特別嚴。

“聲”而有用

如今，和楊明祺并肩作戰(zhàn)的研發(fā)同事有二三十人。而5年前，這個團隊才只有4個人。夏龍是元老，現(xiàn)在是猿輔導(dǎo)人工智能語音實驗室負責(zé)人。他回憶，2016年他從廣告推薦小組離開，開始“零起點”攻堅智能語音研發(fā)。

“4個人沒有一個是智能語音專業(yè)的，突然轉(zhuǎn)到語音組，能做什么、怎么做，大家都有點兒蒙。”夏龍很坦誠地說，開始多少帶著點兒不情愿，但團隊已經(jīng)建起來了，只能硬著頭皮往上沖，“我開始帶著大家天天啃論文，進行頭腦風(fēng)暴……學(xué)著學(xué)著，發(fā)現(xiàn)智能語音還挺好玩兒的。”

建組半年后，第一個任務(wù)來了——研發(fā)一個古詩詞背誦檢測系統(tǒng)。而這個創(chuàng)意來自同事的一次抱怨：“孩子背古詩，家長得守在邊上監(jiān)督，逐字逐句地檢查。要是有個工具能自動檢查就好了，給家長老師都減減負。”

聽者有心。夏龍決定用這個應(yīng)用場景，檢驗一下半年的學(xué)習(xí)成果。

第一步是教電腦“背詩”，這是個大工程。中小學(xué)語文課本涉及的所有古詩詞背誦篇目，首先要找到專業(yè)的語文教師一首一首地準(zhǔn)確朗讀出來，并逐字標(biāo)注正確的拼音，再由夏龍團隊將每一個拼音轉(zhuǎn)化成代碼語言。

在研發(fā)過程中，為了檢查電腦學(xué)會的篇目是否準(zhǔn)確，夏龍和同事還會時常扮演一下學(xué)生的角色，幫助機器進行自測。“背誦詩詞的時候，我們每發(fā)出一個字的讀音，就會被系統(tǒng)自動識別，并和它已經(jīng)記住的字音進行比對，如果出現(xiàn)字音錯誤、漏讀等問題，顯示器上會實時將錯誤的地方標(biāo)紅。”夏龍打趣說，上學(xué)時候都沒這么認真背過課文，真的是學(xué)了不少知識。“比如李白的《將進酒》，‘將’字一直以為是讀jiāng，后來被系統(tǒng)糾錯了，原來正確的應(yīng)該念qiāng。”

一個月后，夏龍團隊研發(fā)的第一款智能語音產(chǎn)品順利投入應(yīng)用。之后一年，團隊根據(jù)用戶反饋情況，對產(chǎn)品進行了迭代升級，詩詞背誦檢測準(zhǔn)確率不斷提高。夏龍笑言：“我們團隊的詩詞水平直線上升。”

人工智能語音實驗室的陣容也不斷擴大。如今，團隊成員有30人，平均年齡28歲左右，每個人都有各自擅長的研究領(lǐng)域，讀聲辨聲變得更專業(yè)。

最令夏龍自豪的是，每逢中高考語文考試前一天，古詩詞背誦檢測系統(tǒng)的用戶需求尤為明顯，“我們得加機器才能完成龐大的運算量。”

這種“聲”而有用，還體現(xiàn)在很多地方。楊明祺舉例說，以前如果找國外的教師來錄制英語聽力素材，由于時差等原因，一來一回，制作周期需要一周左右。如果后期有修改，反反復(fù)復(fù)的時間會更長。但現(xiàn)在通過智能語音模型，一段大約3分鐘的文本，幾秒鐘時間就可以實現(xiàn)語音轉(zhuǎn)換，而且保證原汁原味。

楊明祺給自己設(shè)定了今年的研究方向——為聲音賦情。他說，想比較完整地合成一種個性化的聲音，至少需要300句話、半個小時以上的聲音樣本，才能讓電腦學(xué)會，以后看到任何文本，都能自然而然地用這個聲音讀出來。這個過程并不是簡單地找樣本、建模型、跑數(shù)據(jù)就可以出成果的。

“比如有些場景需要聲音情感飽滿度高一點，有的時候希望用一個小男孩清脆一點的聲音，有的時候希望要一個溫柔一點的語氣。而每一個需求，都需要幕后有匹配的人去錄制聲音樣本。以目前業(yè)界現(xiàn)有的技術(shù)，對聲音情緒進行調(diào)整，基本需要逐字去操作，工程非常繁瑣。”楊明祺說，我們希望可以最終實現(xiàn)“一鍵調(diào)節(jié)”，甚至連高興、悲傷的等級都可以設(shè)定，不過辨別聲音里的情緒，給這些看不見摸不著的感覺下指標(biāo)，難度可想而知。“這是我們努力的方向。”

每天雖然面對著冷冰冰的電腦，研發(fā)人員的心卻比誰都細致、柔軟。夏龍說：“如果眼光放長遠一些，隨著人工智能和其他前沿技術(shù)的進步，可能會給社會帶來更多積極影響。”可預(yù)見的未來，有情感的聲音能夠被進一步應(yīng)用到教育、醫(yī)療等行業(yè)和領(lǐng)域中，可以服務(wù)配音合成、智能出題、智能客服諸多應(yīng)用場景，不斷刷新行業(yè)效率。

人工智能技術(shù)還可以打破地域資源的限制，讓農(nóng)村地區(qū)的孩子也可以享受和城市孩子一樣的教學(xué)，和“外教”交流，學(xué)習(xí)純正的發(fā)音。楊明祺說：“我們可以通過語音合成、智能語音評測技術(shù)，開發(fā)語言教學(xué)系統(tǒng)，構(gòu)建標(biāo)準(zhǔn)化的語音教學(xué)環(huán)境，幫助解決農(nóng)村等邊遠地區(qū)的學(xué)科因師資力量短缺而難以開展的問題。”

夏龍說，讓機器學(xué)會特定聲音，需要花費大量的時間，其中需要工程師做大量的“標(biāo)注”工作，幫機器完成學(xué)習(xí)。他和團隊正在探索和努力的方向，是要用盡可能少的人力、物力成本，加快機器學(xué)會發(fā)聲的進度，讓聲音更智能。

關(guān)鍵詞：先聲奪人

欧美日韩国产成人_日韩网站在线观看_国产精品sss_国内自拍亚洲

先聲奪人

推薦內(nèi)容