打破定制化語音技術(shù)落地怪圈?從講一口標準英音的語音助手說起

CSDN
對媒體行業(yè)而言,從紙媒到電視、互聯(lián)網(wǎng)媒體的發(fā)展,每一次技術(shù)變革都意味著用戶獲取信息的交互方式會發(fā)生巨大改變,而沒有緊跟技術(shù)發(fā)展的傳媒公司在影響力上會加劇衰落,甚至淘汰出局。

“OK Beeb,播放Radio 1。”

與Siri一樣,Beeb不是硬件設備,而是內(nèi)置于BBC網(wǎng)站和iPlayer TV流媒體服務的數(shù)字化語音助手。如果你想聽相關(guān)廣播電臺、播客或新聞,可以通過語音互動的方式進行點播,當然,你想要聽笑話,它也會立馬為你隨機播放節(jié)目中的英式段子。

不同于Siri這種被用戶長期吐槽為“雞肋” 的通用類語音助手,Beeb是一款由BBC打造的定制化語音助手,“定制化”能力使其在業(yè)務場景中部署時更加靈活,適配媒體在AI時代變革的需求。

對媒體行業(yè)而言,從紙媒到電視、互聯(lián)網(wǎng)媒體的發(fā)展,每一次技術(shù)變革都意味著用戶獲取信息的交互方式會發(fā)生巨大改變,而沒有緊跟技術(shù)發(fā)展的傳媒公司在影響力上會加劇衰落,甚至淘汰出局。

隨著新一輪智能技術(shù)的沖擊,原有的媒體與用戶交互的方式也必然發(fā)生改變。顯然,通過利用智能語音等AI技術(shù)來構(gòu)建媒體的虛擬形象、為用戶直接提供VIP式樣的個性化服務是一大趨勢。

當然,除了媒體行業(yè),這種交互模式也會為更多企業(yè)服務領(lǐng)域帶來顛覆性的創(chuàng)新,比如通過構(gòu)建符合品牌特點的語音形象,讓用戶在認知上更加立體化。

要達到這一目標,高質(zhì)量的個性化語音必不可少。不過,盡管市面上有諸多語音技術(shù)方案提供商,但定制化語音技術(shù)的部署遠不是簡單的接入API和SDK,而是需要諸多細致、繁雜的優(yōu)化工作,才可能積累出一個可復制的模式。

作為深耕語音技術(shù)的巨頭企業(yè)之一,微軟正在利用Azure云計算技術(shù)與定制化語音技術(shù)將AI對話機器人的開發(fā)經(jīng)驗,賦能給BBC等各行業(yè)企業(yè)。

那么,從BBC語音助手這個標桿案例出發(fā),微軟如何搞定這個“挑剔的”客戶?他們的定制化語音技術(shù)有什么不同要求?又如何將它更好地落地到各行各業(yè)?相信微軟的技術(shù)落地實踐會為行業(yè)解決方案帶來一定啟發(fā)。

BBC為什么選擇微軟做定制化語音技術(shù)

如上所述,你可以認為BBC的Beeb類似于微軟Cortana對話機器人,但區(qū)別在于Beeb是技術(shù)和場景需求都是“定制化”的。

先從需求說起。隨著AI等新技術(shù)的沖擊,BBC作為全球老牌的新聞和內(nèi)容生產(chǎn)商之一,出于品牌策略和個性化元素的考慮,也開始尋求通過技術(shù)創(chuàng)新提升業(yè)務體驗,比如通過多形式與用戶做媒體交互,其中語言互動是一大新形式。

有了特定需求,就要有相應的語音技術(shù)做支撐。微軟云計算與人工智能事業(yè)部語音組首席研發(fā)經(jīng)理張曉洲介紹,Beeb與Cortana的目標和功能并不相同,背后的技術(shù)也會有所不同,但有一點是肯定的:通用的語音技術(shù)無法滿足客戶特定需求。

Cortana 樣例鏈接:

https://www.bilibili.com/video/BV1gz4y1975b?from=search&seid=3111783444939535265

對有著高標準要求的BBC來說,他們需要Beeb發(fā)出標準英式發(fā)音,甚至細化到英國北部某個特定地區(qū)的口音風格,這需要在技術(shù)方面有非常強的細節(jié)實現(xiàn)能力。

還有多風格的要求,比如在跟真人打招呼時,聲音需要符合個人助理身份的互動風格,而在播報政治、軍事類比較嚴肅的新聞時,就需要嚴肅的聲音風格。

微軟團隊需要解決這兩大難題。在BBC提供的不到2000句的錄音人數(shù)據(jù)量中,他們基于主播的數(shù)據(jù),與語言專家、客戶挑選和分析特定口音的發(fā)音特點,然后匯總成模型能識別的規(guī)律,最后構(gòu)建到定制化模型里,生成高質(zhì)量、多風格的聲音。

張曉洲表示,建立聲音模型看似簡單,但這只是定制化語音技術(shù)的一小部分。更重要的是,微軟平臺提供了從選型、數(shù)據(jù)處理到訓練的端到端解決方案。

定制化語音技術(shù)優(yōu)勢:更少的訓練數(shù)據(jù)、更個性化的音色

2018年5月,微軟推出聲音定制的自助服務平臺(customvoice.ai),但那時還是基于傳統(tǒng)的訓練方法來讓用戶自助生成聲音模型,現(xiàn)在,通過基于深度神經(jīng)網(wǎng)絡的定制化語音技術(shù)可以在更少訓練數(shù)據(jù)的情況下,使得輸出的聲音效果有大幅提升。

業(yè)內(nèi)做語音合成此前有兩種方法,一種是參數(shù)語音合成,另一種則是拼接合成。參數(shù)語音合成需要對音庫進行參數(shù)化建模,根據(jù)訓練得到的模型預測出韻律參數(shù)和聲學參數(shù)。而波形拼接語音合成就是在語料庫中抽取合適的拼接單元,拼接成為句子。在應用效果上,拼接合成的語音更加貼近真實發(fā)音,而通過參數(shù)合成的語音更穩(wěn)定。

但現(xiàn)在,微軟的基于深度神經(jīng)網(wǎng)絡的語音合成方案兼具上述兩種方法的優(yōu)點,且在具體應用體驗上有更好的效果。

首先是念得更準,這是從文字轉(zhuǎn)化為聲音的預處理階段所要達成的目標。早前,基于規(guī)則的方法來提升準確性,但面對中文里的多音字和數(shù)字年份的具體念法,導致經(jīng)常會漏掉一些特殊字詞的念法,而采用深度神經(jīng)網(wǎng)絡的方法則把語音合成的精度提升到超過99%,完全匹配甚至超越了人類對文字的處理能力。

除了發(fā)音準確之外,還需要做到清晰自然的發(fā)音。傳統(tǒng)的TTS用到的拼接合成方法通過把語音數(shù)據(jù)分成一個個單元后進行拼接,但其局限性在于語音合成的聲音韻律不夠自然、平滑,并且需要算法學習大量的訓練數(shù)據(jù)。

2018年年底,微軟語音團隊使用其提出的實時深度神經(jīng)網(wǎng)絡模型去預測語言的韻律信息,生成的語音會結(jié)合上下文產(chǎn)生像真人一樣有自然的韻律。

最后是音質(zhì)高。此前,業(yè)內(nèi)普遍采用的參數(shù)合成方法,但生成聲音會明顯夾雜不自然的機械聲。隨后,他們采用深度神經(jīng)網(wǎng)絡的聲碼器,把聲學表示到最終的波形進行了高質(zhì)量的恢復。

相較之下,即便在有比較高質(zhì)量數(shù)據(jù)的前提下,傳統(tǒng)的模型訓練方法效果也不盡人意。而深度神經(jīng)網(wǎng)絡模型具備預測能力,可以把多風格的模型組合起來,更加靈活地把握企業(yè)所需的語音風格特征,大幅提升語音應用效果。在此過程中,所需的訓練數(shù)據(jù)也變得更少。

張曉洲舉例,“傳統(tǒng)的語音合成效果要達到MOS分4分以上是很困難的,并且所需的訓練數(shù)據(jù)可能要五千句話以上,有時要將近一萬句以上的數(shù)據(jù)量,像基于深度神經(jīng)網(wǎng)絡的TTS量級已經(jīng)降到了兩千句以內(nèi),通常五百句話以上就能達到相當不錯的效果,當然進一步增加到兩千句的話能夠讓質(zhì)量接近真人的水平。”

與市面上提供類似定制化語音技術(shù)的公司相比,張曉洲評價,現(xiàn)在有一些語音公司的樣音效果很不錯,但在規(guī)?;涞貢r,穩(wěn)定性和高可用性方面尚還有很大的提升空間。其次,在可用的基礎(chǔ)上,他認為語音技術(shù)應用還要往個性化、低成本、低門檻方向發(fā)展,使每個人都可以受益。

微軟定制化語音技術(shù)的優(yōu)勢在于,可以用更少的數(shù)據(jù)達到更加高擬人度和自然韻律的效果,且能多風格定制,此外還支持多語言定制,除了能說標準的英式口音,同樣可以為聲音賦能,說出中文、日文等其他個性化定制語言。

隨著越來越多企業(yè)應用語音合成技術(shù)實現(xiàn)自然人機交互,在商業(yè)層面規(guī)模化地推出更加個性化的符合品牌特征的形象化聲音將是語音定制技術(shù)發(fā)展的新目標,也會越來越成為傳統(tǒng)企業(yè)在做AI和數(shù)字化轉(zhuǎn)型中的重要考量。

不止媒體,微軟定制化語音技術(shù)正落地到各行各業(yè)

除了將定制化語音技術(shù)落地到媒體行業(yè),微軟正在逐步將技術(shù)落地到各行業(yè)領(lǐng)域。

微軟云計算與人工智能事業(yè)部語音組首席產(chǎn)品經(jīng)理廖勤櫻介紹了智能家居場景下的應用案例,比如與瑞士電信Swisscom合作了一款定制化語音助手,用在智能電視機頂盒或是智能TV家用的路由器等設備中,幫助用戶播放內(nèi)容。

此外,他們還與小米合作了基于手機的語音助理,比如用明星代言人王源的聲音數(shù)據(jù)去復現(xiàn)他本人的聲音,用在鬧鐘、起床等一些基于手機的智能助理功能。

微軟還做了一些公益類的項目,比如為了讓視障人士擁有更好的閱讀體驗,他們與NGO組織紅丹丹合作,以中國第一位視障播音員董麗娜的聲音數(shù)據(jù)作為原型,合成有聲書,投入到全國105所盲校。

對微軟來說,case by case的項目制的落地效率顯然很低。為了讓更多企業(yè)可以快速定制高品質(zhì)的個性化語音,張曉洲的團隊正在開發(fā)一套完全自動化的、可自助服務的深度神經(jīng)網(wǎng)絡語音定制化平臺。

語音定制化平臺鏈接:

https://speech.microsoft.com/customvoice

目前,通過微軟云Azure平臺集成后,已經(jīng)形成一套端到端的定制化語音技術(shù)解決方案,具有高可定制化、高可擴展能力,同時具備可媲美人類發(fā)音能力的基礎(chǔ)模型。這個基礎(chǔ)模型利用了上百萬句不同發(fā)音人、不同語言的海量數(shù)據(jù)訓練,使其能夠模擬各種發(fā)音模式。通過學習少量發(fā)音人樣本,提取出發(fā)音人特征,利用這個基礎(chǔ)模型,就可以準確的模擬出真人的發(fā)音效果。在沒有任何微軟員工參與的情況下,用戶完全可以在Customvoice.ai平臺上自主創(chuàng)建一個符合業(yè)務需求的高質(zhì)量定制化模型。張曉洲稱,“平臺上提供了數(shù)據(jù)檢查,包括錄音腳本、錄音音頻文件的篩選,模型的訓練評估和測試,以及驗收部署,全部都可以自助在一個平臺上完成。”

最后,對于上傳語音數(shù)據(jù),用戶必然非常關(guān)注數(shù)據(jù)安全和隱私保護問題。實際上,微軟在這一點上非常注重相關(guān)倫理規(guī)范,他們還推出“負責任的AI”規(guī)范,確保AI技術(shù)不被濫用。

微軟團隊介紹,從用戶的使用、申請,包括最終的部署和把聲音運用在實際的應用場景里,微軟對客戶的語音數(shù)據(jù)都有一套成熟規(guī)范,確保技術(shù)用在積極正面的應用場景中。

具體而言,任何客戶訓練數(shù)據(jù)前首先需要獲得錄音人的首肯才能使用微軟的語音平臺。其次,在使用的過程當中,微軟會采取措施去驗證語音數(shù)據(jù)本身的可信度。最后,當語音數(shù)據(jù)部署使用后,如若錄音人對聲音的使用存有異議,可以通過微軟的報告機制,達成事后監(jiān)督;另外,微軟開發(fā)的智能檢測技術(shù),還可以對聲音進行甄別以判斷是否是合成聲音,甚至檢測微軟的定制化語音技術(shù)訓練出來的聲音模型。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論