人工智能關(guān)切少數(shù)群體,失語者也可自由交流

陳述根本
陳根
人工智能技術(shù)的精進與開發(fā)無疑對人工智能的應(yīng)用至關(guān)重要,而人工智能除了在與生活強關(guān)聯(lián)方面的應(yīng)用,回應(yīng)少數(shù)群體的需求也將成為人工智能發(fā)展的必然方向。

人工智能技術(shù)的精進與開發(fā)無疑對人工智能的應(yīng)用至關(guān)重要,而人工智能除了在與生活強關(guān)聯(lián)方面的應(yīng)用,回應(yīng)少數(shù)群體的需求也將成為人工智能發(fā)展的必然方向。

近日,加州大學(xué)伯克利分校的研究人員表示,他們正在使用無聲語言和收集肌肉活動的傳感器來訓(xùn)練人工智能。其中,無聲語言是用肌電圖(EMG)檢測的,電極則放在臉和喉嚨上。研究人員表示,該模型的重點是研究被稱之為“沉默語音”的模型,該模型可以檢測到人們想說、但沒說出聲的話。

研究人員相信,他們的方法可以為那些無法發(fā)出聲音的人提供大量的應(yīng)用,并且可以支持人工智能助手或其他對語音命令做出響應(yīng)的設(shè)備進行沉默語音檢測。

111.jpg

盡管設(shè)想美好,但想真正實現(xiàn)卻并不容易:首先,在收集數(shù)據(jù)時,研究者會先在實驗者的臉上等部位貼8個貼片,每個貼片都是一個“監(jiān)視肌肉變化”的傳感器。

隨后,研究人員需要錄制一段實驗者的有聲語音,并與肌電圖進行對應(yīng)這種方法能夠?qū)⒓∪獾淖兓闆r、和語音的類型對應(yīng)起來。然后使用WaveNet解碼器生成音頻語音預(yù)測。在記錄數(shù)據(jù)的過程中,還要再錄制一段“對口型”的肌電圖,但不需要發(fā)聲,也就是“沉默語音”。

與用發(fā)聲肌電數(shù)據(jù)訓(xùn)練的基線相比,該方法在書中句子轉(zhuǎn)錄的單詞錯誤率下降了64%到4%,錯誤率比基線減少了95%。此外,為了推動這一領(lǐng)域的進一步研究,研究人員還開發(fā)了一個由近20小時面部肌電數(shù)據(jù)組成的數(shù)據(jù)集。

這項題為“無聲語音的數(shù)字發(fā)聲”的研究論文,在近日舉行的自然語言處理經(jīng)驗方法(EMNLP)活動上,獲得了最佳論文獎。

研究小組的論文寫道:“數(shù)字化無聲語音有著廣泛的潛在應(yīng)用。”例如,它可以用來制造一種類似于藍(lán)牙耳機的設(shè)備,它允許人們在不干擾周圍人的情況下進行電話交談。而顯然,這種設(shè)備在環(huán)境噪音太大無法捕捉到可聽語音或保持沉默的環(huán)境中將具有重要作用。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論