人工智能—語音識別過程與識別方法

海同職坐標(biāo)在線
語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。話筒將聲波轉(zhuǎn)換為電壓信號,然后通過A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù)的電壓信號轉(zhuǎn)換為計算機能夠處理的數(shù)字信號。

語音識別是完成語音到文字的轉(zhuǎn)換。自然語言理解是完成文字到語義的轉(zhuǎn)換。語音合成是用語音方式輸出用戶想要的信息,用語音實現(xiàn)人與計算機之間的交互,主要包括語音識別、自然語言理解和語音合成。

2345截圖20211028093243.png

相對于機器翻譯,語音識別是更加困難的問題。機器翻譯系統(tǒng)的輸入通常是印刷文本,計算機能清楚地區(qū)分單詞和單詞串。而語音識別系統(tǒng)的輸入是語音,其復(fù)雜度要大得多,特別是口語有很多的不確定性。人與人交流時,往往是根據(jù)上下文提供的信息猜測對方所說的是哪一個單詞,還可以根據(jù)對方使用的音調(diào)、面部表情和手勢等來得到很多信息。特別是說話者會經(jīng)常更正所說過的話,而且會使用不同的詞來重復(fù)某些信息。顯然,要使計算機像人一樣識別語音是很困難的。

語音識別過程包括從一段連續(xù)聲波中采樣,將每個采樣值量化,得到聲波的壓縮數(shù)字化表示。采樣值位于重疊的幀中,對于每一幀,抽取出一個描述頻譜內(nèi)容的特征向量。然后,根據(jù)語音信號的特征識別語音所代表的單詞,語音識別過程主要分為五步,如下:

01、語音信號采集

語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。話筒將聲波轉(zhuǎn)換為電壓信號,然后通過A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù)的電壓信號轉(zhuǎn)換為計算機能夠處理的數(shù)字信號。

目前多媒體計算機已經(jīng)非常普及,聲卡、音箱、話筒等已是個人計算機的基本設(shè)備。其中聲卡是計算機對語音信進(jìn)行加工的重要部件,它具有對信號濾波、放大、A/D和D/A轉(zhuǎn)換等功能。而且,現(xiàn)代操作系統(tǒng)都附帶錄音軟件,通過它可以驅(qū)動聲卡采集語音信號并保存為語音文件。

對于現(xiàn)場環(huán)境不好,或者空間受到限制,特別是對于許多專用設(shè)備,目前廣泛采用基于單片機、DSP芯片的語音信號采集與處理系統(tǒng)。

02、語音信號預(yù)處理

語音信號號在采集后首先要進(jìn)行濾波、A/D變換,預(yù)加重(Preemphasis)和端點檢測等預(yù)處理,然后才能進(jìn)入識別、合成、增強等實際應(yīng)用。

濾波的目的有兩個:一是抑制輸入信號中頻率超出//2的所有分量(/:為采樣頻率),以防止混疊干擾;二是抑制50 Hz的電源工頻干擾。因此,濾波器應(yīng)該是一個帶通濾波器。

A/D變換是將語音模擬信號轉(zhuǎn)換為數(shù)字信號。A/D變換中要對信號進(jìn)行量化,量化后的信號值與原信號值之間的差值為量化誤差,又稱為量化噪聲。

預(yù)加重處理的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,便于頻譜分析。

端點檢測是從包含語音的一段信號中確定出語音的起點和終點。有效的端點檢測不僅能減少處理時間,而且能排除無聲段的噪聲干擾。目前主要有兩類方法:時域特征方法和頻域特征方法。時域特征方法是利用語音音量和過零率進(jìn)行端點檢測,計算量小,但對氣音會造成誤判,不同的音量計算也會造成檢測結(jié)果不同。頻域特征方法是用聲音的頻譜的變異和熵的檢測進(jìn)行語音檢測,計算量較大。

03、語音信號的特征參數(shù)提取

人說話的頻率在10 kHz以下。根據(jù)香農(nóng)采樣定理,為了使語音信號的采樣數(shù)據(jù)中包含所需單詞的信息,計算機的采樣頻率應(yīng)是需要記錄的語音信號中包含的最高語音頻率的兩倍以上。一般將信號分割成若干塊,信號的每個塊稱為幀,為了保證可能落在幀邊緣的重要信息不會丟失,應(yīng)該使幀有重疊。例如,當(dāng)使用20kH*的采樣頻率時,標(biāo)準(zhǔn)的一幀為10 ms,包含200個采樣值。

話筒等語音輸入設(shè)備可以采集到聲波波形。雖然這些聲音的波形包含了所需單詞的信息,但用肉眼觀察這些波形卻得不到多少信息因此,需要從采樣數(shù)據(jù)中抽取那些能夠幫助辨別單詞的特征信息。在語音識別中,常用線性預(yù)測編碼技術(shù)抽取語音特征。

線性預(yù)測編碼的基本思想是:語音信號采樣點之間存在相關(guān)性,可用過去的若干采樣點的線性組合預(yù)測當(dāng)前和將來的采樣點值。線性預(yù)測系數(shù)埽以通過使預(yù)測信號和實際信號之間的均方誤差最小來唯一確定。

語音線性預(yù)測系數(shù)作為語音信號的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處理各個領(lǐng)域。

04、向置量化

向量量化(Vector Quantization,VQ)技術(shù)是20世紀(jì)W年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù)。經(jīng)過向量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號。

在標(biāo)量量化中整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值,對于一個輸入的標(biāo)量信號,量化時落入小區(qū)間的值就用這個代表值>[戈替。因為這時的信號量是一維的標(biāo)量,所以稱為標(biāo)量量化。

向量量化的概念是用線性空間的觀點[,把標(biāo)量改為一維的向量,對向量進(jìn)行量化。和標(biāo)量量化一樣,向量量化是把向量空間分成若干個小區(qū)域,每個小區(qū)域?qū)ふ乙粋€代表向量,量化時落入小區(qū)域的向量就用這個代表向量代替。

向量量化的基本原理是將若干個標(biāo)量數(shù)據(jù)組成一個向量(或者是從一幀語音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。

05、語音識別

當(dāng)提取聲音特征集合以后,就可以識別這些特征所代表的單詞。本節(jié)重點關(guān)注單個單詞的識別。識別系統(tǒng)的輸入是從語音信號中提取出的特征參數(shù),如LPC預(yù)測編碼參數(shù),當(dāng)然,單詞對應(yīng)于字母序列。語音識別所采用的方法一般有模板匹配法、隨機模型法和概率語法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎(chǔ)上的。

(1)模板(template)匹配法

在訓(xùn)練階段,用戶將詞匯表中的每一個詞依次說一遍,并且將其特征向量作為模板存入模板庫。在識別階段,將輸入語音的特征向量序列,依次與模板庫中的每個模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。

(2)隨機模型法

隨機模型法是目前語音識別研究的主流。其突出的代表是隱馬爾可夫模型。語音信號在足夠短的時間段上的信號特征近似于穩(wěn)定,而總的過程可看成是依次相對穩(wěn)定的某一特性過渡到另一特性。隱馬爾可夫模型則用概率統(tǒng)計的方法來描述這樣一種時變的過程。

(3)概率語法分析法

這種方法是用于大長度范圍的連續(xù)語音識別。語音學(xué)家通過研究不同的語音語譜圖及其變化發(fā)現(xiàn),雖然不同的人說同一些語音時,相應(yīng)的語譜及其變化有種種差異,但是總有一些共同的特點足以使他們區(qū)別于其他語音,也即語音學(xué)家提出的“區(qū)別性特征”。另一方面,人類的語言要受詞法、語法、語義等約束,人在識別語音的過程中充分應(yīng)用了這些約束以及對話環(huán)境的有關(guān)信息。于是,將語音識別專家提出的“區(qū)別性特征”與來自構(gòu)詞、句法、語義等語用約束相互結(jié)合,就可以構(gòu)成一個“自底向上”或“自頂向下”的交互作用的知識系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。

除了上面的三種語音識別方法外,還有許多其他的語音識別方法。例如,基于人工神經(jīng)網(wǎng)絡(luò)的語音識別方法,是目前的一個研究熱點。目前用于語音識別研究的神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、Kohcmen特征映射神經(jīng)網(wǎng)絡(luò)等,特別是深度學(xué)習(xí)用于語音識別取得了長足的進(jìn)步。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論