| 創(chuàng)澤機器人 |
| CHUANGZE ROBOT |
特定人的語音識別系統(tǒng)指識別字、短語、句子,而不管說話人是誰。目 前已經(jīng)能夠識別4000個甚至更多個單詞及由它們所組成的簡單句子。
由于上述識別系統(tǒng)都是針對非特定人的,所以它與特定人的語音識別系統(tǒng) 相比,一般性要求較高。語言識別系統(tǒng)可以懂得話音的含義。這種系統(tǒng)先要把 話音分割成單詞(或音素),然后進行語法分析,Z后辨識出話音的含義,可見 這種系統(tǒng)是相當(dāng)復(fù)雜的。在小詞匯量語音識別方面,用得Z多的是模式匹配方 法,實用的系統(tǒng)已經(jīng)出現(xiàn);基于統(tǒng)計模型的隱 Markov 模型,則在大詞匯量的語 音識別上取得了很大的進展,但目前尚在研究發(fā)展之中,可靠性有待進一步提 高。實現(xiàn)非特定人語音識別的流程如圖4-19所示。相比之下,數(shù)字音識別系統(tǒng) 比較簡單。這種語音識別系統(tǒng)的工作原理與特定人的語音識別系統(tǒng)有很多相同之 處,這里只介紹連續(xù)數(shù)字音識別系統(tǒng)。
除此之外,還要發(fā)現(xiàn)很多語言中的規(guī)律,在這些規(guī)律中,重要的有:
①字的起點可能發(fā)生在如下處:“靜”和“無振”時間段的銜接處,幅度 隨時間陡升處,過零率隨時間陡升處;“有振”、“無振”時間段銜接處和幅度 與時間關(guān)系曲線的凹陷處。
②字的終點可能發(fā)生在如下處:“有振”和“靜”的時間段銜接處;“無 振”和“靜”的時間段銜接處及幅度隨時間陡降處。
③在“無振”和“有振”的銜接處。如果同時出現(xiàn)幅度隨時間陡升和過零 率隨時間陡降,那么這里不是字的起、終點的分界。
接下來,把各個短時間段的各個特征按照上面的分割方法劃分成三個組(即 將每個字的字音分成一個組),分別送進“音的識別”部分去作每個字的識別。 然而,在“音的識別”部分中,事先存儲有十個數(shù)目字話音(0~9),在每個短 時間段的判別量設(shè)為:g₁(x₁,x₂,x₃)、82(x,x₂,x₃)、g₃(x₁,x₂,x₃), 其 中 x₁代表幅度,x₂ 代表過零率,x₃ 代表線性預(yù)測系數(shù)等。當(dāng)?shù)玫酱R別的數(shù)目字 話音的各個特征時,把它們與事先存儲的判別量進行比較,找出Z接近的字作為 判別結(jié)果。
和特定人的語音識別系統(tǒng)一樣,在作比較之前也要經(jīng)過“時間對應(yīng)步 驟”,把待識別字的各個短時間段在一定范圍內(nèi)作些調(diào)整,使調(diào)整后的短時間段 數(shù)目和存儲在“音的識別”部分的字的短時段數(shù)目一樣,再把調(diào)整后的短時間段 的特征代入判別函數(shù)里。在這種模板匹配法的語音識別系統(tǒng)中,標(biāo)準模板是否具 有代表性,直接影響識別的精度。即使是同一個人說同一個單詞,其發(fā)音也會有 差異,這就是發(fā)音的離散性。這種離散性造成了產(chǎn)生標(biāo)準模板的困難。假設(shè)這種 離散性使語音特征分布在一個區(qū)域里面而不是集中在一個點,那么我們應(yīng)當(dāng)找出 這個區(qū)域中心點并將其作為標(biāo)準特征值,這個過程稱為語音識別中的樣本優(yōu)化。
還應(yīng)當(dāng)指出,在正確提取語音特征的前提下,如何減少計算量是一個重要 問題,它關(guān)系到語音識別系統(tǒng)的復(fù)雜程度、成本和實時性。聽覺系統(tǒng)除了用于識別人的聲音之外,還可以在工作現(xiàn)場利用傳聲器捕捉音響來證實一個工序的開始 與結(jié)束、檢測異常聲音等。利用超聲波的聽覺系統(tǒng)還可以測量對象物的位置和尺 寸。超聲波聽覺系統(tǒng)在測量、檢測等方面有廣泛的應(yīng)用。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務(wù)機器人底盤 具身智能教育機器人 智能配送機器人 導(dǎo)覽機器人 |