[其他]語音合成組件無效
| 申請號: | 86101238 | 申請日: | 1986-01-29 |
| 公開(公告)號: | CN86101238A | 公開(公告)日: | 1986-11-12 |
| 發明(設計)人: | 尼爾·凱利特 | 申請(專利權)人: | 普列斯海外有限公司 |
| 主分類號: | H04M3/42 | 分類號: | H04M3/42;G10L5/00 |
| 代理公司: | 中國專利代理有限公司 | 代理人: | 李先春,杜有文 |
| 地址: | 英國英格蘭埃賽*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 組件 | ||
本發明涉及一種用于遠程通信交換機中的語音合成組件。
語言重放技術和方法,業已問世多年。但是,采用模擬錄音的磁帶和磁盤機械驅動裝置,卻十分昂貴、笨重、耗電和容易損壞。而且,這些裝置只能順序地重放錄音。編碼語言的數字方法看來要比相應的模擬錄音裝置便宜,但是,對存儲器的要求很高。例如,脈沖編碼調制(PCM)技術通常在頻率為8千赫(KHZ),相應的帶寬為4千赫的條件下對語言數據取樣。并將每一取樣信號量化成8位數字信號,這就形成了每秒64K位的數據速率。這樣高的數據速率,使得對大量詞匯進行數字編碼無法實現。數字編碼方法有時被稱作波形合成方法,但是,這并不是真正的合成方法,因為它們是由被存儲的代碼語言數據簡單地重新組成原來的波形來。真正的合成技術,利用參量數據產生語言波形,該語言波形并不類同于原來的語言波形,只不過人的耳朵對這兩種波形的感覺幾乎相同。
語言合成基本上有兩種不同類型,即時域合成和頻域合成。時域合成是利用為時間函數的語言波形的壓縮表達式作為語言存儲數據。合成裝置只是簡單地取出這些存儲波形以產生語言輸出信號。這種方法的目的不單是為了減少存儲原來語言波形所需的位數目,并進而企圖逼近這種波形,而是試圖產生一種由少量二進制位表示的合成語言波形,這種波形聽起來像原來波形的聲音,但是,看起來不一定要類似于原來的波形。實施這種方法的硬件非常簡單,困難之處在于對語言波形進行分析,使其能以高度壓縮的形式進行存儲。
頻域合成是基于對人的聲道的模擬。語言波形以參量數據方式加以儲存,這些參量數據表示出聲音的倍頻振動和聲道的響應情況。復雜的積成電路將這些頻域的參照轉換成接近于原來語言波形頻譜的時域音頻信號。
目前存在著各種基于時域合成和頻域合成的語言合成方法,它們被用于語言合成積成電路中。這些方法大體上可以稱作構成方法,或分析/合成方法。各構成合成法是依據一組規則,從一組規定的語言聲段產生出語言輸出。利用這樣的一組規則,語言要素(例如音素)便能連結成任一單詞。利用這些方法,不需要原始的人的語言波形。這種方法也能稱之為“規則合成”法。
各分析/合成方法是由實際的人的語言波形導出語言波形的詞匯。這些詞匯是以單詞,短語或者整個句子的形式出現的,因此,導出的合成語言,從音調,語調,易懂性和質量上講,更加近似于原來的語言。分析/合成方法對實際的口語單詞或短語進行分析,從而產生出表示該種語言波形的編碼參量。這些參量可以存儲起來以備后用,和/或馬上合成,以控制語言合成器組件。這些方法比起構成合成方法,需要大得多的存儲容量。
在語言合成積成電路中,采用四種基本的語言合成方法。這就是音素合成法,共振峰合成法,波形數字化法和線性預測編碼法。
音素合成器是一種能夠產生語音的基本單位-音素,并將它們連結起來的裝置。音素合成器的整個位速率可以很低,大約是每秒100位,因為在大多數語言中,音素的數目大致為40至100個。音素合成器強調“字母”的簡單性,而不注重語言質量。基本音素的發音,在不同的詞匯中稍有變化。由如此少量的基本發音所形成的詞匯,顯得有些生硬。借助于大的存儲容量,利用音素變形〔allophon〕對音素進行修正,可以改善語言質量。44個基本的英語音素可以擴展成128個音素變形。這需要大約3K字節的存儲單元,而且,為了存放用于連結音素變形的規則,還進一步需要7K字節的存儲單元。音素變形語言所起來仍然不自然,但是,規則設置一直在改進,以便改善語言質量。通過將音調曲線疊加在音素變形連結串上,可以使語言聽起來更為舒服。但是,如果運用得不恰當,這會降低語言的易懂性,而且,從算法實施的角度考慮,這是一個困難的過程。音素變形合成器在詞匯量,存儲量要求,語言質量,通用性和靈活性諸項指標之間提供了一個折衷的選擇。而且,音素變形合成器特別適合于文章-語言系統。由鍵盤輸入的文章,可以自動地轉換成適當的音素變形,繼而再利用音素變形產生語言。
共振峰合成器的目的是從電子學角度模擬形成聲道各特征的聲音。大多數共振峰合成器對于濁音采用三個共振峰濾波器而對于摩擦音采用一個共振峰濾波器。鼻音共振峰濾波器可有可無,但是,通常不含有動態共振峰功能元件。這里,采用兩種驅動功能元件,一種是濁音的脈沖源,一種是清音的噪聲源。這兩種驅動信號被時間變化的共振峰濾波器濾波成特定的頻帶或共振峰。共振峰頻率的帶寬由算法提供,但是嚴格模擬這些帶寬,對語言的易懂性相對說來并不重要。控制器將數據送至含有九個控制參量的模塊。這些參量確定了共振峰頻率和振幅,它們是:
AH-送氣音振幅
AV-元音振幅
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普列斯海外有限公司,未經普列斯海外有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/86101238/2.html,轉載請聲明來源鉆瓜專利網。





