[其他]極低數碼率漢語識別聲碼器無效
| 申請?zhí)枺?/td> | 85100576 | 申請日: | 1985-04-01 |
| 公開(公告)號: | CN85100576A | 公開(公告)日: | 1986-08-06 |
| 發(fā)明(設計)人: | 陳永彬 | 申請(專利權)人: | 南京工學院 |
| 主分類號: | G10L5/04 | 分類號: | G10L5/04 |
| 代理公司: | 南京工學院專利事務所 | 代理人: | 顧家昌 |
| 地址: | 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數碼 漢語 識別 聲碼 | ||
本發(fā)明屬于漢語數字通信設備。
語言信號處理可分為識別、分析、合成和增強等內容,通常的聲碼器就是語言分析和語言合成二者的結合物。目前,最實用的是斜格網絡結構進行分析和合成的線性預測聲碼器,已有技術已經制成了數碼率為2400比特/秒+階線性預測聲碼器。
在數字通信中,傳輸數碼率愈低,得益愈大。現有技術所研究的極低數碼率的聲碼器,比較全面地說明了一種“分段式聲碼器”的研究情況。它是適用了雙音(diphone)網絡、矢量量化、馬爾可夫鏈模型等技術來得到150比特/秒的數碼率的。參見文獻:“AD報告:BBN公司窄帶通信研究,1982年11月”(ADAl22838,Bolt????Beranek????and????Newman????Inc????Report????No????5231“Research????on????Narrowband????Communication????Nov.1982)。
但是,現有技術的這種聲碼器所采用的技術,對于漢語並不適用。因為漢語語言是單音節(jié)字構成的,相鄰字之間都有空隙,不像西方語言的單詞,是多音節(jié)組成的,所以如文獻ADAl22838所述。西方語言可以用類似于狀態(tài)轉移的方法從某一雙音轉至另一雙音地進行分段,而漢語則不能,因此,漢語的極低數碼率聲碼器,必須根據漢語特點,另找有效的途徑。
本發(fā)明的目的是:為各種軍用和民用通信電臺提供碼本,可 隨時更改的、高保密的、實用的數字通信信源終端。
本發(fā)明的其它用途是:(1)可作為聲控打字機(2)可作為同一語種語言之間的翻譯機,(3)可作為人機對話的語音接口。
漢語有如下五個特點:(一)漢語是由單音節(jié)字構成的,一字一個音節(jié)、相鄰音節(jié)字之間都有空隙。(二)漢語文字雖有成千上萬,但是存在許多同音字,全部漢語的音節(jié)字只有1300個左右,同音字對于漢語語言的傳輸來講是可以不必考慮的。(三)漢語的每個字可由聲一韻一調三者組成。或且說,每個音節(jié)字可分為聲母和韻母二段,聲母的音長很短,韻母的音長則較長。韻母段的音調值的變化稱為聲調。聲母、韻母、聲調是漢語音節(jié)字的三要素。(四)漢語的聲母只有21個、漢語的韻母只有38個,漢語的聲調只有四種(陰平、陽平、上、去)。如果將聲調考慮在韻母中,並稱為調母,則漢語的調母只有143個。所以,可以認為:漢語是由22個聲母(21個聲母加上零聲母)和143個調母所組成的1300個左右的音節(jié)字構成的。所謂零聲母是指只有韻(調)母的情況,因為漢語中允許沒有聲母,但必須有調母。(五)漢語的講話的速度,平均為5字/秒左右。
本發(fā)明根據漢語的上述特點,設計了專用于漢語的極低數碼率聲碼器-漢語識別聲碼器,其基本思想如下:
用漢語標準北京話的全部音節(jié)字做成的語音庫,對發(fā)送端講話者的輸入語言進行識別,將識別出庫字的地址碼通過信道傳輸給對方;用同一語音庫,接收端按接收的庫字地址碼找出庫中該字參數,合成出語言輸出。從而,完成了具有良好可懂度和清晰度的通信,這種只傳送庫地址碼的方法,其傳輸數碼率在理論上 是最低的。此外,為了使接收端的輸出語言具有良好的自然度,信道中還應附送講話者的各音節(jié)字的音長和音調值。
圖1為雙工工作的甲乙二方,分別使用二臺漢語識別聲碼器(1)(2)進行信道通信情況。
圖1的工作過程簡述如下,任一方聲碼器在發(fā)話時,講話者輸入的語言信號(3),先經過語言分析器(5),抽取其聲學參數,然后送給語言識別器(6),識別器將該輸入語言聲學參數與語音庫(7)中全部漢語單音節(jié)字的聲學參數一一進行識別判決。識別出的庫字的地址碼就作為信息發(fā)送給接收端。當聲碼器在收話時,從對方送來的庫字地址碼,就可調出該字的庫中的聲學參數,送給語言合成器(8),人工地產生語言信號(4),使喇叭發(fā)出聲音。
現將圖1中所采用的技術說明如下,首先敘述其中的一般聲碼器技術,即語言分析和語言合成二個技術。
(一)、語言分析技術(5),這個方框包括預處理,聲道參數分析,音調檢測和編碼四個部分:
a、預處理的功用是:將輸入語言信號進行放大和自動增益控制,然后進行反混迭濾波和模數變換,最后進行數字的高頻預加重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工學院,未經南京工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/85100576/2.html,轉載請聲明來源鉆瓜專利網。





