[其他]字符識別系統無效
| 申請號: | 86107537 | 申請日: | 1986-09-27 |
| 公開(公告)號: | CN86107537A | 公開(公告)日: | 1987-04-22 |
| 發明(設計)人: | 阿部惠子 | 申請(專利權)人: | 索尼公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 中國專利代理有限公司 | 代理人: | 李先春 |
| 地址: | 日本東京*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符 識別 系統 | ||
本發明涉及一種字符識別系統,用來識別主文件的字符。更確切地說,本發明涉及一種這樣的字符識別系統,它特別適于識別具有相互分離字符成分的字符,例如漢字字符、日文的平假名和片假名字符等等。此外,本發明還涉及這樣一種字符識別系統,它適用于從混有日文或漢字字符以及如像英語、德語等字母字符的主文件中采集字符數據。
近年來,已提出了多種用來從主文件中采集字符數據的識別系統。在這些字符識別系統中,當從用日文、漢字寫成的主文件中采集字符數據時會遇到一個困難,這個困難是由于在日文、漢字或其它相應語言的字符中出現了不連貫的或相互分離字符成分。例如,含義為河流的日文漢字字符“????”具有三個大體上垂直延伸並相互分離字符成分,而發“i”音的日文平假名字符“????”具有兩個大體上垂直並相互分離的字符。本申請將具有相互分離字符成分的字符稱之為“分離字符”。
字符識別系統通常提取或分割主文件上的每一個字符,並將字符結構同一已予置的數據相比較,通常把待識別的字符轉換成適合于計算機的編碼,如ASCll碼等。由于字符之間有間隔或不連貫,要準確地提取分離字符將是很困難的。
另一方面,對于英語、德語或其它一些字母順序排列的語言,在一個字中,各字符之間的間隔比各個字之間的間隔顯然要窄。由于一個字中的字母字符之間的間隔窄,當這種字母字符用于文件中,並由適用于從日文或漢字文件采集數據的字符識別系統讀出時,這個字的各個字符之間的間隔往往忽略,其結果是以整個字作為一個單元的圖象來提取,這樣將導致不可能識別文件中的每一個字母字符。
當字符識別系統用于從既混有日文又有漢字字符以及字母字符的文件中讀取或提取字符數據時,字符識別問題就顯得更為嚴重。
此外,在以往的字符識別系統中,提取識別字符和識別字符是按相互獨立的步驟進行的,在一般情況下,提取字符的步驟是先于識別字符的步驟,當欲提取的字符的結構同已予置的字符模式不相符時,該字符被認為是不可識別的字符,這就大大地降低了字符識別系統的字符識別率。
為此,本發明的一個目的在于提供一個字符識別系統,它能夠解決在一般系統中存在的困難,而且能夠提供相當高的識別率。
本發明的另一個更為特殊的目的是要提供一個字符識別系統,它甚至能夠從混有日文或漢字字符以及字母字符所構成的文件中準確地提取字符數據。
本發明的進一步的目的還在于提供一個字符識別系統,它能將分別刪切的圖象數據組合,區分刪切圖象數據和重新刪切等,以保證識別主文件上的字符。
為了達到上述的以及另外的目的,按照本發明,一個字符識別系統提取包括一個最小字符單元的字符塊,字符識別系統在字符識別過程中具有重新組合和/或重新提取字符塊的能力,字符塊的重新組合和重新提取是在每一字符塊提取滯后的基礎上加以控制的,因而使重新組合和重新提取能有效地進行。
在提取字符塊的最佳處理程序中,在單個字符塊中,實質上相互獨立但又相毗鄰的字符受到檢驗,並分成兩個或更多的字符塊,以減少包含在每一個字符塊中的字符。
按照本發明,根據日文和日文漢字特定的比例。字符識別系統進而具有從字母字符中區分日文和日文漢字字符的能力,所述的日文和日文漢字字符的比例完全不同于字母字符的比例。
根據本發明的一種觀點,一個字符識別系統包括:用于采集文件圖象並產生一個包含文件圖象數據的視頻信號的第一裝置;用來提取包含文件中單獨字符圖象數據的字符塊的第二裝置;用來組合2個或3個字符塊以形成一個組合字符塊的第三裝置;用來重新提取字符塊以形成一個重新被提取的字符塊的第四裝置;按照予定的算法進行字符識別並輸出識別字符顯示信號的第五裝置;用來控制第三、第四、第五裝置工作的第六裝置,它是用這種方式工作的,即當第五裝置未能識別字符塊的一個字符時,第六裝置可以有選擇地控制第三和第四裝置中的一個裝置,以保證用選擇的第三和第四裝置中的一個所形成的字符塊去識別第五裝置中的字符。
在最佳實施例中,第二裝置在一個最小的字符單元上提取字符塊,第二裝置限制字符的范圍,使其具有與最小字符單元的上、下和兩側齊平的邊緣。第二裝置檢測各相鄰單獨的字符之間的重疊,以便將相應的各單獨字符分別形成字符塊。此外,第二裝置還可消除一個字符塊的字符圖象數據中的噪聲分量。
在最佳結構中,光學字符識別系統還包括第七裝置,它用來檢測一予定字符以及對予定字符選擇一種輔助的算法去控制第五裝置的工作,這種選擇的輔助算法比除予定字符之外的其它字符所用的算法要簡單。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼公司,未經索尼公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/86107537/2.html,轉載請聲明來源鉆瓜專利網。





