[其他]在計算機內采用無標志的漢字機內碼時防止錯譯而便利用戶的方法無效
| 申請號: | 85100956 | 申請日: | 1985-04-01 |
| 公開(公告)號: | CN85100956A | 公開(公告)日: | 1986-07-23 |
| 發明(設計)人: | 錢文浩 | 申請(專利權)人: | 中國軟件技術公司 |
| 主分類號: | G06F11/28 | 分類號: | G06F11/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機 采用 標志 漢字 內碼 防止 便利 用戶 方法 | ||
在使用英文計算機處理漢字的工作中,經常遇到原計算機的軟件或硬件對輸入字符有限制的問題。例如PDP-11機的屏幕編輯程序,和Solar機的所有軟件和硬件,都不允許字節的最高位為1;Cyber機則連小寫字母都不行。此外,幾乎所有的程序語言對其標識符(包括變量名、子程序名、語句標志等)的構成都有更為嚴格的規定。因此,當用漢字的國標碼(GB2312)來代表漢字進入主機時,往往不能被接受。解決此問題的途徑通常有二:一是修改主機的系統軟件。對于微型機可以這么做,但對稍大規模的系統軟件、修改就有困難,甚至不可能。在此情況下,就得采取另一途徑,就是改變機內碼的形式,使其能為主機所接受。
這種經改變而能為多數計算機接受的漢字內碼大多只用大寫字母或數字組成。由于允許使用的字符數少,組成的漢字機內碼都不免偏長(有達4個甚至6個字節者),而且必需使用指定的符號(區分符)加在漢字字串的開始和結束,或加在每個漢字代碼的起頭,以免與英文相混。在漢字字串的前后加區分符(如同括號),對于字串的分解、聯結,或插入、刪改等操作是不利的。然而,在每一個漢字代碼的前面都加區分符就更增加了代碼的長度,對系統資源的利用更為不利。此外,所選區分符如在大寫字母與數字以外,也可能正恰是主機不能接受的;如徑用大寫字母或數字做區別符,則造成問題更多。
82年秋,北京大學毛德行在中文信息研究會于承德召開的漢字系統學術會議上提出一個大膽的根本不用區分符的方法:-通過折算使國標碼變為三個英文大寫字母,如與COBOL的保留字有沖突,則順推作些修正;漢字串代碼的字符數必需是三的整倍數,不得與其他英文或數字串相連(詳見毛德行:“中文信息與COBOL語言的聯接”,上述會議論文)。這個方法的明顯特點是突破了一向認為必需區分符的框框,但其實際辦法卻有缺點,最主要的是:①要為每一種語言都編制一個不同的修正表,同一漢字經由不同的語言,產生的機內碼將不相同。②用戶如需輸入英文字串,必需提防哪些英文是有可能被誤譯成漢字的,例如,僅對國標CB2312的區號1及2共188個漢字的范圍,就有gib,gig,gigmanity…giving…GMT,gnomon,gnomon-ics…god,…got…GPU(按《新英漢詞典》)共54個字或縮寫可能被誤譯。要求用戶避免使用正常的英文,必然會遭到強烈的反對。
本人鑒于毛德行方法的優點和缺點,進一步研究出一個新的方法,就是把三個字母中的第二字母換成數字,就可避免上述兩個缺點。1983年5月本人送交中國科學院的科學基金申請書(課題名為《全兼容硬拷貝漢字終端和廉價漢字電傳的原理試驗》)中述及的G9A碼,是本人提出新方法的最早書面見證。因為當時我國沒有專利法可予保護,所以后來陸續有些單位已使用了相似的方法。例如84年福建計算機研究所宣布研制成漢字終端和個人計算機,其中所用漢字代碼的第一字節是G~Z,第二字節是數字,第三字節則是數字或字母均可。此法與本人的G9A碼相似。(該法已用于批量生產,投放市場,故已失去新穎性)
期刊《微型電腦》1984年第3期上也刊登了湖南大學周有文的文章《具有最短長度的漢字西化碼》、所謂“漢字西化碼”,除第一字節是A~Z外,其余兩字節和福建計算機研究所完全相同。
上述福建與湖南兩種做法,都是在第三字節上允許使用數字。這造成漢字與英數字串混淆的可能性極大。例如在計算機程序中,象K23,L12這樣的標識符是很常用的;微機芯片Z80極普遍;電路元器件R12,U23,則更多見。如把這樣的英數字串輸入計算機,按上述兩做法,都將被錯譯成漢字。為了防止被錯譯,用戶必需謹慎提防并避免使用常見形式的英數字串,這是不受歡迎的。
本說明書下面所述的方法,可使用戶在輸入通常一般的英數字串時都不必小心提防或避免什么。
一般地說,因為在英文中(隨之在各高級語言的保留字中)有大量的冗余度(redundency),故可推斷,要找到一種不與任何保留字發生沖突的漢字代碼形式是可能的。例如,不用A,E,I、O、U、Y六個母音字母,只用其余20個子音字母來組成漢字代碼(三位共8000個組合),就不可能與任何保留字沖突。(按毛德行的原意,只求與COBOL的保留字不沖突)。但在實際中,除高級語言外,還時常要用到匯編語言(需用到助記符如JMP,HLT等),在用戶輸入的字符串數據中還常可能夾有英文縮寫(如BCD,TTL等),這就使問題棘手起來。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國軟件技術公司,未經中國軟件技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/85100956/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熟大黃熱壓制法炮制工藝
- 下一篇:兩色分波硅彩色傳感器





