漢字形碼可能與漢字檢索相結合,做到“規則簡單,易學易用”。
由于國家頒布了漢字筆順規范,為“以筆順排序”提供了可能性。
手機普及率高,數字碼有利于推廣。
國學離不開繁體字,理想的漢字形碼將為繁體字的檢索、錄入、閱讀提供方便。
探討“理想的漢字形碼”能夠為我們指明研究的方向,少走彎路。正確的決心來源于正確的判斷。人們希望它能解決什么問題?它應該有什么特點?這些應該成為正確判斷的組成部分。
一個好的形碼應該具有以下特點:
1.王永民的五筆字型從專業角度解決了漢字形碼,但從普及和啟蒙角度來看,難度太大,門檻太高。要求“化難為易”。
2.見到一個讀不響的方塊字,想要知道它的讀音和它的意思,只有去查字典,或者叫“檢索”。通過字形查字典是個難點,新華字典的部首檢字表有75頁,其中的規則并不容易,一般要到三年級才能較快地查到一個生僻字。就是說,漢字檢索的規則太復雜。在對外漢語教學和民族漢語教學中這也是一個難點,同樣希望“化難為易”。
3.在當今的信息時代,書面字典的檢索應該與漢字編碼結合起來。理想的漢字形碼同時又是理想的漢字檢索方法。“規則簡單,易學易用”就是理想的標準。同時,查字與漢字輸入結合,提高使用頻度,熟能生巧,能夠提高查字效率,提高孩子學習查字的興趣。
4.碼元有拉丁字母和阿拉伯數字兩種選擇,由于手機普及率遠高于電腦,故碼元應以數字為宜。缺點是平均碼長會有所加長,但與T9拼音數碼令人厭煩的多次翻頁相比,這個缺點就是并無大礙了。
5.形碼取碼的對象有兩種選擇:筆劃、部件(如偏旁部首)。采用部首時要記住200個左右的部件,這是個妨礙普及的障礙,以筆劃為主則可以避開。然而,用“12345”對應“橫豎撇點折”,“67890”就閑置浪費了。為了充分利用碼元,經過整理用10個數碼表示5個筆劃和28個最常用部件,使得碼元平均所代表的部件數不超過5個。符合人類記憶的特點,有利于記憶效率的提高。利用筆劃,一種辦法是四角號碼,規則有難度。一種是按筆順,符合大眾習慣。采用筆順有一個有利的前提條件,就是政府已公布了國家漢字筆順規范GF3003-1999(2000.1.1實施)。如果人們都在隨意使用無序的倒插筆,筆順這個資源就不能夠被利用。所以一個權威的國家規范,是絕對必要的技術基礎。利用筆順的漢字輸入法有利于漢字書寫的規范化。
6.簡體漢字與繁體漢字使用同一個規則,有利于繁體字的健康回歸。推行簡化字是文字改革的重大步驟,據稱能大幅提高識字效率,降低文盲率。可惜,半個世紀的實踐證明,簡體字的我國,新文盲源源不斷,繁體字的香港和臺灣卻消除了文盲,所以把繁體字指責為文盲現象的罪魁禍首是不符事實的。而把繁體字邊緣化卻為群眾學習了解國學人為地設置了障礙。為漢字文化圈內文化交流增加了不必要的的困難,對我國的改革開放造成了消極影響。怎樣消除這些文改后遺癥?應該為繁體字的檢索、電腦錄入、以及閱讀創造物質條件。本項目就是努力之一。
項目的階段成果
1.6763一二級漢字中,共有重碼872組,其中二字重碼635組,三字重碼160組,四字重碼50組,五字至九字重碼共26組,13字重碼1組。鍵選率不高,鍵選時基本不翻頁,為詞輸入簡碼提供了條件。
2.GBK的21000字編碼已完成,現正向7萬字方向擴展。
【作者單位】漢字文化教育研究中心 |