一、字庫與字符數目
現在在漢字文化圈中所使用的計算機漢字字庫有如下幾種:
中國大陸GB2312—80:3755+3008=6763個漢字
GB12345—90:3755+3008+103=6864個繁體字
CJK—GBK:ISO IEC 10646—1.2標準。全國信標委曾制定和發布《漢字擴展規范GBK1.0》,并在MSWindows9x/Me/NT/2000、IBMOS/2的系統中廣泛應用。大約有20902個漢字。1993年國際標準化組織發布了ISO/IEC10646-1《信息技術通用多八位編碼字符集第一部分體系結構與基本多文種平面》。我國等同采用此標準制定了GB13000.1-1993。該標準采用了全新的多文種編碼體系,收錄了中、日、韓三國所使用的漢字,是編碼體系未來發展方向。GB18030是國家標準,在技術上是GBK的超集,并與其兼容,它包含GBK字符集、CJKExt-A全部6582個漢字,共計27533個漢字。因此,GBK將結束其歷史使命。
國際標準化組織在ISO10646-2000的基本平面(BMP或者Unicode 3.0,下簡稱Unicode)編入了27564漢字(U+4E00~U+9FFF以及U+3400~U+4DFF),即是2000年3月在GB18030頒布時所建議支持的字匯。其中U+3400~U+4DFF部分的6582個漢字又稱為擴展A。同時國際標準化組織還在ISO10646-2000的第二平面擴展了42711漢字(又稱為擴展B)。該42711漢字的編碼表已基本確定,盡管不排除未來微小變動的可能性。由于這42711漢字編排在ISO10646-2000的第二平面,所以編碼需要4個字節。為了能夠存取處理這些4字節字符,在Unicode中引入了Surrogate機制(在ISO10646-2000中命名為UTF-16)。根據這樣一種機制,在Unicode中用兩個16位編碼就可以對ISO10646-2000第二平面中的漢字進行存取。這實際上就是GB18030-2000《信息交換用漢字編碼字符集基本集的擴充》,是我國繼GB2312-1980和GB13000-1993之后最重要的漢字編碼標準。目前OfficeXP以上所整合的“宋體-方正超大規模字符集”就是這一標準的字庫。它的CJK統一漢字就包括了前述擴展A,而其CJK統一漢字擴展B,就是本標準的擴展B。目前國家語委正在制定新的擴展C,將收錄更多的漢字以及相關字符(如電子版《四庫全書》FZKai—Z03字庫所收錄的六十四卦符號等等)
中國臺灣(TCA)CNS11643(BIG-5字符集,中文大五碼):5401+7650=13051+6148罕用字=19199個漢字
中國香港GCCSG字符集(政府通用字庫)共收3049個Big5碼欠缺的外字。HKSCS字符集,(香港增補字符集),是《政府通用字庫》的更新版,包括4702個字符,其中2943個字符為!墩ㄓ米謳臁吩凶址,新增的字符共有1759個。HKSCS-2001字符集(香港增補字符集-2001),共包含4818個字符,其中2943個字符為政府通用字庫原有字符,新增的字符共有1759個。《政府通用字庫》原有字符,增納的字符共有1875個。HKSCS-2004字符集(香港增補字符集-2004),包括4941個字符,其中4818個字符,漢字字符4500個,是《香港增補字符集-2001》內原有的字符,增收的字符共有123個。
日本JISX0205—1983:2965+3388=6353個漢字
韓國KSC5601—1987:4888個漢字
我們以為在ISO10646-2000漢字字符集最新的擴展C之后,一般古籍用字大概可以得到解決,但仍然存在一些問題。
1.避諱字
這里說的不是改換避諱字為其他字,如改“玄”為“元”之類;也不是空字的方法,這里說的是對避諱字筆畫進行刪改而形成的缺筆字。如電子版《四庫全書》的FZKai—Z03字庫所收錄的一些缺筆避諱字。不過這里所錄的只是清代乾隆以前的缺筆避諱字,清代其他皇帝以及其他朝代的缺筆避諱字還是闕如。我們知道,宋代的避諱很發達,無論是皇族的“圣諱”還是個人的“家諱”都有。一些工具書列出了歷代常用的避諱字可供我們制定字庫時參考。
2.古文字
這里說的是甲骨文、金文、戰國文字、小篆等古文字。雖然一般的古籍用不上這些文字,但是一些字書、藝術書或某些書籍還是會用到的。不用說古文字字書如《說文解字》、《汗簡》等,就是《康熙字典》也有小篆;其他比如清人陳啟源注釋《詩經》的《毛詩稽古編》也使用了小篆。我們以為,這些古籍在數字化的時候是應該保存古文字字體的。
二、字體字形
這里主要說的是對印刷本古籍數字化時所使用的漢字的字體與字形。在唐代雕版印刷書籍之前都是手抄本,在雕版印刷之后也有大量手抄本,這類古籍的字體字形本文暫不討論。
現在的印刷體字形源于雕版印刷書籍的字形。所謂宋體字其實形成于明代,所以日本等地稱之為“明體”,清代之后又形成諸如仿宋、長宋、扁宋等變體。但是由于從1956年開始中國文字改革委員會組成了標準字形研究組,試圖統一印刷體字形并縮小與手寫體的差距。文化部于1959年召開了革新鉛字字形座談會,委托文改會、教育部、語言所聯合組成漢字字形整理組。最終1965年1月文化部和文改會發出《關于統一漢字鉛字字形的聯合通知》,把《印刷通用漢字字形表》印刷成樣本,隨文下發,逐步推行。該表收字6196個,目前大多數漢語字典、詞典都附有“新舊字形對照表”就是對這個表所規定的新舊字形不一致的偏旁、部首以及漢字的歸納。目前大陸所制定的漢字字庫,其字形就依照這一標準,因而有的古籍的字形就不在此字庫之內。所以為古籍數字化建設考慮,我們的字庫應保有這些所謂的“舊字形”。
有人說,《康熙字典》的字形就是舊字形的代表,這種說法至少不太全面。自宋代雕版印刷興盛以來,其字體可以說是百花齊放,經過多種變化。早期宋版書所用的字體,大多是唐代著名書法家的楷書體。大致說來,蜀本宗顏,閩刻學柳,兩浙崇歐。而后期除了寫刻本之外,大體可分為硬、軟兩大類。軟即是楷體,硬則是當時所形成的一種橫平豎直,縱向略長,與行格線極其和諧的刻書專用字體。此后就刻書用字來說,元版多用趙孟頫體,明代前期則沿襲元而多用趙體;中期則是仿宋,即仿照前述宋代刻書的硬體,橫輕豎重,筆畫硬直,結構方整的匠體字;晚期則字形變長。清代康熙、乾隆多寫刻本,而硬體則前期基本沿襲明代,后期則字形略為圓滑、小氣。目前我們所見到的《康熙字典》的字頭,即是軟體的楷書字。它跟電子版《四庫全書》描畫的臺閣體楷書字十分相似。
我們以為,古籍數字化所用字庫的字體,除了硬體的宋體、仿宋及其變體外,還應有軟體楷書的仿顏、歐、柳、趙以至臺閣體等字體[1]。這樣就可以基本上反映古籍的字形面貌。當然,如有必要,我們還可以把一些向來為人們所稱道的刷印精美的善本書字體收入,比如上一世紀六十年代印刷《毛主席詩詞》時,就是集宋本樓鈅《攻媿集》的字印成的,因為宋本樓鈅《攻媿集》的字體素稱精美。當然,這些書籍使用的字數有限,我們可以分析其基本部件以及組字規律來形成完整的字庫[2]。
【注釋】
[1]筆者在《關于計算機生成漢字系統》一文中說:“近年有的學者在有關字體的學習字帖中,采用了筆畫、偏旁分析教學法。有的是依照‘永字八法'來規定筆畫的,有的則比較靈活。而且大多按照該字體的特點對每一種筆畫、偏旁詳細分類;書法還對許多相同的部件在不同的位置應該具有不同的形狀做了研究,比如‘多'的上下兩個‘夕'字,‘林'的左右兩個‘木'字的大小走勢的不同等等,這些對我們生成某一特定字體的字庫是有意義的。”
[2]筆者在《關于計算機生成漢字系統》中說:在研究出漢字部件庫之后,可以“對利用部件生成漢字的模式圖及二維語法進行完善,自動對進入漢字特定部位的部件縱、橫、大小進行調整,使得能夠生成結構合理、美觀的漢字!
【作者單位】黑龍江大學古籍所
|