【內容提要】典籍的數字化是圖書未來的發展方向。大陸的古籍電子化工作大約是在20世紀90年代末才起步的,但發展迅猛,至今已有一萬多種古籍實現了電子化,為人們利用古籍提供了極大的便利。但也存在不少問題。如僻字不能錄入顯示、檢索程序的技術水平有待提高、與常用字處理軟件的兼容性不盡如人意、符合理想標準的電子古籍還不多見、大型網絡古籍數據庫需要安裝專用的瀏覽軟件、不少大型古籍需要制作成電子文本,等等。本文就這些問題提出了改進建議。
【關鍵詞】古籍數字化圖書
正如紙的出現結束了竹書的時代一樣,數字技術的出現必將取代紙書的主流地位。對現代漢語而言,報刊書籍的數字化制作目前已達到了百分之百,只是最終形式還是多采用大家熟悉的紙質印刷品而已。隨著著作權法的進一步完善,網絡的不斷普及,電子閱讀器等終端產品的大量出現,方便廉價的電子圖書將會越來越多。但對古代典籍而言,數字化的進程相對要緩慢一些,這不僅是由于受市場需求的制約,同時也存在著技術障礙。不過形勢還是十分喜人的。下面我們把大陸數字化古籍的現狀進行一番盤點,看看發展到什么地步,存在一些什么問題,以促進古籍數字化的深入發展。
一、磁盤數字化古籍
與港臺相比,大陸的古籍電子化工作起步較晚,大約在20世紀90年代末才陸續上馬,但發展迅猛,大有后來居上之勢。北京書同文數字化技術有限公司研制了文淵閣《四庫全書》(與迪志文化出版有限公司合作,2000年完成)、《四部叢刊》(2001年完成)、《歷代石刻史料匯編》(2004年完成)、《十通》(2004年完成)、《大清五部會典》(分別編撰于康熙、雍正、乾隆、嘉慶、光緒五朝)、《大清歷朝實錄》等電子文獻。電子版《四庫全書》把原文轉化為電子字符,有全文(逐字)、分類(經、史、子、集)、書名、著者四種檢索模式,每種模式下還可以進行“與”(同現一卷)“或”(可只現其中一項)“非”(排除其中一部分)三種高級檢索,電子字符可與圖版進行對照。《四庫全書》的數字化是古籍數字化進程中具有里程碑意義的一件大事,為古籍的數字化制作樹立了標本,積累了經驗。《四部叢刊》除了具有與《四庫全書》相同的檢索功能外,還提供摘要、筆記、紀元換算及簡、繁、異體字相互關聯查詢的功能。《歷代石刻史料匯編》全文版采用當代數字化最新技術制作,中、日、韓漢字大字符集文字平臺,也有高級檢索功能。
1998年成立的北京愛如生數字化技術研究中心是大陸很有實力的古籍數字化專業公司,它制作完成的數字化古籍總數在3萬種以上,是目前大陸制作古籍最多的公司。愛如生有一個龐大的古籍數字化規劃,其網站上公布的古籍數據庫有:
大型數據庫 |
中國基本古籍庫 中國經典庫 中國方志庫 中國譜諜庫 中國叢書庫 中國金石庫 中國俗文庫 |
數字古典 |
敦煌遺珍 明清實錄 永樂大典 道教全書 宋會要輯稿 輯佚書合編 古今圖書集成 清帝朱批奏折
歷代筆記匯纂 增訂四部備要 全四庫 古版畫 |
系列數據庫 |
別集叢編系列 |
漢魏六朝人別集叢編 唐五代人別集叢編 宋人別集叢編 金元人別集叢編
明人別集叢編 清人別集叢編 民初人別集叢編 |
國學要籍系列 |
易學要籍 詩經學要籍 尚書學要籍 三禮學要籍 春秋學要籍 四書學要籍 小學要籍 |
斷代史料系列 |
秦漢史料庫 六朝史料庫 唐五代史料庫 宋遼金史料庫 蒙元史料庫 明代史料庫
清代史料庫 |
古典大觀系列 |
古典散文大觀 古典駢賦大觀 古典詩歌大觀 古典詞曲大觀 古典戲劇大觀
古典小說大觀 古典評論大觀 |
地方文獻系列 |
山東文獻 山西文獻 河北文獻 河南文獻 湖北文獻 湖南文獻 安徽文獻 江西文獻
江蘇文獻 浙江文獻 福建文獻 廣東文獻 四川文獻 云南文獻 陜西文獻 臺灣文獻
廣西文獻 貴州文獻 甘肅文獻 遼寧文獻 上海文獻 北京文獻 |
諸書集成系列 |
兵書集成 官箴書集成 法律書集成 典制書集成 邦計書集成 禪宗書集成 醫書集成
農書集成 天算書集成 水利書集成 日用書集成 術數書集成 賞鑒書集成 類書集成
辭書集成 目錄書集成 博物書集成 清真書集成 藝術書集成 |
這些數據庫有些已經完成,有些正在進行。1998正式啟動的“中國基本古籍庫”光盤工程是對中國古典文獻進行數字化處理的一項宏偉工程。該項目由北京大學中國基本古籍庫工作委員會和北京愛如生數字化技術研究中心連手制作,安徽黃山書社出版,共收錄上自先秦下至民國初年(公元前11世紀—公元20世紀20年代)的歷代典籍1萬種,每種典籍均提供1個通行版本的全文和1至2個重要版本的圖像,全文約18億字,版本1萬2千多個,圖像1千多萬頁,數據量約400G,內容總量約等于3部《四庫全書》。該庫將所收典籍分為哲科、史地、藝文、綜合4個子庫,20個大類,近百個細目。該光盤從2003年開始出版,到2005年10月全部出齊,共10輯。出版后數據庫又不斷加以完善,最新版是2006年12月推出的5.0版。
該數據庫對三類圖書不予收錄:1.叢書。因其內容與已收單本重復。2.篇幅超過千卷之書。因其部頭太大,占用資源太多。3.圖表為主之書。因其難以數字化。
這套數據庫的特色是:
其一,檢索方便快捷。中國基本古籍庫開發的ASE古籍專用檢索系統提供三種檢索方式:一、分類檢索,根據內容分為哲科、史地、藝文、綜合四類;二、條目檢索,有書名、作者、時代、版本、篇目五個選項;三、全文檢索,有類目、書名、作者、時代四個選項。這套檢索系統是目前最為完備的古籍檢索系統,便于篩除無用信息,實現精確檢索。
其二,使用功能眾多。例如在瀏覽原文時,可以加圈加點,加中文、英文或日文批注;可根據需要調閱數個版本,實現全文版與圖像版以及圖像版與圖像版的對照;可按頁碼翻上翻下,也可點擊目錄框跳轉至所選卷、篇、標題;可自動記錄二十條前次瀏覽的典籍及頁碼,以便重新檢閱;可自由設定豎排或橫排、有列線或無列線的版式,以適應不同讀者的閱讀習慣;可自動收藏并分類管理以前查閱的信息,方便歸納研究;可實現文字的繁簡、粗細及色彩的自由轉換,并可隨意縮放;可復制全文或章節進行校改、標點、注釋,并可打印;可通覽所收典籍的基本情況及內容提要,并可在選定后查看原書;可通覽一萬種典籍作者的概況,雙擊作者可檢索所收該作者的著作;可查詢所收典籍的現存版本及收藏地點;可利用隨機的語音字典查閱所收典籍中難字的發音和釋義。
其三,該程序有兩個特別機制:1)糾錯機制。凡成品數據有訛脫衍倒之處,在接到用戶的舉報后,即可通過糾錯盤予以更正,使數據煥然一新,日臻完美。2)擴充機制。程序預留了多個接口用于擴充數據。用戶可從“使用幫助”窗口提供的數達3萬種的“可供添加書目”中選購所需,也可從自己擁有的特色藏書中選擇所需,掛在程序之上,實現數據的無限擴張,建設既有基本古籍,又有特色古籍的個性化的數字圖書館。
其四,數據可運行于中、英、日、韓多語種操作平臺。
“中國經典庫”分儒經、佛典、道藏、子書4編。儒經編收錄儒家經典3000種,佛典編收錄佛教經典4000種,道藏編收錄道教經典2000種,子書編收錄諸子百家之書1000種,共計1萬種。全文總計超過10億字。
“中國方志庫”計劃收錄漢魏至民國時期的歷代方志1萬種,包括全國總志、各省通志、府州縣志、村鎮里巷志、山川名勝志、風俗鄉土志等,覆蓋全國近兩千個縣市。該數據庫有分省和分集2種形式。分省即按現行行政區劃的32個省市自治區分為32編,分集即按所收方志內容分為5集,其中4集為省府州縣志,1集為全國總志和各類專志、雜志、外志。每種地方志均提供全文數據和原版圖像,堪稱數字化中國地方志的淵藪。“中國方志庫”提供分類、區域、條目、全文四條檢索路徑。區域檢索通過中國現行行政區劃的省、地、縣三級地域查到相關的方志,條目檢索限定書名、時代、作者、版本等條件查到相關的方志,全文檢索輸入任意字、詞或字符串進行檢索,可檢索到所收方志中全部相關資料,并可預覽其摘句。如綜合各種關聯選項進行精確檢索,可排除大量無關資料。現已出版浙江、江蘇、廣東、上海(以上2005年推出)、山東、山西、福建、遼寧、吉林、黑龍江、北京、天津、海南、湖南、安徽(以上2006年推出)15省市自治區的方志初輯。
“中國譜牒庫”收錄家譜(宗譜、族譜、世譜、家譜、家乘等)、年譜(年譜、年表、行實、自述等)和日譜(日譜、日記、日錄、日札等)三類著作,共精選宋元明清歷代家譜類著作8000余種、年譜類著作1000余種和日譜類著作600余種,合計近萬種。每種皆據善本制成數碼全文,附以原版影像,總計超過20億字。
“中國叢書庫”分為初集、二集、三集,共精選300部最具文獻價值和版本價值的綜合類、專門類及地域類叢書,經過汰重取優,從中采錄罕見和實用的歷代典籍1萬種。每種皆據善本制成數碼化全文,附以原版影像,全文總計15億字。
“中國金石庫”收錄上古至民國初年歷代金石文獻,其中金石拓片10萬件,金石志書1千種。每種(件)各據善本(原件)詳加訂釋,制成數碼全文,附以高度清晰的原版影像和可以360度旋轉觀察的原件影像。全文總計超過3億字。
“中國俗文庫”收錄千百年來在民間廣泛流傳的俗文學作品與俗文字數據,如小說、話本、戲文、鼓詞、俗講、寶卷、善書、規約等。俗文中蘊含著雅文化所缺乏的下層社會生活和基層民眾心理的豐富信息,是研究中國社會史、生活史、宗教史、文學史的寶貴資源。“中國俗文庫”分為初集、二集、三集、四集,初集收錄小說和話本,二集收錄戲文和鼓詞,三集收錄俗講和寶卷,四集收錄善書和規約,合共1萬種。每種皆據善本制成數碼化全文,附以原版影像,全文總計8億字。
“全四庫”共收錄先秦至乾隆的歷代典籍8900種,全部采用現存善本制作,其中宋本33種,元本34種,明本2664種,清本6106種,民國本51種,外國本12種,孤本約3成。所收之書包括四庫著錄書3460種(其中3458種采用《文淵閣四庫全書》寫本,2種以清刻本補配)、四庫存目書4746種,四庫禁毀書527種,四庫未收書167種,并全文錄入《四庫提要》及辦理銷毀奏折原文。
2003年,北京國學時代文化傳播有限公司與商務印書館聯合推出“中國歷代基本典籍庫”大型數據庫系列光盤。全套光盤分“先秦兩漢魏晉南北朝卷”、“隋唐五代卷”、“宋遼金元卷”、“明清卷”四輯出版,共收錄三千多部古代典籍,總字數達6億。此套光盤以WINDOWS系統為平臺,使用GBK字庫。另附有專用圖形字庫,光盤中收錄的古代文獻所涉及的全部漢字及圖形,在該系統下均可正常顯示和打印。所有收錄的文獻均經過專業校對,并輔以先進的搜索引擎,查詢資料非常方便。現已面世的是“隋唐五代卷”,收入公元581年至960年間現存的重要文獻,包括詩文總集、唐人注疏、史籍選要、野史筆記、地理文獻、藝術著作、詩話、類書等九類,共136部,計8千多萬字,涵蓋了隋唐五代政治、經濟、文化、軍事等社會生活的各個方面。每部書都配有提要,便于讀者對使用的典籍有一個基本的了解。
國學公司還制作了《文獻目錄典》、《地理文獻典》(收歷代地理著作90種)、《中國古代小說典》等專題光盤。《文獻目錄典》收入史志目錄、官藏目錄、私藏目錄等有關文獻目錄方面的古籍40多種,并附歷代叢書子目、《國家圖書館善本書目》以及《全上古三代秦漢三國六朝文》、《先秦漢魏晉南北朝詩》、《全唐詩》、《全唐文》、《全宋詩》的篇目、作者索引。《中國古代小說典》光盤收錄中國古典小說549種,其中文言小說394種,白話小說155種,總字數約八千萬字。附錄中收錄了《敦煌變文集》、《四庫全書總目提要》以及多種小說提要的書目。這些光盤均具有全文檢索、復制及打印的功能。
國學公司還從普及的角度推出了《國學備覽》、《國學備要》等價廉物美的電子產品。《國學備要》是一張面向文史哲專業的大學生、研究生及文史研究人員的古籍文獻檢索光盤,共收錄研究人員常用的古籍280部,其中有《二十六史》、《十三經》、諸子(包括《藝文類聚》、《初學記》、《太平御覽》等)、詩文集(如《全唐詩》、《敦煌變文集》、《全唐五代詞》、《全宋詞》、《太平廣記》)等,總字數超過1億5千萬字,隨文配有3千余幅插圖,具有全文檢索、打印、復制等功能,并內置了聯機字典。
最近,國學公司又推出了《國學U盤智能圖書庫》系列U盤圖書,有10多種型號供使用者選擇,不同型號收書種類有別,其中也包括《國學備覽》和《國學備要》。U盤圖書配有圖片和音樂,還有真人發音字典及人名、書名、地名、帝王年號等專題知識庫,數據采用Unicode編碼,可在各種版本的Windows下使用。
我國現存最大的古代類書《古今圖書集成》也有電子版,該電子版由廣西金海灣電子音像出版社和廣西師范大學出版社于1999年聯合出版,共27張光盤,只是原文圖版。為了便于檢索,另編有索引數據庫。該索引數據庫是在印刷版索引的基礎上進一步擴充改進而成的,共有近37萬條記錄,約1200萬字,分為38個子庫,是一個編制得相當精細的索引體系。該索引數據庫分為“經緯目錄”和“索引目錄”兩大部分。經緯目錄是將《古今圖書集成》原有的40卷目錄改編為電子索引,供熟悉原書檢索體系的檢索者使用。在編制經緯目錄的過程中,編者作了大量增補、校正、注釋、參見的工作,并注明了原文在電子版和兩種印刷版(1934年中華書局出版的線裝本和1985~1988年中華書局與巴蜀書社聯合出版的精裝本)中的具體卷、冊、面、塊。索引目錄分為37類,即37個子數據庫,屬主題范疇分類性質。經緯目錄和索引目錄均提供現代術語與古代術語的對應轉換功能和模糊檢索功能,并且兩個目錄之間可以溝通。
金文資料的數字化也已開發完成。由陜西省考古研究所和西安大東國際數據有限公司合作研制的《金文字庫及金文資料全文檢索系統》收集金文約2600字,隸定金文4500字,隸定字有宋體、黑體、仿宋、幼圓等字體,輸入法有拼音輸入法、五筆輸入法、倉頡輸入法,并建立了部首導入法;金文資料收入自宋代以來傳世和出土的商周時期(下限到公元前221年秦始皇統一中國止)青銅器上的金文資料約12000篇,青銅器圖像約11000幅,另有相關的簡介文字(包括器物名稱、出土時間、出土地點、收藏單位、尺寸重量、花紋描述等)約120萬字,銘文拓片12000幅,釋文180萬字。金文全文資料庫的操作界面適應一般文史工作者的習慣,實現了多種形式的瀏覽和輸出,解除了金文研究只能在紙上手寫不能在電腦上操作的苦惱。但該軟件迄今尚未正式出版,人們無從利用。
不過由華東師范大學中國文字研究與應用中心研制的《金文語料庫》已于2003年由廣西教育出版社正式出版,該軟件收錄了目前見到的絕大多數金文資料,可以全文檢索任意字、詞、句,可以根據時代檢索,可以根據器名檢索,可以跟圖版進行對照,還提供檢索詞條的出現次數,檢索功能相當強大,能夠滿足多方面的檢索需求。華東師范大學中國文字研究與應用中心還研制了《戰國楚文字數字化處理系統》(上海教育出版社2003年出版)、《說文全文檢索系統》(包含《玉篇》和《萬象名義》,廣州:南方日報社2004年出版),也是檢索功能非常強大的電子古籍。
二、網絡數字化古籍
除了磁盤版的數字化古籍外,還有大量數字化古籍是網絡版的。網絡版具有易于維護升級、資源利用率高、節省用戶電腦資源等特點,應該是電子古籍未來的發展方向。事實上上面介紹的一些大型磁盤數字化古籍也有相應的網絡版,如“四庫全書”、“中國基本古籍庫”等。
大陸電子文獻最豐富的網站是“愛如生”,該網站的“典海”欄目是現今世界上規模最大的以中文古籍為主的數字圖書館,計劃收錄先秦至民國十年的歷代典籍5萬種(不收民國十年以后對上述典籍的點校、注釋、今譯之類著作)。典海下設3個閱讀平臺:
(1)快讀堂——提供斷句本數字典籍,總計5千種。
(2)拾箐苑——提供全文本數字典籍,總計2.5萬種。
(3)琳瑯閣——提供影像本數字典籍,總計5萬種(其中3萬種為斷句本和全文本所據底本)。
出于傳承中華文化、振興傳統學術的考慮,典海目前提供三項免費服務:斷句本典籍可免費閱讀,免費下載;全文本典籍可免費閱讀(但下載須付費);影像本典籍可免費閱讀。
愛如生網站還配有“搜神”搜索引擎,可對站內古籍進行全文搜索。
龍語瀚堂典籍數據庫是古籍數字化制作中涌現出來的后起之秀。傳統的計算機二字節編碼技術只能處理2萬多個漢字,對大量的生僻字無能為力。該數據庫采用unicode擴展技術,使計算機可處理的漢字種類的總量達到7萬字,基本解決了生僻漢字在計算機平臺上無法錄入、顯示、編輯的難題。這是目前大陸唯一可在微軟平臺上支持超大字符集、可進行自然語言全文檢索、實現編輯功能的古籍數據庫,差錯率控制在1/10000以內。所收典籍分為“小學工具”、“出土文獻”、“傳世文獻”、“專題文獻”四部分,不少典籍還有圖版對照,使用通用瀏覽器即可瀏覽、檢索和復制,無需下載任何客戶端軟件。下圖是龍語瀚堂典籍數據庫的總體構架及檢索頁面:

可以看出其規劃是相當宏偉的,志在將古典文獻一“網”打盡。現已上傳的典籍中最具特色的是小學類典籍及出土文獻,因為這類典籍僻字、俗字成堆,難以實現數字化,大多數古籍數據庫不愿收錄,即使收錄了,很多字也無法錄入顯示,不能正常使用,龍語瀚堂則解決了這一瓶頸。現已上傳的這類典籍有《說文解字》(大徐本)、《龍龕手鏡》、《康熙字典》、《爾雅音圖》、《集韻》、《廣韻》、《五音集韻》、《甲骨文合集》、《甲骨文編》、《小屯南地甲骨》、《殷周金文集成釋文》、《金文編》等。
中國國家圖書館網站的電子文獻也比較豐富,有“中文拓片資源庫”、“地方志資源庫”、“IDP數據庫”、“甲骨資源庫”、“西夏文獻資源庫”、“年畫資源庫”等,另有大量常見古典文獻,都可免費查閱。
“中文拓片資源庫”現有元數據23000余條,影像29000余幅。資源庫內容以刻立石年月排序,提供單一字段的簡單檢索、多條件限定組合的高級檢索和元數據內容關聯檢索等查詢方式。
“地方志資源庫”由全文影像庫、全文文本庫、書目庫、地名庫、作品庫、景觀庫、插圖庫、事件庫和相關文獻庫等構成,全部建成后可為用戶提供方志資源的多樣檢索,如全文、書目(含卷目)、地名、人物、作品、景觀、插圖、事件等單項與復合檢索,支持并實現與其他數字圖書館資源庫的關聯檢索和跨庫連接,最終形成內容豐富、檢索便利的館藏數字方志資源庫。
IDP是英文International Dunhuang Project的縮寫,漢語意思是“國際敦煌學項目”。該數據庫由英國圖書館于1993年開始開發,計劃逐步將世界上各機構收藏的敦煌文獻全部數字化。IDP數據庫用精密的數碼掃描設備將敦煌寫卷制成一幅幅高清晰的圖像,能展示寫卷的全部內容——正面、背面,甚至沒有文字的地方,圖像的清晰度與看原卷沒有區別。學者可以隨意地從屏幕上獲得高質量的彩色圖像,而且放大之后,過去用放大鏡不易觀察的字的細部、墨的層次、紙張的纖維等問題都可借助新技術迎刃而解。1998年10月,IDP網站正式運行,至今已上傳5萬幅寫卷、繪畫、藝術品、絲織品、老照片、地圖的圖像,還有相關的目錄信息,用戶可從網上進入IDP數據庫免費檢索,還可查閱敦煌學研究論著目錄。IDP在倫敦、北京、圣彼得堡、京都以及柏林都設有中心,各中心負責數據庫和網站的維護、更新及質量監控。
國學網是一個為國學研究提供資訊的網站,網上有可進行全文檢索的大型古籍數據庫《國學寶典》。該數據庫由北京國學時代文化傳播有限公司制作,收錄了自先秦至清末的古籍3800多種,總字數超過8億字。目前仍在不斷擴充,其目標是建成一個包含所有重要中文古籍的全文電子數據庫。《國學寶典》原為單機版,2005年2月推出了網絡版。系統使用unicode大字符集,生僻字及特殊文字如篆文、蒙文等都用圖片的方式來處理。古籍中配的大量插圖整卷顯示時可與文字同屏顯示。
國學網上還有不少中國古代經史子集各類典籍供免費閱覽,如《十三經》、《二十五史》、《資治通鑒》、《續資治通鑒》、《全唐文》、《全唐詩》、《全宋詞》、《文選》、明清小說、佛教典籍、道教典籍等,這些資料只能按篇名或卷數瀏覽,沒有字詞檢索功能。網站另有收費會員專區,提供《二十五史》、《十三經注疏》、《全唐詩》、《全唐文》、《全宋詞》、《宋遼金元詩歌》、《明清詩歌》等典籍的在線全文檢索。
北京大學中文系研制了《全唐詩》(包含“全唐詩補編”和“唐前詩及樂府詩集”)及《全宋詩》全文檢索系統,《全唐詩》全文檢索系統在其網頁上免費供外界使用,《全宋詩》全文檢索系統僅提供試用,試用系統只能檢索到部分詩歌。希望這試用期早日結束,讓外界能利用到《全宋詩》的全部資源。
南開大學組合數學研究中心、天津永川軟件技術有限公司、中國社會科學院計算機網絡中心聯合研制了“二十五史全文閱讀檢索系統”網絡版,國內有些單位購買了這一系統,供內部使用。該系統文本差錯少(也有差錯。如《晉書·甘卓傳》的“察孝謙”,“謙”原文作“廉”),正文與注文采用不同的字體及顏色顯示,非常醒目。
佛教典籍以中華佛典寶庫網站最為豐富,除《大藏經》外,還有藏外佛典、佛學辭典、佛教圖片、佛教音樂等,提供瀏覽及下載服務。中國數字圖書館已將《中華大藏經》上編(共106冊)放到網上,供免費閱覽。
道教的典籍以寧波廣播電視大學外語系的網頁提供的比較豐富,可以下載《道藏》(36冊,文物出版社、上海書店、天津古籍出版社,1988)、《藏外道書》(36冊,胡道靜等主編,巴蜀書社,1992—1994)等大量道教典籍的PDF文檔。
三、存在的問題及改進建議
從上面的介紹來看,我國重要的古籍大都已有了電子文本,包括傳世典籍和出土文獻,這給人們利用古代典籍提供了極大的方便,對中國傳統文化的學術研究起到了有力的促進作用。如今的學術研究如果不知道充分利用電子文獻,那就意味著效率上的少慢差費,成果的創新性及可靠性也要大打折扣。
不過,目前制作的電子古籍還存在不少缺陷。
其一是絕大部分電子古籍未能解決僻字的錄入顯示問題。遇到無法錄入顯示的僻字,或者用方框、黑塊等符號表示空缺,或者用數字代替,鏈接到字形圖片,或者說明偏旁的上下左右內外等,給閱讀利用造成障礙。下圖是國學網《國學寶典》《爾雅·釋魚》中的一條:

僻字用編號代替,開頭部分還是亂碼。最新的全功能試用版也是如此。
下圖是書同文制作的電子版《四庫全書》中《集韻·東韻》的一頁,□表示不能錄入顯示的字,一頁上就有22個字無法顯示。

這方面作得最好的是龍語瀚堂典籍數據庫,大部分僻字都能正常顯示。如上面《爾雅?釋魚》的那一條,龍語瀚堂典籍數據庫中顯示為:

盡管如此,不能顯示的字也仍然存在。如下圖中的黑塊就是無法顯示的字:

看來解決僻字的錄入顯示問題仍然是數碼技術急需攻克的難題。
其二是檢索程序的技術水平有待提高。一個好的檢索程序不但要速度快,還要能滿足多種條件的檢索需求。比如按朝代(當然更精確的是年代)檢索的功能在學術研究上非常有用,可惜目前除中國基本古籍庫的檢索程序提供這一功能外,大多數檢索程序都沒有這一功能。最近《國學寶典》的全功能試用版加入了按范圍檢索(分經、史、子、集、其他)和按年代檢索(分秦以前、兩漢、魏晉南北朝、隋唐五代、宋遼金元、明、清、近代八段)的檢索的功能,這使數據庫的利用價值有了較大提到。
檢索的準確性也是衡量檢索程序的一個重要標準,但大多數的檢索程序的準確性難以令人滿意。比如在《四庫全書》中檢索含有“籑”字的資料時,大量含有“撰”“饌”的資料也一并檢索出來;檢索“尺子”時,“尺予”、“尺于”、“斥予”、“斥于”、“斥子”等條目混雜其中,而且這些無關的條目還無法排除。另一方面,一些應該同時檢出的異體字,程序卻視為不同的字而不能檢出,出現漏檢的情況。如“狼跋”俗體也寫作“狼?”,當以“狼跋”為檢索詞時,“狼?”的資料檢不出來。有些關鍵詞明明在所收文獻中存在,但檢索程序就是檢不出來。
其三是與常用字處理軟件的兼容性不盡如人意。檢索出來的資料人們一般是要復制到WORD等字處理軟件中使用的,然而有些數據庫的資料復制粘貼后會發生錯誤。例如不少古籍帶有注文,注文一般是隨文用小字表示。當你把《四庫全書》中復制的帶注文的資料粘貼WORD中時,所有的注文都跑到正文的末尾之后,而不在原句之下,使你分不清楚哪是正文哪是注文。即便知道是注文,也不清楚是哪句正文的注文。不得已,還得跟數據庫中的原頁面仔細核對。大陸的使用者一般要把復制的繁體字資料轉換為簡體字,但這種轉換會發生錯誤。如用WORD的繁簡轉換工具把《四庫全書》中復制的“譙國華佗字元化”整體轉為簡體時,“元”被轉換成了“符”,令人莫名其妙。龍語瀚堂典籍數據庫中的有些僻字復制粘貼到WORD后會走樣,如上例《爾雅》中的 字復制到WORD后變成了鰴。
其四,理想的電子古籍應該用繁體字錄入顯示,盡可能保存底本文字的原樣(如俗體),加上標點,能全文檢索,并有相應的圖版頁面可隨時對照,但目前能達到這一標準的電子古籍幾乎沒有。有的只是圖版,只能瀏覽,不能檢索,如《古今圖書集成》、《道藏》等。有的只是電子字符,沒有圖版可供對照。如《國學寶典》使用簡體字,沒有圖版,使用價值為之遜色。國學公司意識到這一缺陷,最近又推出了《國學寶典》的繁體版。但把簡體轉換為繁體時會出現各種差錯,希望能作好校對工作。《四庫全書》雖然是繁體,而且有圖版對照,但沒有標點。有些繁體數據庫在檢索時只能輸入繁體字條目,如果輸入簡體,或者檢索不到,或者不是你想檢索的資料。這也需要改進,應該是輸入簡體繁體均可。愛如生的搜神引擎有“簡繁體字轉換”和“異體字關聯檢索”的選項,這種人性化的功能值得各種搜索引擎借鑒。
其五,數據庫使用的便捷性有待提高。不少大型網絡古籍數據庫需要安裝專用的瀏覽軟件,這給使用者造成不便。理想的狀態應該是用常用瀏覽器(如IE)就可瀏覽,事實上龍語瀚堂典籍數據庫也已經做到了這一點,建議其他數據庫的研制者借鑒龍語瀚堂的成功經驗。當然如果能研制出一個更切合古籍瀏覽的通用軟件也未嘗不可,但目前各自為政的做法實不可取。另外,使用者在復制資料的同時需要具體的出處,但絕大多數數據庫都不提供直接拷貝出處的服務,需要引用者自己逐項查找,如作者、書名、卷數、篇名等,非常麻煩。《四庫全書》數據庫倒是提供出處拷貝服務,遺憾的是只有書名和卷數,過于簡單。有些數據庫對復制原文防范過嚴,如“中國基本古籍庫”不能直接復制,須另外打開“下載編輯”窗口才能復制,而且每次最多只能復制200字,很不方便,建議修改為能復制全部當前頁。
其六,內容方面的缺憾。雖然數字化的古籍已經很多,但大多數是元代以前的典籍,明清典籍所占比重很小。這是因為大多數數據庫是在《四庫全書》的基礎上建立起來的,《四庫全書》收書的原則是貴遠賤近,明代典籍很少,清代典籍更少,而這兩代的典籍加起來至少是此前所有典籍的總和的兩倍。而我們今天想檢索明清時期的資料時卻沒有大型數據庫可供利用,對學術研究極為不利。那么,哪些古籍可以彌補這方面的缺憾呢?由于目前還沒有編纂出明清著述總集,建議先把下面這些大型叢書制作成數字古籍:《續修四庫全書》、《四庫全書存目叢書》、《叢書集成初編》及《續編》、《近代中國史料叢刊》等,這些叢書的使用價值是很高的,如果把它們制作成了數字版,明清資料檢索的困難可以得到很大的緩解。
另外,宗教文獻也亟待數字化。《道藏》目前只有圖版,建議把最新整理的《中華道藏》制作成數字版。《大藏經》雖然有數字版,但采用的底本是日本鉛字排印的《大正藏》,錯誤較多,建議把學術價值比較高的《中華大藏經》(中華書局1984—1997)制作成數字版。其他如甲骨文獻、敦煌文獻也都需要數字化。
我們期待有志于古籍數字化事業的人士盡早將這些大型文獻制作成理想的數字文本,這將是一項利在當代、惠及千秋的功績,那些化巨額資金打造“金書”以嘩眾取寵的做法跟這一功績相比,是不可同日而語的。
【作者單位】南開大學文學院 |