【內(nèi)容提要】典籍的數(shù)字化是圖書(shū)未來(lái)的發(fā)展方向。大陸的古籍電子化工作大約是在20世紀(jì)90年代末才起步的,但發(fā)展迅猛,至今已有一萬(wàn)多種古籍實(shí)現(xiàn)了電子化,為人們利用古籍提供了極大的便利。但也存在不少問(wèn)題。如僻字不能錄入顯示、檢索程序的技術(shù)水平有待提高、與常用字處理軟件的兼容性不盡如人意、符合理想標(biāo)準(zhǔn)的電子古籍還不多見(jiàn)、大型網(wǎng)絡(luò)古籍?dāng)?shù)據(jù)庫(kù)需要安裝專(zhuān)用的瀏覽軟件、不少大型古籍需要制作成電子文本,等等。本文就這些問(wèn)題提出了改進(jìn)建議。
【關(guān)鍵詞】古籍?dāng)?shù)字化圖書(shū)
正如紙的出現(xiàn)結(jié)束了竹書(shū)的時(shí)代一樣,數(shù)字技術(shù)的出現(xiàn)必將取代紙書(shū)的主流地位。對(duì)現(xiàn)代漢語(yǔ)而言,報(bào)刊書(shū)籍的數(shù)字化制作目前已達(dá)到了百分之百,只是最終形式還是多采用大家熟悉的紙質(zhì)印刷品而已。隨著著作權(quán)法的進(jìn)一步完善,網(wǎng)絡(luò)的不斷普及,電子閱讀器等終端產(chǎn)品的大量出現(xiàn),方便廉價(jià)的電子圖書(shū)將會(huì)越來(lái)越多。但對(duì)古代典籍而言,數(shù)字化的進(jìn)程相對(duì)要緩慢一些,這不僅是由于受市場(chǎng)需求的制約,同時(shí)也存在著技術(shù)障礙。不過(guò)形勢(shì)還是十分喜人的。下面我們把大陸數(shù)字化古籍的現(xiàn)狀進(jìn)行一番盤(pán)點(diǎn),看看發(fā)展到什么地步,存在一些什么問(wèn)題,以促進(jìn)古籍?dāng)?shù)字化的深入發(fā)展。
一、磁盤(pán)數(shù)字化古籍
與港臺(tái)相比,大陸的古籍電子化工作起步較晚,大約在20世紀(jì)90年代末才陸續(xù)上馬,但發(fā)展迅猛,大有后來(lái)居上之勢(shì)。北京書(shū)同文數(shù)字化技術(shù)有限公司研制了文淵閣《四庫(kù)全書(shū)》(與迪志文化出版有限公司合作,2000年完成)、《四部叢刊》(2001年完成)、《歷代石刻史料匯編》(2004年完成)、《十通》(2004年完成)、《大清五部會(huì)典》(分別編撰于康熙、雍正、乾隆、嘉慶、光緒五朝)、《大清歷朝實(shí)錄》等電子文獻(xiàn)。電子版《四庫(kù)全書(shū)》把原文轉(zhuǎn)化為電子字符,有全文(逐字)、分類(lèi)(經(jīng)、史、子、集)、書(shū)名、著者四種檢索模式,每種模式下還可以進(jìn)行“與”(同現(xiàn)一卷)“或”(可只現(xiàn)其中一項(xiàng))“非”(排除其中一部分)三種高級(jí)檢索,電子字符可與圖版進(jìn)行對(duì)照!端膸(kù)全書(shū)》的數(shù)字化是古籍?dāng)?shù)字化進(jìn)程中具有里程碑意義的一件大事,為古籍的數(shù)字化制作樹(shù)立了標(biāo)本,積累了經(jīng)驗(yàn)!端牟繀部烦司哂信c《四庫(kù)全書(shū)》相同的檢索功能外,還提供摘要、筆記、紀(jì)元換算及簡(jiǎn)、繁、異體字相互關(guān)聯(lián)查詢(xún)的功能。《歷代石刻史料匯編》全文版采用當(dāng)代數(shù)字化最新技術(shù)制作,中、日、韓漢字大字符集文字平臺(tái),也有高級(jí)檢索功能。
1998年成立的北京愛(ài)如生數(shù)字化技術(shù)研究中心是大陸很有實(shí)力的古籍?dāng)?shù)字化專(zhuān)業(yè)公司,它制作完成的數(shù)字化古籍總數(shù)在3萬(wàn)種以上,是目前大陸制作古籍最多的公司。愛(ài)如生有一個(gè)龐大的古籍?dāng)?shù)字化規(guī)劃,其網(wǎng)站上公布的古籍?dāng)?shù)據(jù)庫(kù)有:
大型數(shù)據(jù)庫(kù) |
中國(guó)基本古籍庫(kù) 中國(guó)經(jīng)典庫(kù) 中國(guó)方志庫(kù) 中國(guó)譜諜庫(kù) 中國(guó)叢書(shū)庫(kù) 中國(guó)金石庫(kù) 中國(guó)俗文庫(kù) |
數(shù)字古典 |
敦煌遺珍 明清實(shí)錄 永樂(lè)大典 道教全書(shū) 宋會(huì)要輯稿 輯佚書(shū)合編 古今圖書(shū)集成 清帝朱批奏折
歷代筆記匯纂 增訂四部備要 全四庫(kù) 古版畫(huà) |
系列數(shù)據(jù)庫(kù) |
別集叢編系列 |
漢魏六朝人別集叢編 唐五代人別集叢編 宋人別集叢編 金元人別集叢編
明人別集叢編 清人別集叢編 民初人別集叢編 |
國(guó)學(xué)要籍系列 |
易學(xué)要籍 詩(shī)經(jīng)學(xué)要籍 尚書(shū)學(xué)要籍 三禮學(xué)要籍 春秋學(xué)要籍 四書(shū)學(xué)要籍 小學(xué)要籍 |
斷代史料系列 |
秦漢史料庫(kù) 六朝史料庫(kù) 唐五代史料庫(kù) 宋遼金史料庫(kù) 蒙元史料庫(kù) 明代史料庫(kù)
清代史料庫(kù) |
古典大觀系列 |
古典散文大觀 古典駢賦大觀 古典詩(shī)歌大觀 古典詞曲大觀 古典戲劇大觀
古典小說(shuō)大觀 古典評(píng)論大觀 |
地方文獻(xiàn)系列 |
山東文獻(xiàn) 山西文獻(xiàn) 河北文獻(xiàn) 河南文獻(xiàn) 湖北文獻(xiàn) 湖南文獻(xiàn) 安徽文獻(xiàn) 江西文獻(xiàn)
江蘇文獻(xiàn) 浙江文獻(xiàn) 福建文獻(xiàn) 廣東文獻(xiàn) 四川文獻(xiàn) 云南文獻(xiàn) 陜西文獻(xiàn) 臺(tái)灣文獻(xiàn)
廣西文獻(xiàn) 貴州文獻(xiàn) 甘肅文獻(xiàn) 遼寧文獻(xiàn) 上海文獻(xiàn) 北京文獻(xiàn) |
諸書(shū)集成系列 |
兵書(shū)集成 官箴書(shū)集成 法律書(shū)集成 典制書(shū)集成 邦計(jì)書(shū)集成 禪宗書(shū)集成 醫(yī)書(shū)集成
農(nóng)書(shū)集成 天算書(shū)集成 水利書(shū)集成 日用書(shū)集成 術(shù)數(shù)書(shū)集成 賞鑒書(shū)集成 類(lèi)書(shū)集成
辭書(shū)集成 目錄書(shū)集成 博物書(shū)集成 清真書(shū)集成 藝術(shù)書(shū)集成 |
這些數(shù)據(jù)庫(kù)有些已經(jīng)完成,有些正在進(jìn)行。1998正式啟動(dòng)的“中國(guó)基本古籍庫(kù)”光盤(pán)工程是對(duì)中國(guó)古典文獻(xiàn)進(jìn)行數(shù)字化處理的一項(xiàng)宏偉工程。該項(xiàng)目由北京大學(xué)中國(guó)基本古籍庫(kù)工作委員會(huì)和北京愛(ài)如生數(shù)字化技術(shù)研究中心連手制作,安徽黃山書(shū)社出版,共收錄上自先秦下至民國(guó)初年(公元前11世紀(jì)—公元20世紀(jì)20年代)的歷代典籍1萬(wàn)種,每種典籍均提供1個(gè)通行版本的全文和1至2個(gè)重要版本的圖像,全文約18億字,版本1萬(wàn)2千多個(gè),圖像1千多萬(wàn)頁(yè),數(shù)據(jù)量約400G,內(nèi)容總量約等于3部《四庫(kù)全書(shū)》。該庫(kù)將所收典籍分為哲科、史地、藝文、綜合4個(gè)子庫(kù),20個(gè)大類(lèi),近百個(gè)細(xì)目。該光盤(pán)從2003年開(kāi)始出版,到2005年10月全部出齊,共10輯。出版后數(shù)據(jù)庫(kù)又不斷加以完善,最新版是2006年12月推出的5.0版。
該數(shù)據(jù)庫(kù)對(duì)三類(lèi)圖書(shū)不予收錄:1.叢書(shū)。因其內(nèi)容與已收單本重復(fù)。2.篇幅超過(guò)千卷之書(shū)。因其部頭太大,占用資源太多。3.圖表為主之書(shū)。因其難以數(shù)字化。
這套數(shù)據(jù)庫(kù)的特色是:
其一,檢索方便快捷。中國(guó)基本古籍庫(kù)開(kāi)發(fā)的ASE古籍專(zhuān)用檢索系統(tǒng)提供三種檢索方式:一、分類(lèi)檢索,根據(jù)內(nèi)容分為哲科、史地、藝文、綜合四類(lèi);二、條目檢索,有書(shū)名、作者、時(shí)代、版本、篇目五個(gè)選項(xiàng);三、全文檢索,有類(lèi)目、書(shū)名、作者、時(shí)代四個(gè)選項(xiàng)。這套檢索系統(tǒng)是目前最為完備的古籍檢索系統(tǒng),便于篩除無(wú)用信息,實(shí)現(xiàn)精確檢索。
其二,使用功能眾多。例如在瀏覽原文時(shí),可以加圈加點(diǎn),加中文、英文或日文批注;可根據(jù)需要調(diào)閱數(shù)個(gè)版本,實(shí)現(xiàn)全文版與圖像版以及圖像版與圖像版的對(duì)照;可按頁(yè)碼翻上翻下,也可點(diǎn)擊目錄框跳轉(zhuǎn)至所選卷、篇、標(biāo)題;可自動(dòng)記錄二十條前次瀏覽的典籍及頁(yè)碼,以便重新檢閱;可自由設(shè)定豎排或橫排、有列線(xiàn)或無(wú)列線(xiàn)的版式,以適應(yīng)不同讀者的閱讀習(xí)慣;可自動(dòng)收藏并分類(lèi)管理以前查閱的信息,方便歸納研究;可實(shí)現(xiàn)文字的繁簡(jiǎn)、粗細(xì)及色彩的自由轉(zhuǎn)換,并可隨意縮放;可復(fù)制全文或章節(jié)進(jìn)行校改、標(biāo)點(diǎn)、注釋?zhuān)⒖纱蛴;可通覽所收典籍的基本情況及內(nèi)容提要,并可在選定后查看原書(shū);可通覽一萬(wàn)種典籍作者的概況,雙擊作者可檢索所收該作者的著作;可查詢(xún)所收典籍的現(xiàn)存版本及收藏地點(diǎn);可利用隨機(jī)的語(yǔ)音字典查閱所收典籍中難字的發(fā)音和釋義。
其三,該程序有兩個(gè)特別機(jī)制:1)糾錯(cuò)機(jī)制。凡成品數(shù)據(jù)有訛脫衍倒之處,在接到用戶(hù)的舉報(bào)后,即可通過(guò)糾錯(cuò)盤(pán)予以更正,使數(shù)據(jù)煥然一新,日臻完美。2)擴(kuò)充機(jī)制。程序預(yù)留了多個(gè)接口用于擴(kuò)充數(shù)據(jù)。用戶(hù)可從“使用幫助”窗口提供的數(shù)達(dá)3萬(wàn)種的“可供添加書(shū)目”中選購(gòu)所需,也可從自己擁有的特色藏書(shū)中選擇所需,掛在程序之上,實(shí)現(xiàn)數(shù)據(jù)的無(wú)限擴(kuò)張,建設(shè)既有基本古籍,又有特色古籍的個(gè)性化的數(shù)字圖書(shū)館。
其四,數(shù)據(jù)可運(yùn)行于中、英、日、韓多語(yǔ)種操作平臺(tái)。
“中國(guó)經(jīng)典庫(kù)”分儒經(jīng)、佛典、道藏、子書(shū)4編。儒經(jīng)編收錄儒家經(jīng)典3000種,佛典編收錄佛教經(jīng)典4000種,道藏編收錄道教經(jīng)典2000種,子書(shū)編收錄諸子百家之書(shū)1000種,共計(jì)1萬(wàn)種。全文總計(jì)超過(guò)10億字。
“中國(guó)方志庫(kù)”計(jì)劃收錄漢魏至民國(guó)時(shí)期的歷代方志1萬(wàn)種,包括全國(guó)總志、各省通志、府州縣志、村鎮(zhèn)里巷志、山川名勝志、風(fēng)俗鄉(xiāng)土志等,覆蓋全國(guó)近兩千個(gè)縣市。該數(shù)據(jù)庫(kù)有分省和分集2種形式。分省即按現(xiàn)行行政區(qū)劃的32個(gè)省市自治區(qū)分為32編,分集即按所收方志內(nèi)容分為5集,其中4集為省府州縣志,1集為全國(guó)總志和各類(lèi)專(zhuān)志、雜志、外志。每種地方志均提供全文數(shù)據(jù)和原版圖像,堪稱(chēng)數(shù)字化中國(guó)地方志的淵藪!爸袊(guó)方志庫(kù)”提供分類(lèi)、區(qū)域、條目、全文四條檢索路徑。區(qū)域檢索通過(guò)中國(guó)現(xiàn)行行政區(qū)劃的省、地、縣三級(jí)地域查到相關(guān)的方志,條目檢索限定書(shū)名、時(shí)代、作者、版本等條件查到相關(guān)的方志,全文檢索輸入任意字、詞或字符串進(jìn)行檢索,可檢索到所收方志中全部相關(guān)資料,并可預(yù)覽其摘句。如綜合各種關(guān)聯(lián)選項(xiàng)進(jìn)行精確檢索,可排除大量無(wú)關(guān)資料,F(xiàn)已出版浙江、江蘇、廣東、上海(以上2005年推出)、山東、山西、福建、遼寧、吉林、黑龍江、北京、天津、海南、湖南、安徽(以上2006年推出)15省市自治區(qū)的方志初輯。
“中國(guó)譜牒庫(kù)”收錄家譜(宗譜、族譜、世譜、家譜、家乘等)、年譜(年譜、年表、行實(shí)、自述等)和日譜(日譜、日記、日錄、日札等)三類(lèi)著作,共精選宋元明清歷代家譜類(lèi)著作8000余種、年譜類(lèi)著作1000余種和日譜類(lèi)著作600余種,合計(jì)近萬(wàn)種。每種皆據(jù)善本制成數(shù)碼全文,附以原版影像,總計(jì)超過(guò)20億字。
“中國(guó)叢書(shū)庫(kù)”分為初集、二集、三集,共精選300部最具文獻(xiàn)價(jià)值和版本價(jià)值的綜合類(lèi)、專(zhuān)門(mén)類(lèi)及地域類(lèi)叢書(shū),經(jīng)過(guò)汰重取優(yōu),從中采錄罕見(jiàn)和實(shí)用的歷代典籍1萬(wàn)種。每種皆據(jù)善本制成數(shù)碼化全文,附以原版影像,全文總計(jì)15億字。
“中國(guó)金石庫(kù)”收錄上古至民國(guó)初年歷代金石文獻(xiàn),其中金石拓片10萬(wàn)件,金石志書(shū)1千種。每種(件)各據(jù)善本(原件)詳加訂釋?zhuān)瞥蓴?shù)碼全文,附以高度清晰的原版影像和可以360度旋轉(zhuǎn)觀察的原件影像。全文總計(jì)超過(guò)3億字。
“中國(guó)俗文庫(kù)”收錄千百年來(lái)在民間廣泛流傳的俗文學(xué)作品與俗文字?jǐn)?shù)據(jù),如小說(shuō)、話(huà)本、戲文、鼓詞、俗講、寶卷、善書(shū)、規(guī)約等。俗文中蘊(yùn)含著雅文化所缺乏的下層社會(huì)生活和基層民眾心理的豐富信息,是研究中國(guó)社會(huì)史、生活史、宗教史、文學(xué)史的寶貴資源。“中國(guó)俗文庫(kù)”分為初集、二集、三集、四集,初集收錄小說(shuō)和話(huà)本,二集收錄戲文和鼓詞,三集收錄俗講和寶卷,四集收錄善書(shū)和規(guī)約,合共1萬(wàn)種。每種皆據(jù)善本制成數(shù)碼化全文,附以原版影像,全文總計(jì)8億字。
“全四庫(kù)”共收錄先秦至乾隆的歷代典籍8900種,全部采用現(xiàn)存善本制作,其中宋本33種,元本34種,明本2664種,清本6106種,民國(guó)本51種,外國(guó)本12種,孤本約3成。所收之書(shū)包括四庫(kù)著錄書(shū)3460種(其中3458種采用《文淵閣四庫(kù)全書(shū)》寫(xiě)本,2種以清刻本補(bǔ)配)、四庫(kù)存目書(shū)4746種,四庫(kù)禁毀書(shū)527種,四庫(kù)未收書(shū)167種,并全文錄入《四庫(kù)提要》及辦理銷(xiāo)毀奏折原文。
2003年,北京國(guó)學(xué)時(shí)代文化傳播有限公司與商務(wù)印書(shū)館聯(lián)合推出“中國(guó)歷代基本典籍庫(kù)”大型數(shù)據(jù)庫(kù)系列光盤(pán)。全套光盤(pán)分“先秦兩漢魏晉南北朝卷”、“隋唐五代卷”、“宋遼金元卷”、“明清卷”四輯出版,共收錄三千多部古代典籍,總字?jǐn)?shù)達(dá)6億。此套光盤(pán)以WINDOWS系統(tǒng)為平臺(tái),使用GBK字庫(kù)。另附有專(zhuān)用圖形字庫(kù),光盤(pán)中收錄的古代文獻(xiàn)所涉及的全部漢字及圖形,在該系統(tǒng)下均可正常顯示和打印。所有收錄的文獻(xiàn)均經(jīng)過(guò)專(zhuān)業(yè)校對(duì),并輔以先進(jìn)的搜索引擎,查詢(xún)資料非常方便,F(xiàn)已面世的是“隋唐五代卷”,收入公元581年至960年間現(xiàn)存的重要文獻(xiàn),包括詩(shī)文總集、唐人注疏、史籍選要、野史筆記、地理文獻(xiàn)、藝術(shù)著作、詩(shī)話(huà)、類(lèi)書(shū)等九類(lèi),共136部,計(jì)8千多萬(wàn)字,涵蓋了隋唐五代政治、經(jīng)濟(jì)、文化、軍事等社會(huì)生活的各個(gè)方面。每部書(shū)都配有提要,便于讀者對(duì)使用的典籍有一個(gè)基本的了解。
國(guó)學(xué)公司還制作了《文獻(xiàn)目錄典》、《地理文獻(xiàn)典》(收歷代地理著作90種)、《中國(guó)古代小說(shuō)典》等專(zhuān)題光盤(pán)!段墨I(xiàn)目錄典》收入史志目錄、官藏目錄、私藏目錄等有關(guān)文獻(xiàn)目錄方面的古籍40多種,并附歷代叢書(shū)子目、《國(guó)家圖書(shū)館善本書(shū)目》以及《全上古三代秦漢三國(guó)六朝文》、《先秦漢魏晉南北朝詩(shī)》、《全唐詩(shī)》、《全唐文》、《全宋詩(shī)》的篇目、作者索引!吨袊(guó)古代小說(shuō)典》光盤(pán)收錄中國(guó)古典小說(shuō)549種,其中文言小說(shuō)394種,白話(huà)小說(shuō)155種,總字?jǐn)?shù)約八千萬(wàn)字。附錄中收錄了《敦煌變文集》、《四庫(kù)全書(shū)總目提要》以及多種小說(shuō)提要的書(shū)目。這些光盤(pán)均具有全文檢索、復(fù)制及打印的功能。
國(guó)學(xué)公司還從普及的角度推出了《國(guó)學(xué)備覽》、《國(guó)學(xué)備要》等價(jià)廉物美的電子產(chǎn)品!秶(guó)學(xué)備要》是一張面向文史哲專(zhuān)業(yè)的大學(xué)生、研究生及文史研究人員的古籍文獻(xiàn)檢索光盤(pán),共收錄研究人員常用的古籍280部,其中有《二十六史》、《十三經(jīng)》、諸子(包括《藝文類(lèi)聚》、《初學(xué)記》、《太平御覽》等)、詩(shī)文集(如《全唐詩(shī)》、《敦煌變文集》、《全唐五代詞》、《全宋詞》、《太平廣記》)等,總字?jǐn)?shù)超過(guò)1億5千萬(wàn)字,隨文配有3千余幅插圖,具有全文檢索、打印、復(fù)制等功能,并內(nèi)置了聯(lián)機(jī)字典。
最近,國(guó)學(xué)公司又推出了《國(guó)學(xué)U盤(pán)智能圖書(shū)庫(kù)》系列U盤(pán)圖書(shū),有10多種型號(hào)供使用者選擇,不同型號(hào)收書(shū)種類(lèi)有別,其中也包括《國(guó)學(xué)備覽》和《國(guó)學(xué)備要》。U盤(pán)圖書(shū)配有圖片和音樂(lè),還有真人發(fā)音字典及人名、書(shū)名、地名、帝王年號(hào)等專(zhuān)題知識(shí)庫(kù),數(shù)據(jù)采用Unicode編碼,可在各種版本的Windows下使用。
我國(guó)現(xiàn)存最大的古代類(lèi)書(shū)《古今圖書(shū)集成》也有電子版,該電子版由廣西金海灣電子音像出版社和廣西師范大學(xué)出版社于1999年聯(lián)合出版,共27張光盤(pán),只是原文圖版。為了便于檢索,另編有索引數(shù)據(jù)庫(kù)。該索引數(shù)據(jù)庫(kù)是在印刷版索引的基礎(chǔ)上進(jìn)一步擴(kuò)充改進(jìn)而成的,共有近37萬(wàn)條記錄,約1200萬(wàn)字,分為38個(gè)子庫(kù),是一個(gè)編制得相當(dāng)精細(xì)的索引體系。該索引數(shù)據(jù)庫(kù)分為“經(jīng)緯目錄”和“索引目錄”兩大部分。經(jīng)緯目錄是將《古今圖書(shū)集成》原有的40卷目錄改編為電子索引,供熟悉原書(shū)檢索體系的檢索者使用。在編制經(jīng)緯目錄的過(guò)程中,編者作了大量增補(bǔ)、校正、注釋、參見(jiàn)的工作,并注明了原文在電子版和兩種印刷版(1934年中華書(shū)局出版的線(xiàn)裝本和1985~1988年中華書(shū)局與巴蜀書(shū)社聯(lián)合出版的精裝本)中的具體卷、冊(cè)、面、塊。索引目錄分為37類(lèi),即37個(gè)子數(shù)據(jù)庫(kù),屬主題范疇分類(lèi)性質(zhì)。經(jīng)緯目錄和索引目錄均提供現(xiàn)代術(shù)語(yǔ)與古代術(shù)語(yǔ)的對(duì)應(yīng)轉(zhuǎn)換功能和模糊檢索功能,并且兩個(gè)目錄之間可以溝通。
金文資料的數(shù)字化也已開(kāi)發(fā)完成。由陜西省考古研究所和西安大東國(guó)際數(shù)據(jù)有限公司合作研制的《金文字庫(kù)及金文資料全文檢索系統(tǒng)》收集金文約2600字,隸定金文4500字,隸定字有宋體、黑體、仿宋、幼圓等字體,輸入法有拼音輸入法、五筆輸入法、倉(cāng)頡輸入法,并建立了部首導(dǎo)入法;金文資料收入自宋代以來(lái)傳世和出土的商周時(shí)期(下限到公元前221年秦始皇統(tǒng)一中國(guó)止)青銅器上的金文資料約12000篇,青銅器圖像約11000幅,另有相關(guān)的簡(jiǎn)介文字(包括器物名稱(chēng)、出土?xí)r間、出土地點(diǎn)、收藏單位、尺寸重量、花紋描述等)約120萬(wàn)字,銘文拓片12000幅,釋文180萬(wàn)字。金文全文資料庫(kù)的操作界面適應(yīng)一般文史工作者的習(xí)慣,實(shí)現(xiàn)了多種形式的瀏覽和輸出,解除了金文研究只能在紙上手寫(xiě)不能在電腦上操作的苦惱。但該軟件迄今尚未正式出版,人們無(wú)從利用。
不過(guò)由華東師范大學(xué)中國(guó)文字研究與應(yīng)用中心研制的《金文語(yǔ)料庫(kù)》已于2003年由廣西教育出版社正式出版,該軟件收錄了目前見(jiàn)到的絕大多數(shù)金文資料,可以全文檢索任意字、詞、句,可以根據(jù)時(shí)代檢索,可以根據(jù)器名檢索,可以跟圖版進(jìn)行對(duì)照,還提供檢索詞條的出現(xiàn)次數(shù),檢索功能相當(dāng)強(qiáng)大,能夠滿(mǎn)足多方面的檢索需求。華東師范大學(xué)中國(guó)文字研究與應(yīng)用中心還研制了《戰(zhàn)國(guó)楚文字?jǐn)?shù)字化處理系統(tǒng)》(上海教育出版社2003年出版)、《說(shuō)文全文檢索系統(tǒng)》(包含《玉篇》和《萬(wàn)象名義》,廣州:南方日?qǐng)?bào)社2004年出版),也是檢索功能非常強(qiáng)大的電子古籍。
二、網(wǎng)絡(luò)數(shù)字化古籍
除了磁盤(pán)版的數(shù)字化古籍外,還有大量數(shù)字化古籍是網(wǎng)絡(luò)版的。網(wǎng)絡(luò)版具有易于維護(hù)升級(jí)、資源利用率高、節(jié)省用戶(hù)電腦資源等特點(diǎn),應(yīng)該是電子古籍未來(lái)的發(fā)展方向。事實(shí)上上面介紹的一些大型磁盤(pán)數(shù)字化古籍也有相應(yīng)的網(wǎng)絡(luò)版,如“四庫(kù)全書(shū)”、“中國(guó)基本古籍庫(kù)”等。
大陸電子文獻(xiàn)最豐富的網(wǎng)站是“愛(ài)如生”,該網(wǎng)站的“典海”欄目是現(xiàn)今世界上規(guī)模最大的以中文古籍為主的數(shù)字圖書(shū)館,計(jì)劃收錄先秦至民國(guó)十年的歷代典籍5萬(wàn)種(不收民國(guó)十年以后對(duì)上述典籍的點(diǎn)校、注釋、今譯之類(lèi)著作)。典海下設(shè)3個(gè)閱讀平臺(tái):
。1)快讀堂——提供斷句本數(shù)字典籍,總計(jì)5千種。
(2)拾箐苑——提供全文本數(shù)字典籍,總計(jì)2.5萬(wàn)種。
(3)琳瑯閣——提供影像本數(shù)字典籍,總計(jì)5萬(wàn)種(其中3萬(wàn)種為斷句本和全文本所據(jù)底本)。
出于傳承中華文化、振興傳統(tǒng)學(xué)術(shù)的考慮,典海目前提供三項(xiàng)免費(fèi)服務(wù):斷句本典籍可免費(fèi)閱讀,免費(fèi)下載;全文本典籍可免費(fèi)閱讀(但下載須付費(fèi));影像本典籍可免費(fèi)閱讀。
愛(ài)如生網(wǎng)站還配有“搜神”搜索引擎,可對(duì)站內(nèi)古籍進(jìn)行全文搜索。
龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù)是古籍?dāng)?shù)字化制作中涌現(xiàn)出來(lái)的后起之秀。傳統(tǒng)的計(jì)算機(jī)二字節(jié)編碼技術(shù)只能處理2萬(wàn)多個(gè)漢字,對(duì)大量的生僻字無(wú)能為力。該數(shù)據(jù)庫(kù)采用unicode擴(kuò)展技術(shù),使計(jì)算機(jī)可處理的漢字種類(lèi)的總量達(dá)到7萬(wàn)字,基本解決了生僻漢字在計(jì)算機(jī)平臺(tái)上無(wú)法錄入、顯示、編輯的難題。這是目前大陸唯一可在微軟平臺(tái)上支持超大字符集、可進(jìn)行自然語(yǔ)言全文檢索、實(shí)現(xiàn)編輯功能的古籍?dāng)?shù)據(jù)庫(kù),差錯(cuò)率控制在1/10000以?xún)?nèi)。所收典籍分為“小學(xué)工具”、“出土文獻(xiàn)”、“傳世文獻(xiàn)”、“專(zhuān)題文獻(xiàn)”四部分,不少典籍還有圖版對(duì)照,使用通用瀏覽器即可瀏覽、檢索和復(fù)制,無(wú)需下載任何客戶(hù)端軟件。下圖是龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù)的總體構(gòu)架及檢索頁(yè)面:

可以看出其規(guī)劃是相當(dāng)宏偉的,志在將古典文獻(xiàn)一“網(wǎng)”打盡,F(xiàn)已上傳的典籍中最具特色的是小學(xué)類(lèi)典籍及出土文獻(xiàn),因?yàn)檫@類(lèi)典籍僻字、俗字成堆,難以實(shí)現(xiàn)數(shù)字化,大多數(shù)古籍?dāng)?shù)據(jù)庫(kù)不愿收錄,即使收錄了,很多字也無(wú)法錄入顯示,不能正常使用,龍語(yǔ)瀚堂則解決了這一瓶頸,F(xiàn)已上傳的這類(lèi)典籍有《說(shuō)文解字》(大徐本)、《龍龕手鏡》、《康熙字典》、《爾雅音圖》、《集韻》、《廣韻》、《五音集韻》、《甲骨文合集》、《甲骨文編》、《小屯南地甲骨》、《殷周金文集成釋文》、《金文編》等。
中國(guó)國(guó)家圖書(shū)館網(wǎng)站的電子文獻(xiàn)也比較豐富,有“中文拓片資源庫(kù)”、“地方志資源庫(kù)”、“IDP數(shù)據(jù)庫(kù)”、“甲骨資源庫(kù)”、“西夏文獻(xiàn)資源庫(kù)”、“年畫(huà)資源庫(kù)”等,另有大量常見(jiàn)古典文獻(xiàn),都可免費(fèi)查閱。
“中文拓片資源庫(kù)”現(xiàn)有元數(shù)據(jù)23000余條,影像29000余幅。資源庫(kù)內(nèi)容以刻立石年月排序,提供單一字段的簡(jiǎn)單檢索、多條件限定組合的高級(jí)檢索和元數(shù)據(jù)內(nèi)容關(guān)聯(lián)檢索等查詢(xún)方式。
“地方志資源庫(kù)”由全文影像庫(kù)、全文文本庫(kù)、書(shū)目庫(kù)、地名庫(kù)、作品庫(kù)、景觀庫(kù)、插圖庫(kù)、事件庫(kù)和相關(guān)文獻(xiàn)庫(kù)等構(gòu)成,全部建成后可為用戶(hù)提供方志資源的多樣檢索,如全文、書(shū)目(含卷目)、地名、人物、作品、景觀、插圖、事件等單項(xiàng)與復(fù)合檢索,支持并實(shí)現(xiàn)與其他數(shù)字圖書(shū)館資源庫(kù)的關(guān)聯(lián)檢索和跨庫(kù)連接,最終形成內(nèi)容豐富、檢索便利的館藏?cái)?shù)字方志資源庫(kù)。
IDP是英文International Dunhuang Project的縮寫(xiě),漢語(yǔ)意思是“國(guó)際敦煌學(xué)項(xiàng)目”。該數(shù)據(jù)庫(kù)由英國(guó)圖書(shū)館于1993年開(kāi)始開(kāi)發(fā),計(jì)劃逐步將世界上各機(jī)構(gòu)收藏的敦煌文獻(xiàn)全部數(shù)字化。IDP數(shù)據(jù)庫(kù)用精密的數(shù)碼掃描設(shè)備將敦煌寫(xiě)卷制成一幅幅高清晰的圖像,能展示寫(xiě)卷的全部?jī)?nèi)容——正面、背面,甚至沒(méi)有文字的地方,圖像的清晰度與看原卷沒(méi)有區(qū)別。學(xué)者可以隨意地從屏幕上獲得高質(zhì)量的彩色圖像,而且放大之后,過(guò)去用放大鏡不易觀察的字的細(xì)部、墨的層次、紙張的纖維等問(wèn)題都可借助新技術(shù)迎刃而解。1998年10月,IDP網(wǎng)站正式運(yùn)行,至今已上傳5萬(wàn)幅寫(xiě)卷、繪畫(huà)、藝術(shù)品、絲織品、老照片、地圖的圖像,還有相關(guān)的目錄信息,用戶(hù)可從網(wǎng)上進(jìn)入IDP數(shù)據(jù)庫(kù)免費(fèi)檢索,還可查閱敦煌學(xué)研究論著目錄。IDP在倫敦、北京、圣彼得堡、京都以及柏林都設(shè)有中心,各中心負(fù)責(zé)數(shù)據(jù)庫(kù)和網(wǎng)站的維護(hù)、更新及質(zhì)量監(jiān)控。
國(guó)學(xué)網(wǎng)是一個(gè)為國(guó)學(xué)研究提供資訊的網(wǎng)站,網(wǎng)上有可進(jìn)行全文檢索的大型古籍?dāng)?shù)據(jù)庫(kù)《國(guó)學(xué)寶典》。該數(shù)據(jù)庫(kù)由北京國(guó)學(xué)時(shí)代文化傳播有限公司制作,收錄了自先秦至清末的古籍3800多種,總字?jǐn)?shù)超過(guò)8億字。目前仍在不斷擴(kuò)充,其目標(biāo)是建成一個(gè)包含所有重要中文古籍的全文電子數(shù)據(jù)庫(kù)。《國(guó)學(xué)寶典》原為單機(jī)版,2005年2月推出了網(wǎng)絡(luò)版。系統(tǒng)使用unicode大字符集,生僻字及特殊文字如篆文、蒙文等都用圖片的方式來(lái)處理。古籍中配的大量插圖整卷顯示時(shí)可與文字同屏顯示。
國(guó)學(xué)網(wǎng)上還有不少中國(guó)古代經(jīng)史子集各類(lèi)典籍供免費(fèi)閱覽,如《十三經(jīng)》、《二十五史》、《資治通鑒》、《續(xù)資治通鑒》、《全唐文》、《全唐詩(shī)》、《全宋詞》、《文選》、明清小說(shuō)、佛教典籍、道教典籍等,這些資料只能按篇名或卷數(shù)瀏覽,沒(méi)有字詞檢索功能。網(wǎng)站另有收費(fèi)會(huì)員專(zhuān)區(qū),提供《二十五史》、《十三經(jīng)注疏》、《全唐詩(shī)》、《全唐文》、《全宋詞》、《宋遼金元詩(shī)歌》、《明清詩(shī)歌》等典籍的在線(xiàn)全文檢索。
北京大學(xué)中文系研制了《全唐詩(shī)》(包含“全唐詩(shī)補(bǔ)編”和“唐前詩(shī)及樂(lè)府詩(shī)集”)及《全宋詩(shī)》全文檢索系統(tǒng),《全唐詩(shī)》全文檢索系統(tǒng)在其網(wǎng)頁(yè)上免費(fèi)供外界使用,《全宋詩(shī)》全文檢索系統(tǒng)僅提供試用,試用系統(tǒng)只能檢索到部分詩(shī)歌。希望這試用期早日結(jié)束,讓外界能利用到《全宋詩(shī)》的全部資源。
南開(kāi)大學(xué)組合數(shù)學(xué)研究中心、天津永川軟件技術(shù)有限公司、中國(guó)社會(huì)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心聯(lián)合研制了“二十五史全文閱讀檢索系統(tǒng)”網(wǎng)絡(luò)版,國(guó)內(nèi)有些單位購(gòu)買(mǎi)了這一系統(tǒng),供內(nèi)部使用。該系統(tǒng)文本差錯(cuò)少(也有差錯(cuò)。如《晉書(shū)·甘卓傳》的“察孝謙”,“謙”原文作“廉”),正文與注文采用不同的字體及顏色顯示,非常醒目。
佛教典籍以中華佛典寶庫(kù)網(wǎng)站最為豐富,除《大藏經(jīng)》外,還有藏外佛典、佛學(xué)辭典、佛教圖片、佛教音樂(lè)等,提供瀏覽及下載服務(wù)。中國(guó)數(shù)字圖書(shū)館已將《中華大藏經(jīng)》上編(共106冊(cè))放到網(wǎng)上,供免費(fèi)閱覽。
道教的典籍以寧波廣播電視大學(xué)外語(yǔ)系的網(wǎng)頁(yè)提供的比較豐富,可以下載《道藏》(36冊(cè),文物出版社、上海書(shū)店、天津古籍出版社,1988)、《藏外道書(shū)》(36冊(cè),胡道靜等主編,巴蜀書(shū)社,1992—1994)等大量道教典籍的PDF文檔。
三、存在的問(wèn)題及改進(jìn)建議
從上面的介紹來(lái)看,我國(guó)重要的古籍大都已有了電子文本,包括傳世典籍和出土文獻(xiàn),這給人們利用古代典籍提供了極大的方便,對(duì)中國(guó)傳統(tǒng)文化的學(xué)術(shù)研究起到了有力的促進(jìn)作用。如今的學(xué)術(shù)研究如果不知道充分利用電子文獻(xiàn),那就意味著效率上的少慢差費(fèi),成果的創(chuàng)新性及可靠性也要大打折扣。
不過(guò),目前制作的電子古籍還存在不少缺陷。
其一是絕大部分電子古籍未能解決僻字的錄入顯示問(wèn)題。遇到無(wú)法錄入顯示的僻字,或者用方框、黑塊等符號(hào)表示空缺,或者用數(shù)字代替,鏈接到字形圖片,或者說(shuō)明偏旁的上下左右內(nèi)外等,給閱讀利用造成障礙。下圖是國(guó)學(xué)網(wǎng)《國(guó)學(xué)寶典》《爾雅·釋魚(yú)》中的一條:

僻字用編號(hào)代替,開(kāi)頭部分還是亂碼。最新的全功能試用版也是如此。
下圖是書(shū)同文制作的電子版《四庫(kù)全書(shū)》中《集韻·東韻》的一頁(yè),□表示不能錄入顯示的字,一頁(yè)上就有22個(gè)字無(wú)法顯示。

這方面作得最好的是龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù),大部分僻字都能正常顯示。如上面《爾雅?釋魚(yú)》的那一條,龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù)中顯示為:

盡管如此,不能顯示的字也仍然存在。如下圖中的黑塊就是無(wú)法顯示的字:

看來(lái)解決僻字的錄入顯示問(wèn)題仍然是數(shù)碼技術(shù)急需攻克的難題。
其二是檢索程序的技術(shù)水平有待提高。一個(gè)好的檢索程序不但要速度快,還要能滿(mǎn)足多種條件的檢索需求。比如按朝代(當(dāng)然更精確的是年代)檢索的功能在學(xué)術(shù)研究上非常有用,可惜目前除中國(guó)基本古籍庫(kù)的檢索程序提供這一功能外,大多數(shù)檢索程序都沒(méi)有這一功能。最近《國(guó)學(xué)寶典》的全功能試用版加入了按范圍檢索(分經(jīng)、史、子、集、其他)和按年代檢索(分秦以前、兩漢、魏晉南北朝、隋唐五代、宋遼金元、明、清、近代八段)的檢索的功能,這使數(shù)據(jù)庫(kù)的利用價(jià)值有了較大提到。
檢索的準(zhǔn)確性也是衡量檢索程序的一個(gè)重要標(biāo)準(zhǔn),但大多數(shù)的檢索程序的準(zhǔn)確性難以令人滿(mǎn)意。比如在《四庫(kù)全書(shū)》中檢索含有“籑”字的資料時(shí),大量含有“撰”“饌”的資料也一并檢索出來(lái);檢索“尺子”時(shí),“尺予”、“尺于”、“斥予”、“斥于”、“斥子”等條目混雜其中,而且這些無(wú)關(guān)的條目還無(wú)法排除。另一方面,一些應(yīng)該同時(shí)檢出的異體字,程序卻視為不同的字而不能檢出,出現(xiàn)漏檢的情況。如“狼跋”俗體也寫(xiě)作“狼?”,當(dāng)以“狼跋”為檢索詞時(shí),“狼?”的資料檢不出來(lái)。有些關(guān)鍵詞明明在所收文獻(xiàn)中存在,但檢索程序就是檢不出來(lái)。
其三是與常用字處理軟件的兼容性不盡如人意。檢索出來(lái)的資料人們一般是要復(fù)制到WORD等字處理軟件中使用的,然而有些數(shù)據(jù)庫(kù)的資料復(fù)制粘貼后會(huì)發(fā)生錯(cuò)誤。例如不少古籍帶有注文,注文一般是隨文用小字表示。當(dāng)你把《四庫(kù)全書(shū)》中復(fù)制的帶注文的資料粘貼WORD中時(shí),所有的注文都跑到正文的末尾之后,而不在原句之下,使你分不清楚哪是正文哪是注文。即便知道是注文,也不清楚是哪句正文的注文。不得已,還得跟數(shù)據(jù)庫(kù)中的原頁(yè)面仔細(xì)核對(duì)。大陸的使用者一般要把復(fù)制的繁體字資料轉(zhuǎn)換為簡(jiǎn)體字,但這種轉(zhuǎn)換會(huì)發(fā)生錯(cuò)誤。如用WORD的繁簡(jiǎn)轉(zhuǎn)換工具把《四庫(kù)全書(shū)》中復(fù)制的“譙國(guó)華佗字元化”整體轉(zhuǎn)為簡(jiǎn)體時(shí),“元”被轉(zhuǎn)換成了“符”,令人莫名其妙。龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù)中的有些僻字復(fù)制粘貼到WORD后會(huì)走樣,如上例《爾雅》中的 字復(fù)制到WORD后變成了鰴。
其四,理想的電子古籍應(yīng)該用繁體字錄入顯示,盡可能保存底本文字的原樣(如俗體),加上標(biāo)點(diǎn),能全文檢索,并有相應(yīng)的圖版頁(yè)面可隨時(shí)對(duì)照,但目前能達(dá)到這一標(biāo)準(zhǔn)的電子古籍幾乎沒(méi)有。有的只是圖版,只能瀏覽,不能檢索,如《古今圖書(shū)集成》、《道藏》等。有的只是電子字符,沒(méi)有圖版可供對(duì)照。如《國(guó)學(xué)寶典》使用簡(jiǎn)體字,沒(méi)有圖版,使用價(jià)值為之遜色。國(guó)學(xué)公司意識(shí)到這一缺陷,最近又推出了《國(guó)學(xué)寶典》的繁體版。但把簡(jiǎn)體轉(zhuǎn)換為繁體時(shí)會(huì)出現(xiàn)各種差錯(cuò),希望能作好校對(duì)工作!端膸(kù)全書(shū)》雖然是繁體,而且有圖版對(duì)照,但沒(méi)有標(biāo)點(diǎn)。有些繁體數(shù)據(jù)庫(kù)在檢索時(shí)只能輸入繁體字條目,如果輸入簡(jiǎn)體,或者檢索不到,或者不是你想檢索的資料。這也需要改進(jìn),應(yīng)該是輸入簡(jiǎn)體繁體均可。愛(ài)如生的搜神引擎有“簡(jiǎn)繁體字轉(zhuǎn)換”和“異體字關(guān)聯(lián)檢索”的選項(xiàng),這種人性化的功能值得各種搜索引擎借鑒。
其五,數(shù)據(jù)庫(kù)使用的便捷性有待提高。不少大型網(wǎng)絡(luò)古籍?dāng)?shù)據(jù)庫(kù)需要安裝專(zhuān)用的瀏覽軟件,這給使用者造成不便。理想的狀態(tài)應(yīng)該是用常用瀏覽器(如IE)就可瀏覽,事實(shí)上龍語(yǔ)瀚堂典籍?dāng)?shù)據(jù)庫(kù)也已經(jīng)做到了這一點(diǎn),建議其他數(shù)據(jù)庫(kù)的研制者借鑒龍語(yǔ)瀚堂的成功經(jīng)驗(yàn)。當(dāng)然如果能研制出一個(gè)更切合古籍瀏覽的通用軟件也未嘗不可,但目前各自為政的做法實(shí)不可取。另外,使用者在復(fù)制資料的同時(shí)需要具體的出處,但絕大多數(shù)數(shù)據(jù)庫(kù)都不提供直接拷貝出處的服務(wù),需要引用者自己逐項(xiàng)查找,如作者、書(shū)名、卷數(shù)、篇名等,非常麻煩!端膸(kù)全書(shū)》數(shù)據(jù)庫(kù)倒是提供出處拷貝服務(wù),遺憾的是只有書(shū)名和卷數(shù),過(guò)于簡(jiǎn)單。有些數(shù)據(jù)庫(kù)對(duì)復(fù)制原文防范過(guò)嚴(yán),如“中國(guó)基本古籍庫(kù)”不能直接復(fù)制,須另外打開(kāi)“下載編輯”窗口才能復(fù)制,而且每次最多只能復(fù)制200字,很不方便,建議修改為能復(fù)制全部當(dāng)前頁(yè)。
其六,內(nèi)容方面的缺憾。雖然數(shù)字化的古籍已經(jīng)很多,但大多數(shù)是元代以前的典籍,明清典籍所占比重很小。這是因?yàn)榇蠖鄶?shù)數(shù)據(jù)庫(kù)是在《四庫(kù)全書(shū)》的基礎(chǔ)上建立起來(lái)的,《四庫(kù)全書(shū)》收書(shū)的原則是貴遠(yuǎn)賤近,明代典籍很少,清代典籍更少,而這兩代的典籍加起來(lái)至少是此前所有典籍的總和的兩倍。而我們今天想檢索明清時(shí)期的資料時(shí)卻沒(méi)有大型數(shù)據(jù)庫(kù)可供利用,對(duì)學(xué)術(shù)研究極為不利。那么,哪些古籍可以彌補(bǔ)這方面的缺憾呢?由于目前還沒(méi)有編纂出明清著述總集,建議先把下面這些大型叢書(shū)制作成數(shù)字古籍:《續(xù)修四庫(kù)全書(shū)》、《四庫(kù)全書(shū)存目叢書(shū)》、《叢書(shū)集成初編》及《續(xù)編》、《近代中國(guó)史料叢刊》等,這些叢書(shū)的使用價(jià)值是很高的,如果把它們制作成了數(shù)字版,明清資料檢索的困難可以得到很大的緩解。
另外,宗教文獻(xiàn)也亟待數(shù)字化!兜啦亍纺壳爸挥袌D版,建議把最新整理的《中華道藏》制作成數(shù)字版!洞蟛亟(jīng)》雖然有數(shù)字版,但采用的底本是日本鉛字排印的《大正藏》,錯(cuò)誤較多,建議把學(xué)術(shù)價(jià)值比較高的《中華大藏經(jīng)》(中華書(shū)局1984—1997)制作成數(shù)字版。其他如甲骨文獻(xiàn)、敦煌文獻(xiàn)也都需要數(shù)字化。
我們期待有志于古籍?dāng)?shù)字化事業(yè)的人士盡早將這些大型文獻(xiàn)制作成理想的數(shù)字文本,這將是一項(xiàng)利在當(dāng)代、惠及千秋的功績(jī),那些化巨額資金打造“金書(shū)”以嘩眾取寵的做法跟這一功績(jī)相比,是不可同日而語(yǔ)的。
【作者單位】南開(kāi)大學(xué)文學(xué)院 |