一、數(shù)字圖書(shū)館與古籍?dāng)?shù)字化
隨著信息化時(shí)代的到來(lái),作為公共信息和教育服務(wù)體系重要組成部分的數(shù)字圖書(shū)館受到越來(lái)越多國(guó)家的重視。美國(guó)最早開(kāi)始數(shù)字圖書(shū)館理論研究和建設(shè)。1991年俄亥俄州政府投資建立州內(nèi)圖書(shū)館網(wǎng)絡(luò)中心,開(kāi)始了數(shù)字圖書(shū)館的嘗試。1994年6月,在德克薩斯召開(kāi)了以“數(shù)字圖書(shū)館理論與實(shí)踐”為主題的第一次數(shù)字圖書(shū)館的理論研究會(huì)議。同年9月,美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)、國(guó)家宇航局(NASA)和國(guó)防部高級(jí)研究署(AKPA)聯(lián)合發(fā)布《數(shù)字圖書(shū)館啟動(dòng)計(jì)劃》,領(lǐng)導(dǎo)、組織和資助美國(guó)的數(shù)字圖書(shū)館研究和開(kāi)發(fā)。繼美國(guó)之后,英、法、德、日等國(guó)也先后提出各自的數(shù)字圖書(shū)館計(jì)劃。1995年2月25~26日,在比利時(shí)布魯塞爾召開(kāi)了全球信息社會(huì)研討會(huì),大會(huì)確立了全球數(shù)字圖書(shū)館計(jì)劃與數(shù)字博物館計(jì)劃是全球信息社會(huì)化的兩個(gè)重要組成部分。
在中國(guó),數(shù)字圖書(shū)館建設(shè)也已納入國(guó)家的發(fā)展戰(zhàn)略。1999年6月中國(guó)數(shù)字圖書(shū)館發(fā)展戰(zhàn)略組、中科院計(jì)算所等單位聯(lián)合主辦了“99數(shù)字圖書(shū)館論壇”。2002年5月中華人民共和國(guó)信息產(chǎn)業(yè)部、中國(guó)數(shù)字圖書(shū)館等8家單位聯(lián)合主辦“2002年數(shù)字圖書(shū)館國(guó)際論壇”。2002年9月,江澤民同志《在慶祝北京師范大學(xué)建校一百周年大會(huì)上的講話》中指出“加快數(shù)字圖書(shū)館等教育公共服務(wù)體系建設(shè)”。除了理論研究和思想認(rèn)識(shí),中國(guó)目前已啟動(dòng)了一些工程項(xiàng)目,進(jìn)入了數(shù)字圖書(shū)館的建設(shè)階段,例如中國(guó)高等教育文獻(xiàn)保障體系CALIS、中國(guó)國(guó)家科學(xué)數(shù)字圖書(shū)館工程及中國(guó)國(guó)家數(shù)字圖書(shū)館工程等。
數(shù)字圖書(shū)館的工程建設(shè)已經(jīng)全面展開(kāi),但對(duì)數(shù)字圖書(shū)館的內(nèi)涵還在討論之中,盡管有各種說(shuō)法,但基本認(rèn)識(shí)還是一致的,即把圖書(shū)館的各種文獻(xiàn)轉(zhuǎn)換成數(shù)字信息并通過(guò)網(wǎng)絡(luò)發(fā)布和傳輸,同時(shí)采集、加工各種公共信息為全社會(huì)提供優(yōu)質(zhì)的信息服務(wù)和決策咨詢,使數(shù)字圖書(shū)館成為信息社會(huì)的核心部分。在我國(guó),數(shù)字圖書(shū)館建設(shè)目前的主要工作還是對(duì)現(xiàn)有文獻(xiàn)的數(shù)字化,其中一項(xiàng)基本內(nèi)容就是傳統(tǒng)古籍的數(shù)字化。
傳統(tǒng)古籍的數(shù)字化有著重要的意義。傳統(tǒng)古籍是中國(guó)五千年文化積淀的瑰寶,維系中華傳統(tǒng)文明的進(jìn)步與傳承,也是我國(guó)各圖書(shū)館館藏的重要組成部分。古籍的數(shù)字化和上網(wǎng),是中華優(yōu)秀文明由紙張等媒質(zhì)流傳方式轉(zhuǎn)為數(shù)字信息等現(xiàn)代方式傳播的重要步驟,是對(duì)傳統(tǒng)的中華文化傳播和繼承方式的革命。古籍的數(shù)字化和上網(wǎng),是互聯(lián)網(wǎng)上中文信息完整性的重要保障,對(duì)確立中華文化在互聯(lián)網(wǎng)上的整體優(yōu)勢(shì)地位和樹(shù)立文化大國(guó)形象具有不可替代的地位。傳統(tǒng)古籍的數(shù)字化和上網(wǎng)還具有現(xiàn)實(shí)的價(jià)值,可以有效地解決古籍保存與使用之間的矛盾。古籍通常是1911年以前抄寫、出版的圖書(shū),包括民國(guó)時(shí)期出版的古人所著的線裝圖書(shū),往往具有重要的史料價(jià)值和很高的文化價(jià)值。許多古籍保存單位嚴(yán)格限制古籍的使用,以達(dá)到古籍保護(hù)的目的,但同時(shí)也使古籍的研究利用受到影響。古籍的數(shù)字化和網(wǎng)上發(fā)布,使研究者可以在網(wǎng)絡(luò)終端上瀏覽古籍,還能避免直接接觸對(duì)古籍造成的損壞,能有效地解決古籍保存和使用的矛盾,為中外學(xué)者方便地研究古籍提供便利,對(duì)古籍研究工作必將產(chǎn)生巨大的推動(dòng)作用。
二、古籍?dāng)?shù)字化中的幾個(gè)問(wèn)題
傳統(tǒng)古籍不同于普通文獻(xiàn),這使古籍?dāng)?shù)字化的進(jìn)程面臨許多問(wèn)題。在圖書(shū)館業(yè)務(wù)中,古籍整理工作相對(duì)獨(dú)立,采、編、閱、藏自成體系,古籍整理保留的舊有模式也最多,采用舊的分類法、沿用傳統(tǒng)的著錄方式,館際之間也沒(méi)有國(guó)家統(tǒng)一標(biāo)準(zhǔn),僅分類法就有四庫(kù)法、中圖法、科圖法、人大法、劉國(guó)鈞“十五大類”等等。古籍整理的這種現(xiàn)狀制約了古籍?dāng)?shù)字化的進(jìn)程。
作為圖書(shū)館數(shù)字化的重要部分,人們?cè)跓崃矣懻搱D書(shū)館數(shù)字化的同時(shí)也開(kāi)始研究古籍?dāng)?shù)字化的理論和技術(shù)問(wèn)題。1992年,李致忠先生在《北京圖書(shū)館館刊》(下簡(jiǎn)稱《北圖館刊》)發(fā)表了《略談建立中國(guó)古籍書(shū)目數(shù)據(jù)庫(kù)》一文,文章針對(duì)古籍整理中的各種問(wèn)題提出建立古籍?dāng)?shù)據(jù)庫(kù)的前提條件。1995年,李針對(duì)古籍?dāng)?shù)字化面臨的問(wèn)題和解決方案,在《北圖館刊》發(fā)表《再論建立中國(guó)古籍書(shū)目數(shù)據(jù)庫(kù)》,討論了中國(guó)古籍書(shū)目數(shù)據(jù)庫(kù)的建庫(kù)規(guī)范,包括中國(guó)古籍分類法,標(biāo)準(zhǔn)著錄,古籍書(shū)目的機(jī)讀格式,使用的軟件及接口,使用的字庫(kù)等。盡管李文討論的古籍書(shū)目數(shù)據(jù)庫(kù)還遠(yuǎn)不是古籍本身的數(shù)字化,但內(nèi)容已經(jīng)涉及到古籍?dāng)?shù)字化各方面的重要問(wèn)題,勾勒了古籍?dāng)?shù)字化整體規(guī)范的基本框架。
在李以后,學(xué)者們從不同方面思考古籍?dāng)?shù)字化遇到的問(wèn)題以及解決方案。1999年,《國(guó)家圖書(shū)館學(xué)刊》(下簡(jiǎn)稱《館刊》)第2期發(fā)表了朱巖的《中國(guó)古籍書(shū)目數(shù)據(jù)分析》。朱文從信息處理角度對(duì)古籍書(shū)目數(shù)據(jù)做出分析,對(duì)《中國(guó)古籍善本書(shū)目》在機(jī)讀格式中的使用作出示范。制訂統(tǒng)一的機(jī)讀目錄是古籍?dāng)?shù)據(jù)庫(kù)建庫(kù)規(guī)范之一,機(jī)讀目錄通過(guò)對(duì)書(shū)目數(shù)據(jù)信息進(jìn)行標(biāo)識(shí),完成書(shū)目的信息統(tǒng)計(jì)、整理和檢索。充分利用機(jī)讀目錄提供的字段標(biāo)識(shí)數(shù)據(jù)信息,能夠提高數(shù)據(jù)庫(kù)的檢索功能,方便讀者的檢索查閱。《中國(guó)古籍善本書(shū)目》是由國(guó)家古籍整理出版規(guī)劃小組領(lǐng)導(dǎo)編纂的大型書(shū)目,歷時(shí)十五年完成,分經(jīng)、史、子、集、叢五類,共九冊(cè),收錄56000種善本古籍。此書(shū)的編寫仍然采用傳統(tǒng)的古籍編目規(guī)則,不利于編制機(jī)讀目錄。論文從檢索點(diǎn)的切分入手,具體討論了書(shū)名信息、責(zé)任者信息、版本信息、附注文字、分類信息、層次關(guān)系等方面信息的標(biāo)引及其機(jī)讀目錄的實(shí)現(xiàn)等問(wèn)題。
《館刊》同一期刊登了史睿的《論中國(guó)古籍的數(shù)字化與人文學(xué)術(shù)精神》。史文從人文研究角度出發(fā)討論古籍?dāng)?shù)字化意義及解決方案,強(qiáng)調(diào)了在數(shù)字化時(shí)代傳統(tǒng)古籍整理工作的重要性。史文認(rèn)為古籍?dāng)?shù)字化能為人文研究提供便捷、準(zhǔn)確的查詢工具,但要實(shí)現(xiàn)這一目標(biāo),必須對(duì)傳統(tǒng)古籍整理工作進(jìn)行變革,要求建立數(shù)據(jù)庫(kù)統(tǒng)一的規(guī)范,包括分類法、著錄格式都要有一定的修改,以建立國(guó)家標(biāo)準(zhǔn),并使古籍?dāng)?shù)據(jù)庫(kù)與數(shù)字圖書(shū)館的其他數(shù)據(jù)庫(kù)保持整體的統(tǒng)一性。文章對(duì)計(jì)算機(jī)技術(shù)也給予了同樣的重視,分析了人文研究對(duì)計(jì)算機(jī)技術(shù)的要求,計(jì)算機(jī)技術(shù)為古籍?dāng)?shù)字化準(zhǔn)備的條件,并討論了兩者的有效結(jié)合。
《館刊》1999年第3期《首屆“中文古籍開(kāi)發(fā)利用研討會(huì)”紀(jì)要》一文,記錄了1999年5月12-14日國(guó)家圖書(shū)館主辦的“中文古籍開(kāi)發(fā)利用研討會(huì)”的內(nèi)容,反映了當(dāng)時(shí)古籍?dāng)?shù)字化進(jìn)程。會(huì)議著重對(duì)《古籍機(jī)讀目錄格式字段表(試用稿)》作出討論,探討了制定國(guó)家標(biāo)準(zhǔn)的機(jī)讀目錄格式和統(tǒng)一的古籍分類法的可能性,以及圖書(shū)館界在古籍?dāng)?shù)據(jù)庫(kù)方面所作的嘗試及成果。這次會(huì)議反映了圖書(shū)館界已經(jīng)開(kāi)始著手文獻(xiàn)資源的網(wǎng)上服務(wù)和資源的共建共享。
《館刊》2002年第2期刊發(fā)了鮑國(guó)強(qiáng)的《古籍機(jī)讀目錄的文獻(xiàn)連接技術(shù)及其應(yīng)用》。鮑曾參與編寫《漢語(yǔ)文古籍機(jī)讀目錄格式使用手冊(cè)》。鮑文結(jié)合實(shí)際工作,從具體問(wèn)題入手,討論古籍機(jī)讀目錄的文獻(xiàn)連接技術(shù)。文章分析實(shí)現(xiàn)文獻(xiàn)連接的前提條件、文獻(xiàn)連接的類型以及連接技術(shù)的應(yīng)用,針對(duì)機(jī)讀目錄文獻(xiàn)連接技術(shù)的要點(diǎn),展示應(yīng)用機(jī)讀目錄中的文獻(xiàn)連接技術(shù),以充分發(fā)揮古籍書(shū)目數(shù)據(jù)庫(kù)的文獻(xiàn)檢索的功能。
由于李、朱、史、鮑都是圖書(shū)館工作人員,因而對(duì)數(shù)據(jù)的著錄格式以及機(jī)讀目錄都給予了更多的關(guān)注,更重視機(jī)讀目錄在標(biāo)引、檢索中的應(yīng)用,以提高數(shù)據(jù)庫(kù)的信息檢索能力,提高信息的查全率和查準(zhǔn)率,但他們對(duì)古籍?dāng)?shù)字化本身以及帶來(lái)的相關(guān)后果考慮還嫌較少,例如:如何通過(guò)計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)展示出與古籍原本質(zhì)地和觀感一致的數(shù)字化形象,古籍?dāng)?shù)字化后的人文和學(xué)術(shù)價(jià)值,以及對(duì)紙張等實(shí)物介質(zhì)留存的古籍的影響,古籍?dāng)?shù)字化過(guò)程中,工程建設(shè)的技術(shù)、管理、運(yùn)營(yíng)和法律問(wèn)題,如何在與國(guó)外先進(jìn)技術(shù)交流中既達(dá)到吸取先進(jìn)的成果和經(jīng)驗(yàn),同時(shí)確保古籍的國(guó)家信息主權(quán)和版權(quán)的獨(dú)立和完整。
三、古籍?dāng)?shù)字化的主要成果
古籍的數(shù)字化是一項(xiàng)龐大的系統(tǒng)工程,除了理論研究,還需要各方面的技術(shù)專家特別是古籍研究人員、圖書(shū)館工作人員、計(jì)算機(jī)人員以及其他相關(guān)領(lǐng)域的人員通力合作。目前,通過(guò)國(guó)家基金資助,公司參與以及國(guó)際合作等方式,我國(guó)的古籍?dāng)?shù)字化工作已經(jīng)取得了相當(dāng)?shù)某煽?jī)。目前古籍?dāng)?shù)字化的工作取得了一定的成績(jī),已經(jīng)完成或正在進(jìn)行的有關(guān)古籍?dāng)?shù)字化的大型項(xiàng)目有:
電子版《四庫(kù)全書(shū)》,由上海人民出版社、香港迪志公司、北京書(shū)同文公司合作開(kāi)發(fā),選用國(guó)際標(biāo)準(zhǔn)ISO/IEC10646(GB13000/Unicode)作為數(shù)字化的字符集,采用XML語(yǔ)言作為文獻(xiàn)內(nèi)容的標(biāo)識(shí)語(yǔ)言,使用OCR技術(shù)實(shí)現(xiàn)圖文數(shù)碼轉(zhuǎn)換,使用數(shù)據(jù)庫(kù)加知識(shí)工具庫(kù)多種信息關(guān)聯(lián)的全文檢索引擎。書(shū)同文公司是大陸最大的致力于古籍?dāng)?shù)字化的公司,現(xiàn)擁有《四庫(kù)全書(shū)》、《四部叢刊》、《康熙字典》的電子版。此外還有《中華文化通志》、《漢語(yǔ)大詞典》、《中華古漢語(yǔ)詞典》等產(chǎn)品。目前在制作《永樂(lè)大典》和《歷代石刻史料匯編》的全文檢索版。該公司亦將地方志的數(shù)字化列入了規(guī)劃。
北京大學(xué)中文系《全唐詩(shī)》網(wǎng)上電子檢索系統(tǒng),由211工程資助、北京大學(xué)中文系李鐸博士主持開(kāi)發(fā),歷時(shí)一年完成。該項(xiàng)目主體部分由《全唐詩(shī)》及《全唐詩(shī)補(bǔ)編》組成,輔助項(xiàng)由《樂(lè)府詩(shī)集》、《玉臺(tái)新詠》、《文選》等組成。參考類則由重要唐代史料《新唐書(shū)》、《舊唐書(shū)》、《唐才子傳》、《歷代詩(shī)話》、《唐詩(shī)紀(jì)事》等資料組成,共1700萬(wàn)字。全部文獻(xiàn)錯(cuò)誤率控制在三萬(wàn)分之一以下(共五校),《全唐詩(shī)》文本控制在五萬(wàn)分之一以下(共六校)。所有文獻(xiàn)均使用Unicode內(nèi)碼,在Windows2000平臺(tái)上,不需要任何轉(zhuǎn)碼工具,全球任何語(yǔ)言的操作系統(tǒng)均可在網(wǎng)上直接檢索《全唐詩(shī)》及相關(guān)資料,并且兼容Windows9x,WindowsNT,Unix,Linux等平臺(tái)。檢索系統(tǒng)由兩個(gè)版面組成,一是瀏覽界面,它提供以原書(shū)為序?yàn)g覽,瀏覽內(nèi)容只限于《全唐詩(shī)》。另一界面是檢索界面,此界面是本系統(tǒng)的核心,可以檢索全部資料。主體部分除全文檢索功能外,另有詩(shī)題檢索、作者檢索、體裁檢索、音韻檢索等功能,檢索結(jié)果顯示詩(shī)歌全文(以首為單位)、作者小傳、詩(shī)文校注、詩(shī)歌體裁、原書(shū)頁(yè)碼、冊(cè)、卷等。
“中國(guó)基本古籍庫(kù)”光盤工程,由北京大學(xué)劉俊文先生主持,是北京大學(xué)的重點(diǎn)項(xiàng)目,1998年經(jīng)全國(guó)高校古委會(huì)的批準(zhǔn)立項(xiàng),正式啟動(dòng)。著名學(xué)者季羨林、國(guó)家圖書(shū)館館長(zhǎng)任繼愈擔(dān)任編纂委員會(huì)主任,兩院院士羅霈霖、工程院院士李國(guó)杰擔(dān)任技術(shù)委員會(huì)主任,由北大方正技術(shù)研究院提供技術(shù)支持。全套光盤庫(kù)共500張,根據(jù)中國(guó)古籍自身的特點(diǎn),參照國(guó)際通行的圖書(shū)分類法分為哲科、史地、藝文、綜合4個(gè)子庫(kù),20個(gè)大類,近百個(gè)細(xì)目。范圍涉及先秦至民國(guó)的重要典籍1萬(wàn)余種,每種典籍有1個(gè)通行版本的全文信息,另附1-2個(gè)珍貴版本的圖像數(shù)據(jù),預(yù)計(jì)全文20億字,版本圖像2千萬(wàn)頁(yè)。基本可以滿足文史和其他方面研究者的研究需求。適用于中、英、日、韓多語(yǔ)種操作平臺(tái),并提供多重檢索功能。用戶只需懂得一些基本的電腦操作方法,就可在極短的時(shí)間內(nèi),查找所需的資料,每次檢索均可在5秒內(nèi)完成。
臺(tái)灣中央研究院《漢籍電子文獻(xiàn)》,始于1984年7月,前身是為開(kāi)發(fā)二十五史全文數(shù)據(jù)庫(kù)而成立的“史籍自動(dòng)化計(jì)劃”,現(xiàn)已完成的數(shù)據(jù)庫(kù),共約一億兩千萬(wàn)字,其中較大型的是二十五史、醫(yī)藥文獻(xiàn)、明實(shí)錄、歷代史料筆記叢刊和十三經(jīng),這些數(shù)據(jù)庫(kù)已包括中國(guó)唐代以前的大部份重要文獻(xiàn)(道教資料除外);正在建設(shè)中的數(shù)據(jù)庫(kù)多達(dá)一億八千萬(wàn)字,準(zhǔn)備逐步將宋代以下的重要文獻(xiàn)數(shù)字化。所有文獻(xiàn)通過(guò)人工與機(jī)器共進(jìn)行3次校對(duì)。在制作技術(shù)上得到中央研究院計(jì)算中心的支持。使用者可以在一秒之內(nèi),查到二十五史數(shù)據(jù)庫(kù)中四千萬(wàn)字的任何字詞。
“國(guó)際敦煌學(xué)項(xiàng)目”(The International Dunhuang Project,簡(jiǎn)稱IDP),旨在通過(guò)國(guó)際合作促進(jìn)敦煌寫卷的研究與保護(hù)。由英國(guó)圖書(shū)館開(kāi)發(fā),開(kāi)始于1993年。項(xiàng)目計(jì)劃逐步將全世界各國(guó)各收藏單位的敦煌文獻(xiàn)數(shù)字化。目前可在線查看英國(guó)圖書(shū)館收藏的3萬(wàn)余件中亞寫本和印本文件,以及15000余件殘卷的高質(zhì)量彩色圖片。2001年3月,中國(guó)國(guó)家圖書(shū)館與英國(guó)國(guó)家圖書(shū)館簽署五年合作項(xiàng)目,加入此項(xiàng)目。中國(guó)國(guó)家圖書(shū)館國(guó)際敦煌學(xué)項(xiàng)目的數(shù)字化內(nèi)容主要包括:1、館藏敦煌文獻(xiàn)數(shù)字化。使用掃描圖像展示寫卷的全部?jī)?nèi)容——正面、背面,甚至沒(méi)有文字的地方,圖像的清晰度與看原卷沒(méi)有區(qū)別。同時(shí)使用國(guó)際敦煌學(xué)項(xiàng)目提供的專門設(shè)計(jì)的4D數(shù)據(jù)庫(kù)詳細(xì)描述寫卷的物理性質(zhì)。2、研究論著目錄數(shù)據(jù)。包含四個(gè)專題書(shū)目數(shù)據(jù)庫(kù):敦煌吐魯番學(xué)日文論著目錄數(shù)據(jù)庫(kù);敦煌吐魯番學(xué)西文論著目錄數(shù)據(jù)庫(kù);敦煌文獻(xiàn)研究論著目錄數(shù)據(jù)庫(kù)和敦煌吐魯番學(xué)學(xué)者檔案數(shù)據(jù)庫(kù)。3、中國(guó)國(guó)內(nèi)散藏敦煌文獻(xiàn)聯(lián)合目錄。
以上介紹的是目前古籍?dāng)?shù)字化的重要工程項(xiàng)目,隨著數(shù)字圖書(shū)館建設(shè)的進(jìn)行,國(guó)家資金的投入和各方面專家的努力,古籍?dāng)?shù)字化中的各種各樣的問(wèn)題必將得到妥善的解決,我國(guó)五千年的優(yōu)秀文化必將得到更好的傳承。
原刊《文津流觴》第八期,2002年7月 |