【內(nèi)容提要】自上世紀(jì)八十年代古籍?dāng)?shù)字化開始出現(xiàn)到今天,成績(jī)斐然,但也存在不少問題,如缺乏整體規(guī)劃與協(xié)調(diào),相關(guān)技術(shù)標(biāo)準(zhǔn)與規(guī)范不統(tǒng)一,對(duì)古籍?dāng)?shù)字化工作的特點(diǎn)認(rèn)識(shí)不足,對(duì)古籍?dāng)?shù)字化工作的定位不夠明確。古籍類型多樣,形式與內(nèi)容有非常密切的關(guān)系。根據(jù)不同古籍的不同特征選擇適當(dāng)?shù)募夹g(shù),知識(shí)組織模式進(jìn)行數(shù)字化以完整,準(zhǔn)確地反映不同類型古籍中所蘊(yùn)含的信息是提高古籍?dāng)?shù)字化水平的關(guān)鍵。同時(shí),古籍?dāng)?shù)字化工作是數(shù)字圖書館建設(shè)的重要組成部分,因此應(yīng)該遵循數(shù)字圖書館建設(shè)的一般規(guī)則,古籍的特殊性應(yīng)該在統(tǒng)一標(biāo)準(zhǔn)規(guī)范的框架下進(jìn)行細(xì)化,應(yīng)該采用開放式的,分層次的,結(jié)構(gòu)化的數(shù)據(jù)庫來組織和揭示資源,應(yīng)該特別注意在古籍與古籍之間,古籍與現(xiàn)代普通圖書之間建立起有機(jī)的聯(lián)系,以為讀者提供一個(gè)完整的知識(shí)體系。
【關(guān)鍵詞】古籍;數(shù)字化;數(shù)字圖書館
從上一世紀(jì)八十年代中文古籍?dāng)?shù)字化開始出現(xiàn)到今天,已經(jīng)有二十多年歷史了。在臺(tái)灣地區(qū),從八十年代開始,一些學(xué)者和研究機(jī)構(gòu)就已經(jīng)著手研發(fā)以古籍為主的資源庫,如羅鳳珠先生的“《紅樓夢(mèng)》網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心”,《全唐詩》,《全宋詞》,《宋代名家詩》網(wǎng)絡(luò)版等。在機(jī)構(gòu)方面,臺(tái)灣中央研究院研發(fā)的“翰典全文檢索系統(tǒng)”[1],它不僅收錄了不少重要的典籍,同時(shí)其強(qiáng)大的文本檢索功能也給讀者利用古籍帶來了全新的感受。臺(tái)灣漢學(xué)研究中心制作的“善本叢刊影像先導(dǎo)系統(tǒng)”等也已陸續(xù)提供服務(wù)[2]。CBETA中華電子佛典協(xié)會(huì)的“在線藏經(jīng)閣”,已經(jīng)完成了《大正新修大藏經(jīng)》,《續(xù)藏經(jīng)》以及一些佛教參考文獻(xiàn)和工具書的數(shù)字化,并提供免費(fèi)下載服務(wù)[3]。近年,臺(tái)灣有關(guān)機(jī)構(gòu)提出了一個(gè)龐大的“數(shù)位典藏計(jì)劃”,其制作單位涵蓋圖書館,博物館,研究機(jī)構(gòu)等,與古籍有關(guān)的內(nèi)容包括:善本古籍典藏?cái)?shù)字化,金石拓片典藏?cái)?shù)字化,古籍附圖典藏?cái)?shù)字化以及“臺(tái)灣地區(qū)地方文獻(xiàn)典藏?cái)?shù)位化”和“期刊報(bào)紙典藏?cái)?shù)位化”等等[4]。
在香港地區(qū),香港中文大學(xué)中國(guó)文化研究所先后推出了先秦兩漢,魏晉南北朝古籍?dāng)?shù)據(jù)庫以及竹簡(jiǎn)帛書和甲骨文數(shù)據(jù)庫,成績(jī)也相當(dāng)可觀。
在國(guó)外,日本,美國(guó),英國(guó)等也都在中文古籍?dāng)?shù)字化方面作了大量工作,如國(guó)際敦煌學(xué)項(xiàng)目作為一個(gè)國(guó)際合作性質(zhì)的中文(包括一些中國(guó)古代少數(shù)民族文字)古籍?dāng)?shù)字化項(xiàng)目[5],目前已經(jīng)取得令人矚目的成果。
大陸地區(qū)的古籍?dāng)?shù)字化工作也開始于八十年代,到八十年代末,也取得了一些成績(jī),但當(dāng)時(shí)大部分的工作主要還是在學(xué)者的書齋中進(jìn)行的,并沒有對(duì)社會(huì)產(chǎn)生太大的影響。進(jìn)入九十年代以后,隨著計(jì)算機(jī)的普及及網(wǎng)絡(luò)技術(shù)的發(fā)展,古籍作為一種重要的民族文化遺產(chǎn),受到了高度重視,因此在一些讀書網(wǎng)站中,如“黃金書屋”,“新語絲”等就已經(jīng)有了相當(dāng)數(shù)量的古籍,內(nèi)容包括古典小說,歷代史籍,儒家經(jīng)典和諸子等等,數(shù)字化的形式主要是人工輸入的一般電子文本。
九十年代中期以后,一些大的出版機(jī)構(gòu),學(xué)術(shù)機(jī)構(gòu)和商業(yè)公司介入了古籍的數(shù)字化工作,古籍?dāng)?shù)字化的規(guī)模迅速擴(kuò)大,例如中國(guó)國(guó)家圖書館制訂了一個(gè)龐大的古籍特藏文獻(xiàn)的數(shù)字化計(jì)劃[6],包括:“碑帖菁華”[7],“西夏碎金”[8],“敦煌遺珍”[9],“數(shù)字方志”[10]以及甲骨文,《永樂大典》等,其中有些項(xiàng)目已經(jīng)完成,其成果可以通過網(wǎng)絡(luò)為讀者提供服務(wù),有的項(xiàng)目正在進(jìn)行中。北京大學(xué)正在進(jìn)行的《中國(guó)基本古籍光盤庫》,計(jì)劃收錄古籍一萬種。北京大學(xué)圖書館推出了“秘籍琳瑯”項(xiàng)目[11],中華書局正在進(jìn)行中華古籍語料庫的建設(shè),上海人民出版社與迪志文化出版有限公司合作推出了文淵閣《四庫全書》全文檢索版,書同文數(shù)字化技術(shù)有限公司推出了《四部叢刊》的全文檢索版[12],國(guó)學(xué)公司推出了《國(guó)學(xué)寶典》等系列產(chǎn)品[13]。
在上述的古籍?dāng)?shù)字化項(xiàng)目中,或以文獻(xiàn)特色勝,或以數(shù)量勝,或以使用功能勝。可以這樣說,在公開的中文文獻(xiàn)數(shù)據(jù)庫中,無論是數(shù)量還是采用的技術(shù)手段,古籍?dāng)?shù)字化工作所取得的成就都是最為耀眼的。
中文古籍?dāng)?shù)字化工作如何在現(xiàn)有的基礎(chǔ)上繼續(xù)向前發(fā)展這需要對(duì)以往的工作進(jìn)行一番總結(jié),特別是通過對(duì)存在的問題的分析,找到解決問題的方法,找到繼續(xù)向前發(fā)展的方向與突破點(diǎn)。下面,我們重點(diǎn)就大陸地區(qū)古籍?dāng)?shù)字化的現(xiàn)狀和存在的問題稍作檢討。
目前,中國(guó)大陸古籍?dāng)?shù)字化工作除古籍愛好者和研究者零星進(jìn)行的古籍?dāng)?shù)字化工作以外,成規(guī)模的數(shù)字化工作基本上是由三種類型的機(jī)構(gòu)來進(jìn)行:一種類型為教學(xué)和研究機(jī)構(gòu),一種類型為圖書館,還有一種類型則是商業(yè)機(jī)構(gòu)。這三種類型的機(jī)構(gòu)在進(jìn)行古籍?dāng)?shù)字化時(shí)是各有其特點(diǎn)的:
教學(xué)和研究機(jī)構(gòu)對(duì)數(shù)字化對(duì)象選擇目的性強(qiáng),數(shù)字化的目標(biāo)及方法主要是根據(jù)教學(xué)和研究工作需要來決定,例如中國(guó)社會(huì)科學(xué)院的數(shù)字化項(xiàng)目包括:《全唐詩》,《先秦魏晉南北朝詩》,《全上古三代秦漢三國(guó)六朝文》,《十三經(jīng)》,《全唐文》,《諸子集成》等等,北京大學(xué)的《全宋詩》等皆是如此。
圖書館所進(jìn)行的古籍?dāng)?shù)字化,則主要是根據(jù)其館藏特色來進(jìn)行,如中國(guó)國(guó)家圖書館,北京大學(xué)圖書館的古籍?dāng)?shù)字化項(xiàng)目基本上是按這個(gè)原則來規(guī)劃的。
至于商業(yè)機(jī)構(gòu),其古籍?dāng)?shù)字化的內(nèi)容主要是根據(jù)市場(chǎng)來決定的,哪一類文獻(xiàn)有市場(chǎng),就進(jìn)行哪一類文獻(xiàn)的數(shù)字化。考慮到市場(chǎng)的運(yùn)作,常常會(huì)選擇大型類書,叢書,如《古今圖書集成》,《四庫全書》,《四部叢刊》等等。
不同類型的機(jī)構(gòu)根據(jù)自己的情況進(jìn)行有特色的數(shù)字化對(duì)于推進(jìn)古籍?dāng)?shù)字化的工作無疑是必要的,但是,其中所存在的一些問題也不可忽視,有些問題已經(jīng)引起了人們的注意[14],而有些問題還沒有引起足夠的重視。
中國(guó)古籍的數(shù)字化是一項(xiàng)中華文化遺產(chǎn)的保護(hù)和弘揚(yáng)工作,具有強(qiáng)烈的公益性色彩,需要各方面加強(qiáng)協(xié)調(diào),有一個(gè)整體的規(guī)劃。整體規(guī)劃不僅包括數(shù)字化對(duì)象的內(nèi)容確定和合作分工,同時(shí)包括相關(guān)標(biāo)準(zhǔn),規(guī)范的統(tǒng)一,而恰好這兩方面的問題在目前古籍?dāng)?shù)字化工作中表現(xiàn)最為突出。
就協(xié)作方面的問題而言,主要是關(guān)注焦點(diǎn)過于集中,重復(fù)建設(shè)。
中國(guó)古籍的數(shù)字化目前是各自為陣,雖然數(shù)量已經(jīng)不少,但關(guān)注的焦點(diǎn)過于集中,并且多數(shù)都帶有商業(yè)色彩或者追求規(guī)模與宣傳效應(yīng),致使古籍的數(shù)字化集中于"少數(shù)"常用特別是叢書類的古籍,而一些學(xué)術(shù)界需要的古籍鮮有顧及。例如文淵閣《四庫全書》先后已有三家進(jìn)行過影像的數(shù)字化(上海人民出版社與迪志文化出版有限公司的光盤版,武漢大學(xué)出版社的光盤版,“中美百萬冊(cè)書數(shù)字圖書館”的網(wǎng)絡(luò)版等),一家進(jìn)行了影像,全文文本的數(shù)字化(上海人民出版社與迪志文化出版有限公司的網(wǎng)絡(luò)版),此外還有一些機(jī)構(gòu)曾經(jīng)也進(jìn)行過相同的工作,只是由于各種原因最后沒能面世。至于像二十五史這類規(guī)模稍小但更常用的文獻(xiàn),其數(shù)字版本就更多了。
就標(biāo)準(zhǔn),規(guī)范方面的問題而言,由于制作單位不同,各自的利益不同,所制作的古籍?dāng)?shù)據(jù)庫常常是封閉的,在技術(shù)上很難與其他數(shù)據(jù)庫融為一體,造成知識(shí)體系的割裂。同時(shí),出于保護(hù)各自的知識(shí)產(chǎn)權(quán)或有利于產(chǎn)品占領(lǐng)市場(chǎng),不少機(jī)構(gòu)并不采用通行的工業(yè)標(biāo)準(zhǔn),而是自行設(shè)定相關(guān)的數(shù)字化加工與組織標(biāo)準(zhǔn)。
上面所提到的問題,無論是協(xié)作還是標(biāo)準(zhǔn)與規(guī)范,都是屬于表面層次的問題,是比較容易發(fā)現(xiàn)的,而另外一些問題常常被人忽略,但就其性質(zhì)而言,更應(yīng)引起我們的重視:
第一,對(duì)古籍?dāng)?shù)字化工作的特點(diǎn)認(rèn)識(shí)不夠。古籍較之其他類型文獻(xiàn)有什么特點(diǎn)如何在數(shù)字化時(shí)體現(xiàn)這些特點(diǎn)
第二,對(duì)古籍?dāng)?shù)字化工作的定位不夠明確。古籍?dāng)?shù)字化與其他文獻(xiàn)的數(shù)字化是什么關(guān)系它在整個(gè)數(shù)字圖書館建設(shè)中處于什么樣的地位作為文獻(xiàn)的一種類型,古籍的數(shù)字化與其他文獻(xiàn)的數(shù)字化相比,有其共性,但也有其個(gè)性,為了體現(xiàn)這些個(gè)性,需要我們采取一些特殊的加工手段和技術(shù)措施。因此,根據(jù)古籍的特點(diǎn)來進(jìn)行數(shù)字化是提高古籍?dāng)?shù)字化水平最主要的途徑。
如何進(jìn)行古籍的數(shù)字化海內(nèi)外已有不少學(xué)者對(duì)此進(jìn)行過專門研究,不過討論主要集中在漢字字符集,OCR識(shí)別及版面還原和全文檢索等方面。隨著計(jì)算機(jī)技術(shù)的發(fā)展,上述問題已經(jīng)不再是什么大問題了,因此,已有學(xué)者開始從更廣的角度提出了對(duì)古籍?dāng)?shù)字化更新的功能需求。北京大學(xué)李國(guó)新教授提出:第一是必須實(shí)現(xiàn)文本字符的數(shù)字化,第二是具有基于超鏈接的瀏覽閱讀環(huán)境,第三是具有強(qiáng)大的檢索功能,第四是具有研究支持功能。
李國(guó)新教授所列前三項(xiàng)是一般文獻(xiàn)數(shù)字化都應(yīng)該具有的,也就是說,并非古籍的特性。關(guān)于第四項(xiàng),李國(guó)新教授提出的具體內(nèi)容是:“所謂'研究支持功能'是指能夠提供有關(guān)古籍內(nèi)容本身科學(xué),準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供與古籍內(nèi)容相關(guān)的參考數(shù)據(jù),輔助工具。這些信息,數(shù)據(jù)或工具都是古籍內(nèi)容的增值或補(bǔ)充。比如古籍字?jǐn)?shù),字頻,詞頻的統(tǒng)計(jì)資料,異體字的匯聚顯示,讀音的自動(dòng)標(biāo)注和朗讀,行文風(fēng)格特點(diǎn)的概率統(tǒng)計(jì),必要的背景知識(shí),參考數(shù)據(jù)的匯聚,在線標(biāo)點(diǎn)斷句工具的配備,不同版本比勘校對(duì)接口的設(shè)置,字典詞典,歷史年表,歷史地圖等研究工具的載入,等等。”[15]的確,近年來不少機(jī)構(gòu)在進(jìn)行古籍?dāng)?shù)字化時(shí),都將注意力逐漸集中到了李國(guó)新教授所提到這些方面,在進(jìn)行數(shù)字化時(shí)比較注意相關(guān)工具的開發(fā)。
除了對(duì)相關(guān)工具的研發(fā)以外,在古籍?dāng)?shù)字化方面我們還能作些什么也有人提出希望建立古籍整理的專家系統(tǒng),以實(shí)現(xiàn)古籍版本的自動(dòng)校勘,自動(dòng)查錯(cuò),自動(dòng)斷句標(biāo)點(diǎn),自動(dòng)注釋,自動(dòng)翻譯為白話[16]等等。數(shù)字技術(shù)能否取代人腦進(jìn)行上述有些明顯屬于思想層次的工作,目前我們并不敢抱太多的幻想[17],不過,今天數(shù)字化技術(shù)的進(jìn)步的確已經(jīng)為我們從更廣的領(lǐng)域,更深的層次進(jìn)行文獻(xiàn)加工整理從而向讀者提供全新的服務(wù)提供了可能。
在紙本時(shí)代,我們對(duì)文獻(xiàn)的認(rèn)識(shí)與管理主要是針對(duì)其物理形態(tài)進(jìn)行的,至多我們能夠?qū)ζ渲饕獌?nèi)容進(jìn)行一些抽象的描述。在數(shù)字化時(shí)代,我們對(duì)文獻(xiàn)的管理,已經(jīng)突破了文獻(xiàn)的物理形態(tài)深入到了它所包含的信息單元,并且能根據(jù)我們對(duì)這些信息單元的理解與把握將之進(jìn)行分合,重組,以向讀者提供針對(duì)性更強(qiáng),內(nèi)容更豐富的信息服務(wù),而在進(jìn)行信息單元的分合,重組時(shí),首先面臨的就是對(duì)加工對(duì)象特點(diǎn)的正確把握與處理。
較之其他類型的文獻(xiàn),古籍有什么特點(diǎn)
古籍的特點(diǎn),首先是版本的問題,包括古籍版本的選擇問題,古籍版本的比較問題,已有古籍研究成果的利用問題以及一些因古籍的特殊性而產(chǎn)生的全文檢索與規(guī)范控制等問題。
關(guān)于古籍的版本選擇,這是古籍整理與數(shù)字化首先要遇到的問題。在傳統(tǒng)的古籍整理,研究工作中,它就是學(xué)者們普遍遵循的原則之一。就目前的古籍?dāng)?shù)字化現(xiàn)狀而言,由于種種原因,一些機(jī)構(gòu)在進(jìn)行古籍?dāng)?shù)字化工作時(shí),通常喜歡選擇叢書或易于獲得的文獻(xiàn),而不是根據(jù)版本的優(yōu)劣來選擇,其造成的后果就是已經(jīng)數(shù)字化的古籍并不是最好的版本,這自然會(huì)極大的影響質(zhì)量。因此,今后的古籍?dāng)?shù)字化應(yīng)該聘請(qǐng)專家對(duì)古籍的版本進(jìn)行篩選,盡量選擇好的版本進(jìn)行數(shù)字化。
與古籍版本選擇直接相關(guān)的就是古籍版本的比較問題。許多古籍都不止一個(gè)版本,雖然我們可以勉強(qiáng)說某種古籍的某個(gè)版本比較好,但這并非絕對(duì)的,因?yàn)椴煌姹局g的異同也許互有短長(zhǎng)。同時(shí),根據(jù)對(duì)不同版本異同的分析我們也許能從中了解更多,更重要的信息。因此,版本的比較在古籍的整理工作中是非常重要的。在利用紙質(zhì)文獻(xiàn)時(shí),我們常常會(huì)搜集不同的版本進(jìn)行比勘。在數(shù)字化時(shí)代,直接采用掃描的數(shù)字化影像文獻(xiàn)由于閱讀不便,因此即使我們有了不同版本的數(shù)字化影像文獻(xiàn),但使用起來會(huì)非常困難,遠(yuǎn)不如紙質(zhì)文獻(xiàn)。如何利用現(xiàn)代信息處理技術(shù)來處理不同版本的比較問題將是我們今后必須考慮的[18]。
全文檢索是古籍?dāng)?shù)字化進(jìn)程中最先受到重視的技術(shù)。簡(jiǎn)單的全文檢索在幾乎所有的文本編輯和對(duì)象數(shù)據(jù)庫中都能實(shí)現(xiàn),但從目前國(guó)內(nèi)幾種使用最普遍的古籍?dāng)?shù)據(jù)庫的情況來看,一個(gè)比較大的問題就是如何處理古籍的繁簡(jiǎn)字,異體(形)字,俗字的識(shí)別與檢索問題。由于在進(jìn)行大規(guī)模的古籍漢字識(shí)別時(shí),需要高水平的專家對(duì)文字把關(guān),但在實(shí)際工作中做起來是非常困難的,一些大型古籍?dāng)?shù)據(jù)庫在制作時(shí),操作人員限于水平,不能識(shí)別古籍中的異體(形)字,俗字,不得不“依樣畫葫蘆”,其結(jié)果就是大量生造Unicode表外字,不僅在檢索時(shí)一個(gè)字列出一大堆繁簡(jiǎn)字,異體(形)字,俗字,生造字,增加了檢索"噪音";同時(shí),由于大量生造的Unicode表外字,也增加了數(shù)據(jù)庫在開放,共享方面的困難。
在中文數(shù)字化工作中,為了提高檢索效率,防止過多的“噪音”,因此人們非常重視漢字的標(biāo)引特別是詞典切分標(biāo)引。詞典切分標(biāo)引對(duì)于現(xiàn)代文獻(xiàn)可能相對(duì)較易,但由于古籍及古代漢語的復(fù)雜性,在實(shí)際工作中做起來是非常困難的,它不僅要解決防止“噪音”過多的問題,還要解決字,詞在特定的語境中含義不同的問題,這已經(jīng)屬于人工智能的范疇了。此外,還有一些問題需要解決,如同書異名,同名異書,同一作者有不同的稱謂,其他如職官,地名,事件名等都與現(xiàn)代很不相同,例如“李世民”=“唐太宗”,“南京”=“天京”(太平天國(guó)),“太平天國(guó)起義”=“洪楊之亂”等,非常復(fù)雜,這是一個(gè)尚待研究的課題。這些問題有的在傳統(tǒng)的文獻(xiàn)整序時(shí)已經(jīng)有了解決的辦法,也就是我們?cè)谖墨I(xiàn)編目時(shí)經(jīng)常要提到的"名稱及主題規(guī)范","權(quán)威檔"(Authority),通過對(duì)文獻(xiàn)進(jìn)行規(guī)范控制,我們可以基本上解決一般性的異名問題。但是,由于古籍的數(shù)字化同現(xiàn)代文獻(xiàn)編目不同,它主要是對(duì)文獻(xiàn)內(nèi)容的數(shù)字化處理,而不是對(duì)文獻(xiàn)某些特征的抽象性描述,有些問題可能需要建立一些知識(shí)性的支撐數(shù)據(jù)庫(或工具庫)來解決,如對(duì)古籍中地名,職官名的處理。以地名為例,古籍中的地名與今天的地名很不相同,一地有數(shù)名,一地的四至(范圍)在不同時(shí)代各不相同等等,這使得古籍中的地名規(guī)范處理起來非常困難,因此,建立一個(gè)以現(xiàn)代地理信息系統(tǒng)(GIS)的方式構(gòu)建的古代地理信息系統(tǒng)就非常必要了,作為全國(guó)乃至全世界同行在進(jìn)行古籍?dāng)?shù)字化時(shí)通用的知識(shí)性支撐系統(tǒng),這個(gè)系統(tǒng)并不是簡(jiǎn)單附上一個(gè)電子地圖,而應(yīng)該根據(jù)文化的或行政的區(qū)劃變遷繪制不同的地圖,以正確地反映不同時(shí)代文化,政治地理的變遷情況,同時(shí)輔以古代地名規(guī)范數(shù)據(jù)庫。這將是一項(xiàng)極為浩大的工程,需要各方協(xié)作。目前,大陸,臺(tái)灣以及美國(guó)的一些學(xué)術(shù)研究機(jī)構(gòu)已經(jīng)開始了中國(guó)古代地理信息系統(tǒng)的研制,中國(guó)國(guó)家圖書館也開始了古籍地名,人名等規(guī)范數(shù)據(jù)庫的制作。
關(guān)于古籍?dāng)?shù)字化工作的定位,所涉及的問題更為復(fù)雜。就目前的情況而言,中文古籍?dāng)?shù)字化的成果,無論其制作機(jī)構(gòu)是什么,讀者大多是通過圖書館或其他一些文獻(xiàn)收藏或傳播機(jī)構(gòu)來利用的。由于不同古籍?dāng)?shù)字化制作機(jī)構(gòu)各有其考慮,各有其利益,因此在標(biāo)準(zhǔn)與規(guī)范方面難以統(tǒng)一,獨(dú)立成庫,互不開放,不僅難于與其他古籍?dāng)?shù)字化項(xiàng)目共享資源,也很難納入各圖書館整個(gè)的文獻(xiàn)資源體系之中。
我們認(rèn)為,古籍是人類整個(gè)知識(shí)體系中的一個(gè)組成部分,古籍不應(yīng)該與現(xiàn)代普通文獻(xiàn)割裂開來。數(shù)字化文獻(xiàn)只是我們對(duì)文獻(xiàn)的一種處理方式,數(shù)字化的文獻(xiàn)也不應(yīng)該與非數(shù)字化的文獻(xiàn)割裂開來。因?yàn)椋辽僭诳梢灶A(yù)見的將來,我們不可能將所有文獻(xiàn)數(shù)字化,一個(gè)完整的文獻(xiàn)信息體系將同時(shí)涵蓋數(shù)字化和非數(shù)字化的文獻(xiàn)。我們可以通過數(shù)字化的手段,如現(xiàn)在一般圖書館都已廣泛應(yīng)用的計(jì)算機(jī)機(jī)讀目錄將數(shù)字化與非數(shù)字化的文獻(xiàn)連接起來,從而構(gòu)成一個(gè)完整的知識(shí)體系。因此,我們希望在一個(gè)通用的平臺(tái)上,讀者既可以進(jìn)行一般性的書目包括現(xiàn)代圖書與古籍的查詢,同時(shí)根據(jù)需要可以直接切換到古籍甚至相關(guān)的現(xiàn)代研究性著作的全文上,如果再加上一些相關(guān)的知識(shí)性輔助工具,將使讀者對(duì)古籍的利用進(jìn)入一個(gè)新的境界。
古籍?dāng)?shù)字化工作是數(shù)字圖書館建設(shè)的重要組成部分,因此應(yīng)該按數(shù)字圖書館的模式去組織,加工,發(fā)布。古籍?dāng)?shù)字化應(yīng)該是以開放式的,分層次的,結(jié)構(gòu)化的數(shù)據(jù)庫來組織與揭示,在進(jìn)行數(shù)字化加工時(shí)應(yīng)遵循與現(xiàn)代圖書統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,古籍的特殊性應(yīng)該在統(tǒng)一標(biāo)準(zhǔn)規(guī)范的框架下進(jìn)行細(xì)化。各機(jī)構(gòu)之間或同一機(jī)構(gòu)不同的數(shù)字化項(xiàng)目之間,可以通過某種形式的共享協(xié)議或技術(shù),使所有的資源能夠在同一平臺(tái)上使用并互相調(diào)用。同時(shí),在大多數(shù)情況下,古籍與現(xiàn)代圖書的知識(shí)庫應(yīng)該是可以共享的,如字典,歷史年表,紀(jì)年換算,歷法換算,各類規(guī)范數(shù)據(jù)庫,地理信息系統(tǒng)等等。
如前所述,版本問題是古籍?dāng)?shù)字化工作中一個(gè)非常重要的問題,除了選擇好的版本以外,如何讓讀者能夠方便地了解和使用該書的其他版本,或者雖然不同書,但卻有相同,相近,相關(guān)內(nèi)容的文獻(xiàn),這也是我們?cè)谶M(jìn)行數(shù)字化時(shí)應(yīng)該考慮到的。我們當(dāng)然可以在進(jìn)行數(shù)字化時(shí)就將一部書的不同版本一起數(shù)字化,但在實(shí)際的操作中,這卻是很難辦到的,在很多情況下,也是不必要的。要解決這個(gè)問題,應(yīng)該將單種的古籍置于一個(gè)更龐大的古籍資源體系中來考慮,如果我們?cè)谶M(jìn)行數(shù)字化時(shí)遵循一定的標(biāo)準(zhǔn),規(guī)范,遵循開放性原則,相信可以通過一定的檢索手段與內(nèi)容關(guān)聯(lián)方法給讀者提供版本和內(nèi)容比勘的方便。
從2002年開始,由科技部委托國(guó)家科技圖書文獻(xiàn)中心協(xié)調(diào),中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,中國(guó)科學(xué)技術(shù)信息研究所,國(guó)家圖書館,CALIS管理中心,北京大學(xué)圖書館,上海圖書館等21家單位聯(lián)合
進(jìn)行了數(shù)字圖書館的相關(guān)標(biāo)準(zhǔn)規(guī)范研究[19],其中直接與中文古籍有關(guān)的包括:《輿圖描述元數(shù)據(jù)著錄規(guī)則》,《輿圖描述元數(shù)據(jù)規(guī)范》,《拓片描述元數(shù)據(jù)著錄規(guī)則》,《拓片描述元數(shù)據(jù)規(guī)范》,《家譜描述元數(shù)據(jù)著錄規(guī)則》,《家譜描述元數(shù)據(jù)規(guī)范》,《古籍描述元數(shù)據(jù)著錄規(guī)則》,《古籍描述元數(shù)據(jù)規(guī)范》,《地方志描述元數(shù)據(jù)著錄規(guī)則》,《地方志描述元數(shù)據(jù)規(guī)范》等等。此外,還制訂了不同類型數(shù)字資源的加工標(biāo)準(zhǔn)和規(guī)范,如對(duì)古籍,拓片,輿圖,字畫,手稿,文牘,契約以及甲骨,金石,竹簡(jiǎn),陶器等實(shí)物的三維造型等等。目前,這些標(biāo)準(zhǔn),規(guī)范正在測(cè)試之中。我們相信,如果在古籍?dāng)?shù)字化工作中遵循一定的標(biāo)準(zhǔn)規(guī)范,不僅會(huì)有利于古籍?dāng)?shù)字資源的共享,同時(shí),對(duì)于古籍內(nèi)容深層次的揭示,版本的比勘等等都具有重要的意義。
古籍?dāng)?shù)字化工作是一項(xiàng)系統(tǒng)工程,無論是從項(xiàng)目規(guī)劃還是到社會(huì)資源的共建共享,都需要以協(xié)作和開放的精神來開展工作,不僅在標(biāo)準(zhǔn)與規(guī)范上需要協(xié)作與開放,在古籍?dāng)?shù)字化的體系結(jié)構(gòu)上需要協(xié)作與開放,在項(xiàng)目的規(guī)劃與實(shí)施上更需要協(xié)作與開放。只有集中各方面的智慧與資源,才能使中華民族的文化遺產(chǎn)得到全面的繼承與弘揚(yáng)。
【注釋】
[1]http://www.sinica.edu.tw/ftms-bin/ftmsw3,查詢于2005年5月12日。
[2]http://www.ncl.edu.tw/f89.htm,查詢于2005年5月12日。
[3]http://ccbs.ntu.edu.tw/cbeta/result/index.htm,查詢于2005年5月12日。
[4]http://www.ndap.org.tw/,查詢于2005年5月12日。
[5]http://idp.bl.uk/,查詢于2005年5月12日。
[6]http://www.nlc.gov.cn/nav/insite.htm,查詢于2005年6月7日。
[7]http://202.96.31.42:9080/ros/index.htm,查詢于2005年5月12日。
[8]http://202.96.31.42:9080/wenxian,查詢于2005年5月12日。
[9]http://idp.nlc.gov.cn,查詢于2005年5月12日。
[10]http://202.96.31.42/chronic/index.htm,查詢于2005年5月12日。
[11]http://rbdl.calis.edu.cn/index.htm,查詢于2005年5月12日。
[12]http://www.unihan.com.cn/html/index.htm,查詢于2005年5月12日。
[13]http://www.ffhyjd.com/cp/cpfront.htm,查詢于2005年5月12日。
[14]吳宣德:《古籍?dāng)?shù)字化:現(xiàn)狀,問題與趨勢(shì)——從一個(gè)使用者的角度看》,http://myqf.nease.net/gengyusuoji/guji.htm,查詢于2005年5月12日。
[15]李國(guó)新:《中國(guó)古籍資源數(shù)字化的進(jìn)展與任務(wù)》,《大學(xué)圖書館學(xué)報(bào)》,2002年第1期。
[16]潘德利:《中國(guó)古籍?dāng)?shù)字化進(jìn)程和展望》,《圖書情報(bào)工作》,2002年7期。
[17]關(guān)于這方面的問題,羅鳳珠先生曾有專文討論,參見《在因特網(wǎng)建立漢學(xué)研究環(huán)境的重要性及可行性——就中國(guó)文學(xué)而論》,《漢學(xué)研究通訊》,第16卷第1期,1997年2月;《臺(tái)灣地區(qū)中國(guó)古籍文獻(xiàn)資料數(shù)字化的過程與未來的發(fā)展方向》,《五十年來臺(tái)灣人文學(xué)術(shù)研究叢書——文獻(xiàn)學(xué)與圖書資訊學(xué)》,學(xué)生書局,2000年11月。
[18]高大威先生曾就此問題有專論,并提出了四種解決的方法,但其所謂最佳的二種解決辦法皆欲某一文獻(xiàn)的所有版本納入一個(gè)樹狀結(jié)構(gòu)的數(shù)據(jù)庫之中,雖高先生也曾設(shè)想“在各古籍,各版本之間研發(fā)一套‘整合檢索',‘交叉瀏覽'與‘原文比對(duì)',‘隨選打印'等功能”,甚至“可另外研發(fā)古籍影像系統(tǒng),兩相連結(jié)”,但其設(shè)計(jì)的思路仍是以封閉式的封裝數(shù)據(jù)庫結(jié)構(gòu)為基礎(chǔ),較之現(xiàn)代數(shù)字圖書館資源組織模式仍有較大差距,不過高氏的觀點(diǎn)仍是值得注意的。參見高大威:《漢籍電子數(shù)據(jù)庫建構(gòu)方式之基本分析》,《文傳論叢——2002“第二屆漢文化數(shù)據(jù)庫國(guó)際學(xué)術(shù)研討會(huì)”論文集》,http://www.hanculture.com/file/20040421161330_05.pdf,查詢于2005年5月12日。
[19]http://cdls.nstl.gov.cn/cdls2/w3c/,查詢于2005年5月12日。
原載《國(guó)家圖書館學(xué)刊》2005年第3期 |