李玉安
(武漢大學(xué)圖書館 430072)
內(nèi)容摘要:古籍?dāng)?shù)字化,是信息時代對傳統(tǒng)紙質(zhì)歷史文獻傳遞與利用的最便捷的方式。在古籍?dāng)?shù)字化過程中,應(yīng)逐步將企業(yè)行為逐步轉(zhuǎn)變?yōu)閲倚袨椋鳛閲椅幕鞴懿块T、國家圖書館或者是國家古籍保護中心,應(yīng)該盡快研究和出臺相關(guān)古籍?dāng)?shù)字化標(biāo)準(zhǔn)和格式,成立相應(yīng)的專業(yè)數(shù)字化公司,結(jié)合國家古籍名錄的頒布,統(tǒng)一組織和分期分批實施古籍?dāng)?shù)字化,這不僅是科學(xué)研究事業(yè)的需要,更是開展國家古籍保護工作的需要。
關(guān)鍵詞:古籍?dāng)?shù)字化;古籍利用;古籍保護
作者簡介:李玉安,男,1957年生。武漢大學(xué)圖書館古籍部主任,研究館員。發(fā)表論文40余篇,著述7部。
古籍?dāng)?shù)字化,有兩個方面使得人們期望值不斷提高并產(chǎn)生了誤區(qū):第一是對古籍的保護的期望值,認(rèn)為只要古籍?dāng)?shù)字化了,就可以在電腦顯示器上瀏覽,珍善本古籍就可以安然入庫了。第二是人們對數(shù)字化古籍檢索和閱讀功能的期望值不斷地在提高,只要數(shù)字化了,就可以有海量的儲存、便捷的檢索、傳輸?shù)目焖佟⒖鐣r空的鏈接、高度的開放等,這些優(yōu)點,當(dāng)然是傳統(tǒng)的古籍檢索和閱覽中望塵莫及。然而,我們也不能盲目地過于樂觀,應(yīng)該認(rèn)識到,古籍?dāng)?shù)字化是一個過程,而且是一個較為漫長的過程,不可能一蹴而就的。在今后一個時期內(nèi),古籍?dāng)?shù)字化的建設(shè)應(yīng)該以國家行為為主,期望國家有關(guān)主管部門做出更多的分析和研究,統(tǒng)一來組織和實施全國古籍?dāng)?shù)字化工程,如同實施全國古籍普查與保護工程一樣,成立專門的班子,納入國家文化主管部門的規(guī)劃和計劃中,有計劃、有步驟地開展中國古籍?dāng)?shù)字化工程。
一、中國古籍?dāng)?shù)字化的建設(shè)模式最好是國家行為,而非企業(yè)行為
古籍?dāng)?shù)字化,說到底,它牽涉到三個方面的問題,一是組織,二是投入,三是營銷和利用。就我國的實際情況來講,目前開發(fā)的數(shù)字化產(chǎn)品來講,大部分是企業(yè)公司的文化營銷行為,不是某個公司或者是某幾個圖書館聯(lián)合后,都有能力來組織和經(jīng)營古籍?dāng)?shù)字化成果的。現(xiàn)在的問題是,各館都在把本館的特色館藏數(shù)字化,是不是就算進行了古籍?dāng)?shù)字化呢?顯然不是,或者說只是其中的一部分。這樣盲目進行的數(shù)字化工程,在沒有行業(yè)和部門的規(guī)劃和計劃指導(dǎo)下的盲動,它帶來的負(fù)面影響除了重復(fù)勞動和資源浪費外,再就是低水平的單機(館)利用,談不上是社會效益和國家利益。
我們認(rèn)為,建設(shè)國家(省市)級的古籍?dāng)?shù)字化中心是最具權(quán)威和最為理想的建設(shè)模式。文化部應(yīng)在評估的基礎(chǔ)上立項,在國家圖書館成立國家古籍?dāng)?shù)字化中心,包括現(xiàn)在已經(jīng)成立的國家古籍保護中心(或在其中心下面成立國家古籍?dāng)?shù)字化中心),負(fù)責(zé)開展全國各系統(tǒng)各類型圖書館的古籍?dāng)?shù)字化工作,包括古籍?dāng)?shù)字化經(jīng)費的落實,古籍?dāng)?shù)字化標(biāo)準(zhǔn)與格式,古籍?dāng)?shù)字化的版本遴選,數(shù)字化后的文字與內(nèi)容的校勘,古籍?dāng)?shù)字化后的文獻保護,古籍?dāng)?shù)字化成果的使用與營銷等,都應(yīng)該在國家圖書館古籍館的領(lǐng)導(dǎo)下,逐步走出一個中國特色的且與世界通用的中國古籍?dāng)?shù)字化的建設(shè)模式來。
國家圖書館在文化部的直接領(lǐng)導(dǎo)下,于2007~2009年開展的國家古籍珍貴名錄申報工作,已經(jīng)有了一個很好的開端。國家圖書館應(yīng)該首先對第一批2392部珍貴古籍和第二批4478部珍貴古籍加以數(shù)字化。僅第二批名錄中,先秦兩漢的文獻達(dá)9部,魏晉隋唐的146部,宋遼金元的645部,明清善本3411部,民族文字文獻266部。這兩批珍貴名錄中的文物文獻,不僅僅是全國各省市和大學(xué)、科學(xué)圖書館的鎮(zhèn)館之寶,也是中華民族傳統(tǒng)文獻的珍品和瑰寶,具有極高的文物價值和文獻價值。保護和利用好這些文化精品,是我們的義務(wù)和責(zé)任。率先將這些國家珍貴名錄數(shù)字化,不僅僅是文獻保護的需要,也是讓更多的珍善之本能提供給更多的讀者研究和利用。
在這種建設(shè)模式下,首先有利條件是經(jīng)費的保證,國家應(yīng)該吸取相關(guān)的教訓(xùn),盡快將古籍?dāng)?shù)字化的企業(yè)行為轉(zhuǎn)變?yōu)閲倚袨椋ㄗh撥出相應(yīng)的經(jīng)費來保證古籍?dāng)?shù)字化的軟件研發(fā)和推廣,并在薄利的前提下,推廣到社會,造福于科學(xué)研究。國家文化部、財政部、教育部等發(fā)起由國家圖書館在2001年組織實施完成的《中華再造善本》工程,就是一例很好的國家項目行為,不僅僅是保護了中華珍貴文獻,更是造福了千萬學(xué)子,提供了利用這些珍貴文物文獻的機會。
其次是數(shù)字化技術(shù)的保證,過去,我們在數(shù)字資源的語言與格式、存儲與讀寫、編碼技術(shù)等方面,還是一瓶頸。現(xiàn)在都有了比較成熟的技術(shù),可以說,古籍?dāng)?shù)字化技術(shù)已經(jīng)不再是難關(guān)了,而現(xiàn)在的難關(guān)恰恰是在規(guī)劃與組織、規(guī)模與項目的問題了。而這個問題,更需要的是國家行為。
其三是古籍?dāng)?shù)字化專業(yè)人員的保證。有了這三寶,建設(shè)國家級和省部級的古籍?dāng)?shù)字化中心,應(yīng)該是一條便捷之路。
國外古籍?dāng)?shù)字化和數(shù)字圖書館發(fā)展的道路和歷程值得我們借鑒。以美國為例,它率先在俄亥俄州的OCLC和OhioLINK的模式上,它并不是首先建立數(shù)字化圖書館,而是首先建立圖書館網(wǎng)絡(luò),從建網(wǎng)初期的18個圖書館發(fā)展到全州的74個圖書館,實現(xiàn)了全州的統(tǒng)編聯(lián)采、網(wǎng)上互借、網(wǎng)上資源的共建共享等,到目前有四萬多個各類型的圖書館連接,這種的社會效益是被廣大讀者認(rèn)可的。
中國古籍?dāng)?shù)字化建設(shè)的模式,應(yīng)該是在國家文化部的統(tǒng)一規(guī)劃下,依托于我國傳統(tǒng)圖書館“三大系統(tǒng)”的龍頭單位,如國家圖書館、中科院科學(xué)圖書館、清華、北大圖書館等牽頭,由國家圖書館組織相關(guān)的單位和專家,統(tǒng)一制定相關(guān)標(biāo)準(zhǔn)和格式,由全國各省、市的分中心等實施,它工作的核心應(yīng)該是古籍?dāng)?shù)字化版本信息的收集、文字的整理與加工、數(shù)據(jù)組織、鏈接和保存?zhèn)鬟f,統(tǒng)一在國家標(biāo)準(zhǔn)之內(nèi)。應(yīng)該走統(tǒng)一、聯(lián)合共建、防止重復(fù)建設(shè)的道路。至于全國古籍?dāng)?shù)字化如何確定精選優(yōu)選的標(biāo)準(zhǔn),我們應(yīng)該相信專家的判斷,更應(yīng)該相信圖書館等收藏單位的利用率和稀有情況,來挑選急需數(shù)字化的文獻;分期分批地逐年完成珍貴古籍的數(shù)字化。
二、中國古籍?dāng)?shù)字化的相關(guān)標(biāo)準(zhǔn)的制定,只有國家行為才具權(quán)威
誠如李國新先生斷言,中國古籍?dāng)?shù)字化,必須保證具有四大功能:一是必須實現(xiàn)文本字符的數(shù)字化,第二是具有基于超鏈接的瀏覽閱讀環(huán)境,第三是具有強大的檢索功能,第四是具有研究支持功能。而要求實現(xiàn)文本字符的數(shù)字化,是求得檢索的自動化、便捷化。而要完全無誤地實現(xiàn)文本字符的數(shù)字化,文本字符的識別問題是一個令人頭疼的問題。恰恰在中國古籍?dāng)?shù)字化實踐中,有一個很不樂觀的事實是,有將近四分之一的古籍是難以用掃描或照相來完成文字識別的,這表現(xiàn)在稿本、手抄本、寫本等載體上,這些文字的識別有相當(dāng)?shù)碾y度,是必須用人工干預(yù)方能完成。盡管在過去20多年中,古籍?dāng)?shù)字化的字符技術(shù)與存儲技術(shù)已經(jīng)逐步走向成熟,然而在處理異體字方面,目前還是要靠人工造字(符號)來實現(xiàn),而人工造字雖然目前都可以實現(xiàn),但是人工編碼字體的增多,也影響了軟件的通用性,字符問題不具備通用性,就難以完全實現(xiàn)古籍?dāng)?shù)字化。
古籍中的異體字,是比比皆是的,一般有以下幾種:第一是避諱字,第二是異體字,第三是少數(shù)民族文字,第四是手抄本中的草體字。以上這幾種文獻,都在一定程度上限制了中國古籍?dāng)?shù)字化的轉(zhuǎn)換和檢索,退而求其次,只能用照相或掃描的圖像文件,而這些圖像文件則不具備鏈接功能和檢索功能,又制約著古籍?dāng)?shù)字化數(shù)據(jù)庫的使用功能。
要具備通用性字符的完備性,就必須對各種各樣的古籍中會出現(xiàn)的問題做一個完備的字庫,這個字庫的字?jǐn)?shù)肯定超過10萬~15萬個左右。而且必須考慮到各種字體的轉(zhuǎn)換問題,例如:
1、簡繁體轉(zhuǎn)換:簡/簡 義/義 連體/連體;
2、正體與異體:修/俢 兔/兎 刃/刄
3、正字與訛(偽)字:久/乆 派/泒 叐/犮
4、通假與被通假:詳/佯
5、古今字體:镸/長/長
6、新舊字形兼容:青/靑 説/說 媼/媼
7、形近異義字:義/叉 刺/剌 諫/諌
8、避諱字體:弘/ 玄/
燁/
胤/
禛/
構(gòu)/構(gòu)
9、異體字:“夘央”/鴛鴦;
10、生造字:囯/國/國 曌/照
以上10大類型,還不包括俗字與俚語,作為一般文獻來講,遇到各種的異體字,我們只要在Unicode中造一個模塊,或許就能解決,但是整個建設(shè)模式是凌亂的無序的,Unicode編碼系統(tǒng)已經(jīng)定義了七萬多漢字,如果再擴展數(shù)萬個漢字,漢字字符不足問題就會得到解決。但是,古籍?dāng)?shù)字化的內(nèi)容并不只是字符的轉(zhuǎn)換問題,各地各館各公司隨意開發(fā),就使得這種古籍?dāng)?shù)字化化后的通用性大為下降,降低了讀者利用數(shù)字文獻的欲望,而寧可去利用紙本文獻,這與我們古籍?dāng)?shù)字化的初衷是大相徑庭的。
我們從《四庫全書》(電子版)、《中華基本古籍庫》、《國學(xué)寶典》三大古籍?dāng)?shù)字化產(chǎn)品的效果來看,各有利弊各有所長。但是有一個共同之處就是對寫本、抄本文獻的收錄,幾乎是很少的,原因就是在字體的限制上,僅僅靠掃描和照相的文字識別率非常之低,還不如靠人工文字錄入。我們從相關(guān)的數(shù)字化產(chǎn)品中檢索到很多錯別字問題,如“闖賊”寫成“闖賦”,顯然是文字識別以后沒有校勘的問題,以至于研究者不敢相信電子文獻和數(shù)字化產(chǎn)品的權(quán)威性和真實性,至少要核對原文,這是目前我們利用電子文獻中所普遍感到的困惑。
正如陳力先生所指出的那樣:“由于古籍傳抄、刊刻的情況千差萬別,因此在古籍中不僅有正字與異體字、正字與俗字的問題,還有由于各人審美觀念不同或者因抄寫刊刻的習(xí)慣而隨意改變漢字筆劃的位置、形狀造成的異形字。……在進行古籍?dāng)?shù)字轉(zhuǎn)換時,操作人員限于水平,不能識別古籍中的異形字,不得不“依樣畫葫蘆”,生造出一些新字。由于每一個漢字都有一個對應(yīng)的編碼,如果將異形字都當(dāng)作不同的漢字,其結(jié)果就是大量生造Unicode表外字,不僅增加了錄入的工作量,更重要的是將對檢索和資源共享等產(chǎn)生重大的影響,因為使用者在檢索時并不清楚某部書中某字的具體寫法(甚至一部書中同樣的字也有許多種變體),因此實際上無法進行檢索或者出現(xiàn)大量漏檢。”
所以說,在古籍?dāng)?shù)字化的過程中,必須要有古籍專業(yè)人員的參與,否則,將會對數(shù)字化質(zhì)量大打折扣。而專業(yè)人員的參與,只有在國家行為下,才會有可能組織更多更專業(yè)的古籍整理人員參與到不同的文獻體系中,也才能保證這些專業(yè)人員有較高的積極性和質(zhì)量保證,這是個體化公司所不能比擬的。
三、中國古籍?dāng)?shù)字化只有國家行為才能保證原文獻受到保護和數(shù)字化文獻的質(zhì)量
以《中國基本古籍庫》和《國學(xué)寶典》的數(shù)據(jù)格式為例,《中國基本古籍庫》為ABT數(shù)據(jù)格式,不可以直接對原文進行如打印、復(fù)制、粘貼等,而需要另行圈點復(fù)制區(qū)位方可。《國學(xué)寶典》數(shù)據(jù)格式主要有:TXT文本文件、DBF(數(shù)據(jù)庫,含文字和相關(guān)標(biāo)示)、ATM(網(wǎng)頁格式,含文字和圖片、聲音等),用戶可直接打印、復(fù)制、粘貼到自己的文檔中。這二者比較起來,前者的文獻數(shù)量較為滿意,而后者的文獻編輯功能更比前者靈活優(yōu)秀。
還有更多的古籍文獻數(shù)字化的數(shù)據(jù)庫,格式是各種各樣的,圖書館在購買這些數(shù)字化成果時,也不得不安裝多種的瀏覽器,這就給讀者利用數(shù)字化文獻帶來了不必要的麻煩:不同單位開發(fā)出來的古籍?dāng)?shù)字化產(chǎn)品具有不同的文件格式。除常見的txt、doc、html格式外,還有exe、pdf、wdl、pdg、ebk、edb、oeb、sep、ifr、xeb等。除了一些通用格式如txt、doc、html、pdf等,大部分?jǐn)?shù)字化古籍因為文件格式不同,通用功能性差,極大地影響了讀者利用數(shù)字化古籍。這也說明文化部暨國家圖書館等主管部門盡快研究和出臺數(shù)字化產(chǎn)品的標(biāo)準(zhǔn)和規(guī)范的必要性和緊迫性,并盡可能地組織和成立自己的專業(yè)化的數(shù)字化公司。
現(xiàn)今的一些數(shù)字化公司和單位,為了追求利潤的最大化,對古籍?dāng)?shù)字化過程后的文獻校勘工序,往往淡化或者沒有這個環(huán)節(jié),這勢必導(dǎo)致古籍?dāng)?shù)字化過程后的錯誤連連。過去我們單方面地追求培養(yǎng)“具有計算機及古文獻兩方面知識的人才”,其實這是個誤區(qū),計算機研發(fā)和古籍文獻的電子校勘并不是非要復(fù)合型的,當(dāng)然有更多的這種復(fù)合型人才更好,問題是現(xiàn)實中這種人才可真是屬于鳳毛麟角,只要重視古籍?dāng)?shù)字化以后的文字、內(nèi)容的校勘和審定,就必須組織一批古籍整理的專家把關(guān)。
只有國家行為中,制定相關(guān)嚴(yán)格的古籍保護政策,建立國家古籍保護體系。然而我們在過去的數(shù)字化實踐中驚異地發(fā)現(xiàn),凡是委托外單位的IT掃描公司數(shù)字化的,大部分對原古籍都有嚴(yán)重的損毀,且程度還比較嚴(yán)重,因為它們對古籍沒有一種保護的情感。所以,2007年國務(wù)院辦公廳發(fā)布《關(guān)于進一步加強古籍保護工作的意見》(國辦發(fā)[2007]6號),其中的第五條提出了古籍?dāng)?shù)字化的具體要求,對于承包的IT公司數(shù)字化的,一定要加大監(jiān)管和處罰的力度。為此,最為合適的辦法是:在國家行為的統(tǒng)一標(biāo)準(zhǔn)和格式下,由各古籍持有單位進行數(shù)字化文獻處理,按照國家標(biāo)準(zhǔn)提交已經(jīng)數(shù)字化的文獻數(shù)據(jù),并由國家給予一定的勞務(wù)經(jīng)濟補償,以此來保證數(shù)據(jù)的準(zhǔn)確性和數(shù)字化單位的積極性。
國家對古籍整理的政策和任務(wù),也應(yīng)該更多地為古籍?dāng)?shù)字化方向給予適度地傾斜和保護,這樣,有助于中國古籍保護政策的進一步落實,有助于古籍?dāng)?shù)字化的文化保護工程落到實處。
參考文獻:
1、陳力:中文古籍?dāng)?shù)字化的再思考[J].國家圖書館學(xué)刊,2006(2):42-49.
2、陳力:古籍?dāng)?shù)字化中的漢字處理問題[J].《古籍整理情況出版簡報》2005(10)
3、李國新:中國古籍資源數(shù)字化的進展與任務(wù)[J].大學(xué)圖書館學(xué)報,2002(1):21-26,
4、劉春金等:中文古籍?dāng)?shù)字化現(xiàn)狀分析[J].江西圖書館學(xué)刊2008(2)112~113
發(fā)布日期:2009-08-18