對現階段古籍數字化中的思考——兼論古籍數字化中國家行為的重要性
(武漢大學圖書館 430072)
內容摘要:古籍數字化,是信息時代對傳統紙質歷史文獻傳遞與利用的最便捷的方式。在古籍數字化過程中,應逐步將企業行為逐步轉變為國家行為,作為國家文化主管部門、國家圖書館或者是國家古籍保護中心,應該盡快研究和出臺相關古籍數字化標準和格式,成立相應的專業數字化公司,結合國家古籍名錄的頒布,統一組織和分期分批實施古籍數字化,這不僅是科學研究事業的需要,更是開展國家古籍保護工作的需要。
關鍵詞:古籍數字化;古籍利用;古籍保護
作者簡介:李玉安,男,1957年生。武漢大學圖書館古籍部主任,研究館員。發表論文40余篇,著述7部。
古籍數字化,有兩個方面使得人們期望值不斷提高并產生了誤區:第一是對古籍的保護的期望值,認為只要古籍數字化了,就可以在電腦顯示器上瀏覽,珍善本古籍就可以安然入庫了。第二是人們對數字化古籍檢索和閱讀功能的期望值不斷地在提高,只要數字化了,就可以有海量的儲存、便捷的檢索、傳輸的快速、跨時空的鏈接、高度的開放等,這些優點,當然是傳統的古籍檢索和閱覽中望塵莫及。然而,我們也不能盲目地過于樂觀,應該認識到,古籍數字化是一個過程,而且是一個較為漫長的過程,不可能一蹴而就的。在今后一個時期內,古籍數字化的建設應該以國家行為為主,期望國家有關主管部門做出更多的分析和研究,統一來組織和實施全國古籍數字化工程,如同實施全國古籍普查與保護工程一樣,成立專門的班子,納入國家文化主管部門的規劃和計劃中,有計劃、有步驟地開展中國古籍數字化工程。
一、中國古籍數字化的建設模式最好是國家行為,而非企業行為
古籍數字化,說到底,它牽涉到三個方面的問題,一是組織,二是投入,三是營銷和利用。就我國的實際情況來講,目前開發的數字化產品來講,大部分是企業公司的文化營銷行為,不是某個公司或者是某幾個圖書館聯合后,都有能力來組織和經營古籍數字化成果的。現在的問題是,各館都在把本館的特色館藏數字化,是不是就算進行了古籍數字化呢?顯然不是,或者說只是其中的一部分。這樣盲目進行的數字化工程,在沒有行業和部門的規劃和計劃指導下的盲動,它帶來的負面影響除了重復勞動和資源浪費外,再就是低水平的單機(館)利用,談不上是社會效益和國家利益。
我們認為,建設國家(省市)級的古籍數字化中心是最具權威和最為理想的建設模式。文化部應在評估的基礎上立項,在國家圖書館成立國家古籍數字化中心,包括現在已經成立的國家古籍保護中心(或在其中心下面成立國家古籍數字化中心),負責開展全國各系統各類型圖書館的古籍數字化工作,包括古籍數字化經費的落實,古籍數字化標準與格式,古籍數字化的版本遴選,數字化后的文字與內容的校勘,古籍數字化后的文獻保護,古籍數字化成果的使用與營銷等,都應該在國家圖書館古籍館的領導下,逐步走出一個中國特色的且與世界通用的中國古籍數字化的建設模式來。
國家圖書館在文化部的直接領導下,于2007~2009年開展的國家古籍珍貴名錄申報工作,已經有了一個很好的開端。國家圖書館應該首先對第一批2392部珍貴古籍和第二批4478部珍貴古籍加以數字化。僅第二批名錄中,先秦兩漢的文獻達9部,魏晉隋唐的146部,宋遼金元的645部,明清善本3411部,民族文字文獻266部。這兩批珍貴名錄中的文物文獻,不僅僅是全國各省市和大學、科學圖書館的鎮館之寶,也是中華民族傳統文獻的珍品和瑰寶,具有極高的文物價值和文獻價值。保護和利用好這些文化精品,是我們的義務和責任。率先將這些國家珍貴名錄數字化,不僅僅是文獻保護的需要,也是讓更多的珍善之本能提供給更多的讀者研究和利用。
在這種建設模式下,首先有利條件是經費的保證,國家應該吸取相關的教訓,盡快將古籍數字化的企業行為轉變為國家行為,建議撥出相應的經費來保證古籍數字化的軟件研發和推廣,并在薄利的前提下,推廣到社會,造福于科學研究。國家文化部、財政部、教育部等發起由國家圖書館在2001年組織實施完成的《中華再造善本》工程,就是一例很好的國家項目行為,不僅僅是保護了中華珍貴文獻,更是造福了千萬學子,提供了利用這些珍貴文物文獻的機會。
其次是數字化技術的保證,過去,我們在數字資源的語言與格式、存儲與讀寫、編碼技術等方面,還是一瓶頸。現在都有了比較成熟的技術,可以說,古籍數字化技術已經不再是難關了,而現在的難關恰恰是在規劃與組織、規模與項目的問題了。而這個問題,更需要的是國家行為。
其三是古籍數字化專業人員的保證。有了這三寶,建設國家級和省部級的古籍數字化中心,應該是一條便捷之路。
國外古籍數字化和數字圖書館發展的道路和歷程值得我們借鑒。以美國為例,它率先在俄亥俄州的OCLC和OhioLINK的模式上,它并不是首先建立數字化圖書館,而是首先建立圖書館網絡,從建網初期的18個圖書館發展到全州的74個圖書館,實現了全州的統編聯采、網上互借、網上資源的共建共享等,到目前有四萬多個各類型的圖書館連接,這種的社會效益是被廣大讀者認可的。
中國古籍數字化建設的模式,應該是在國家文化部的統一規劃下,依托于我國傳統圖書館“三大系統”的龍頭單位,如國家圖書館、中科院科學圖書館、清華、北大圖書館等牽頭,由國家圖書館組織相關的單位和專家,統一制定相關標準和格式,由全國各省、市的分中心等實施,它工作的核心應該是古籍數字化版本信息的收集、文字的整理與加工、數據組織、鏈接和保存傳遞,統一在國家標準之內。應該走統一、聯合共建、防止重復建設的道路。至于全國古籍數字化如何確定精選優選的標準,我們應該相信專家的判斷,更應該相信圖書館等收藏單位的利用率和稀有情況,來挑選急需數字化的文獻;分期分批地逐年完成珍貴古籍的數字化。
二、中國古籍數字化的相關標準的制定,只有國家行為才具權威
誠如李國新先生斷言,中國古籍數字化,必須保證具有四大功能:一是必須實現文本字符的數字化,第二是具有基于超鏈接的瀏覽閱讀環境,第三是具有強大的檢索功能,第四是具有研究支持功能。而要求實現文本字符的數字化,是求得檢索的自動化、便捷化。而要完全無誤地實現文本字符的數字化,文本字符的識別問題是一個令人頭疼的問題。恰恰在中國古籍數字化實踐中,有一個很不樂觀的事實是,有將近四分之一的古籍是難以用掃描或照相來完成文字識別的,這表現在稿本、手抄本、寫本等載體上,這些文字的識別有相當的難度,是必須用人工干預方能完成。盡管在過去20多年中,古籍數字化的字符技術與存儲技術已經逐步走向成熟,然而在處理異體字方面,目前還是要靠人工造字(符號)來實現,而人工造字雖然目前都可以實現,但是人工編碼字體的增多,也影響了軟件的通用性,字符問題不具備通用性,就難以完全實現古籍數字化。
古籍中的異體字,是比比皆是的,一般有以下幾種:第一是避諱字,第二是異體字,第三是少數民族文字,第四是手抄本中的草體字。以上這幾種文獻,都在一定程度上限制了中國古籍數字化的轉換和檢索,退而求其次,只能用照相或掃描的圖像文件,而這些圖像文件則不具備鏈接功能和檢索功能,又制約著古籍數字化數據庫的使用功能。
要具備通用性字符的完備性,就必須對各種各樣的古籍中會出現的問題做一個完備的字庫,這個字庫的字數肯定超過10萬~15萬個左右。而且必須考慮到各種字體的轉換問題,例如:
1、簡繁體轉換:簡/簡 義/義 連體/連體;
2、正體與異體:修/俢 兔/兎 刃/刄
3、正字與訛(偽)字:久/乆 派/泒 叐/犮
4、通假與被通假:詳/佯
5、古今字體:镸/長/長
6、新舊字形兼容:青/靑 説/說 媼/媼
7、形近異義字:義/叉 刺/剌 諫/諌
8、避諱字體:弘/ 玄/
燁/
胤/
禛/
構/構
9、異體字:“夘央”/鴛鴦;
10、生造字:囯/國/國 曌/照
以上10大類型,還不包括俗字與俚語,作為一般文獻來講,遇到各種的異體字,我們只要在Unicode中造一個模塊,或許就能解決,但是整個建設模式是凌亂的無序的,Unicode編碼系統已經定義了七萬多漢字,如果再擴展數萬個漢字,漢字字符不足問題就會得到解決。但是,古籍數字化的內容并不只是字符的轉換問題,各地各館各公司隨意開發,就使得這種古籍數字化化后的通用性大為下降,降低了讀者利用數字文獻的欲望,而寧可去利用紙本文獻,這與我們古籍數字化的初衷是大相徑庭的。
我們從《四庫全書》(電子版)、《中華基本古籍庫》、《國學寶典》三大古籍數字化產品的效果來看,各有利弊各有所長。但是有一個共同之處就是對寫本、抄本文獻的收錄,幾乎是很少的,原因就是在字體的限制上,僅僅靠掃描和照相的文字識別率非常之低,還不如靠人工文字錄入。我們從相關的數字化產品中檢索到很多錯別字問題,如“闖賊”寫成“闖賦”,顯然是文字識別以后沒有校勘的問題,以至于研究者不敢相信電子文獻和數字化產品的權威性和真實性,至少要核對原文,這是目前我們利用電子文獻中所普遍感到的困惑。
正如陳力先生所指出的那樣:“由于古籍傳抄、刊刻的情況千差萬別,因此在古籍中不僅有正字與異體字、正字與俗字的問題,還有由于各人審美觀念不同或者因抄寫刊刻的習慣而隨意改變漢字筆劃的位置、形狀造成的異形字。……在進行古籍數字轉換時,操作人員限于水平,不能識別古籍中的異形字,不得不“依樣畫葫蘆”,生造出一些新字。由于每一個漢字都有一個對應的編碼,如果將異形字都當作不同的漢字,其結果就是大量生造Unicode表外字,不僅增加了錄入的工作量,更重要的是將對檢索和資源共享等產生重大的影響,因為使用者在檢索時并不清楚某部書中某字的具體寫法(甚至一部書中同樣的字也有許多種變體),因此實際上無法進行檢索或者出現大量漏檢。”
所以說,在古籍數字化的過程中,必須要有古籍專業人員的參與,否則,將會對數字化質量大打折扣。而專業人員的參與,只有在國家行為下,才會有可能組織更多更專業的古籍整理人員參與到不同的文獻體系中,也才能保證這些專業人員有較高的積極性和質量保證,這是個體化公司所不能比擬的。
三、中國古籍數字化只有國家行為才能保證原文獻受到保護和數字化文獻的質量
以《中國基本古籍庫》和《國學寶典》的數據格式為例,《中國基本古籍庫》為ABT數據格式,不可以直接對原文進行如打印、復制、粘貼等,而需要另行圈點復制區位方可。《國學寶典》數據格式主要有:TXT文本文件、DBF(數據庫,含文字和相關標示)、ATM(網頁格式,含文字和圖片、聲音等),用戶可直接打印、復制、粘貼到自己的文檔中。這二者比較起來,前者的文獻數量較為滿意,而后者的文獻編輯功能更比前者靈活優秀。
還有更多的古籍文獻數字化的數據庫,格式是各種各樣的,圖書館在購買這些數字化成果時,也不得不安裝多種的瀏覽器,這就給讀者利用數字化文獻帶來了不必要的麻煩:不同單位開發出來的古籍數字化產品具有不同的文件格式。除常見的txt、doc、html格式外,還有exe、pdf、wdl、pdg、ebk、edb、oeb、sep、ifr、xeb等。除了一些通用格式如txt、doc、html、pdf等,大部分數字化古籍因為文件格式不同,通用功能性差,極大地影響了讀者利用數字化古籍。這也說明文化部暨國家圖書館等主管部門盡快研究和出臺數字化產品的標準和規范的必要性和緊迫性,并盡可能地組織和成立自己的專業化的數字化公司。
現今的一些數字化公司和單位,為了追求利潤的最大化,對古籍數字化過程后的文獻校勘工序,往往淡化或者沒有這個環節,這勢必導致古籍數字化過程后的錯誤連連。過去我們單方面地追求培養“具有計算機及古文獻兩方面知識的人才”,其實這是個誤區,計算機研發和古籍文獻的電子校勘并不是非要復合型的,當然有更多的這種復合型人才更好,問題是現實中這種人才可真是屬于鳳毛麟角,只要重視古籍數字化以后的文字、內容的校勘和審定,就必須組織一批古籍整理的專家把關。
只有國家行為中,制定相關嚴格的古籍保護政策,建立國家古籍保護體系。然而我們在過去的數字化實踐中驚異地發現,凡是委托外單位的IT掃描公司數字化的,大部分對原古籍都有嚴重的損毀,且程度還比較嚴重,因為它們對古籍沒有一種保護的情感。所以,2007年國務院辦公廳發布《關于進一步加強古籍保護工作的意見》(國辦發[2007]6號),其中的第五條提出了古籍數字化的具體要求,對于承包的IT公司數字化的,一定要加大監管和處罰的力度。為此,最為合適的辦法是:在國家行為的統一標準和格式下,由各古籍持有單位進行數字化文獻處理,按照國家標準提交已經數字化的文獻數據,并由國家給予一定的勞務經濟補償,以此來保證數據的準確性和數字化單位的積極性。
國家對古籍整理的政策和任務,也應該更多地為古籍數字化方向給予適度地傾斜和保護,這樣,有助于中國古籍保護政策的進一步落實,有助于古籍數字化的文化保護工程落到實處。
參考文獻:
1、陳力:中文古籍數字化的再思考[J].國家圖書館學刊,2006(2):42-49.
2、陳力:古籍數字化中的漢字處理問題[J].《古籍整理情況出版簡報》2005(10)
3、李國新:中國古籍資源數字化的進展與任務[J].大學圖書館學報,2002(1):21-26,
4、劉春金等:中文古籍數字化現狀分析[J].江西圖書館學刊2008(2)112~113