摘 要:我國古籍數字化的發展過程依次經歷了數據庫檢索系統、光盤版古籍、古籍網絡化三個階段,取得了豐碩的成果。數字化古籍具有檢索、輸出方便,有利校勘,功能多樣等優勢,其制作技術也日臻完善,但問題仍然存在。
關鍵詞:古籍 數字化 數據庫
浩如煙海的古籍資源是中華文明特有的存留,也是祖先留下的寶貴財富。據楊家駱先生1946年統計,僅西漢前至清末的古籍就有181755部。傳統的古籍整理主要依賴手工進行,不但操作費力、效率不高,而且成果的利用也存在種種困難。電腦和網絡的出現與普及,不僅為古籍資源整理提供了工具,而且為其成果的傳播提供了有效的媒介。有學者認為,數字化將成為保存、整理和利用古籍資源的趨勢。
所謂古籍數字化,是利用現代信息技術將古代文獻轉化為電子媒體的形式,通過光盤、網絡等介質保存和傳播。我國古籍數字化的發展經歷了古籍數據庫檢索系統、光盤版古籍、古籍網絡化三個階段。
一、中文古籍數據庫
古籍數據庫檢索系統的開發始于20世紀80年代初,主要是以數據庫的形式儲存古籍文獻的相關資料,作為古籍研究的輔助工具。它可以利用計算機在資料的儲存、整理、檢索、數據統計以及索引編制等方面的優越性,改進古籍文獻檢索方式,對古籍資源的研究和開發非常有利。
最初的古籍數據庫主要是書目數據庫,它始于南京圖書館、遼寧圖書館、浙江圖書館等省市級大型圖書館,為方便讀者相繼建立了館藏古籍書目數據庫。目前,南京圖書館的古籍書目數據庫已經建立了40萬條中文古籍書目數據。該數據庫設有書名目錄、著者目錄、分類目錄等,可以通過輸入古籍名稱檢索該古籍的全部版本,也可以通過輸入著者名稱檢索館藏全部相關書目。
比書目數據庫在技術上更進一步的是全文數據庫,它將古籍資源全文錄入,轉化為電子文本,供用戶查閱,提供了一種以字符為主要處理對象,根據資料內容而不是外在特征來實現檢索的先進查詢手段。
在書目數據庫與全文數據庫檢索功能的基礎上,出現了綜合檢索系統。此類系統在檢索性能上有了很大改進,不僅實現了任意字、詞和字符串的檢索,還實現了按條件檢索。檢索的范圍不再局限于書目和文本,而是對古籍的標題、詞句、注解等實際內容進行全面檢索。此外,綜合檢索系統還往往具有多種特色檢索功能和特定的輔助功能。例如,中國社科院的《全唐詩》數據庫檢索系統,不僅可供快速查檢《全唐詩》中任何作品的字、句、標題、注解,還可以查找該作品在《全唐詩》中的冊、頁、行數。
表1 現有的部分中文古籍數據庫
數據庫名稱 |
研發單位 |
《全唐詩》《先秦魏晉南北朝詩》《全上古三代秦漢三國六朝文》《十三經》《全唐文》《諸子集成》數據庫檢索系統 |
中國社會科學院 |
《紅樓夢》數據庫 |
深圳大學 |
《全宋詩》等古詩研究系統 |
北京大學 |
《全唐五代宋詞》檢索系統 |
南京師范大學 |
《全宋文》資料檢索系統 |
四川大學 |
宋人筆記檢索系統南宋主要歷史文獻全文數據庫 |
河南大學 |
《古今圖書集成》索引續編 |
廣西大學 |
宋詞別集索引三種 |
湘潭大學 |
《史記》全文檢索系統 |
哈爾濱師范大學 |
《貞觀政要》綜合檢索系統 |
東北師范大學古籍整理研究所 |
漢及以前全部傳世文獻電腦化資料庫
魏晉南北朝全部傳世文獻電腦化資料庫
竹簡帛書出土文獻電腦人資料庫 |
香港中文大學 |
古文書數據檢索系統 |
臺灣大學 |
漢籍全文資料庫《二十五史》《十三經》和諸子數據庫 |
臺灣“中央研究院”歷史語言研究所 |
中文古籍善本書目數據庫 |
美國普林斯頓大學 |
先秦諸子百家全文檢索系統 |
挪威奧斯陸大學 |
二、光盤版古籍
所謂光盤版古籍,其實就是以光盤為載體的古籍文獻或古籍數據庫。前期的古籍數據庫往往只是某些單位或個人出于輔助研究工作或方便用戶考慮,自行開發設計且僅在一定范圍內使用的。隨著古籍數據庫優越性的逐步展現和影響擴大,出于保存、推廣古籍的愿望或者商業目的,光盤版古籍紛紛推出,成為當前古籍數字化的主導方向。
現有的光盤版古籍一般有三種類型:一是圖像版,它將古籍直接以圖像格式掃描存儲,有簡單的標題和分類,但缺少檢索手段;二是全文版,它存儲的不再是圖像,而是數字化的古籍文本,是真正意義上的數字化圖書,可實現全文檢索與查找;三是圖文版,它在古籍書頁圖像存儲的基礎上,將書中具有檢索意義的內容數字化,并輔以數字化的電子工具書,為讀者提供快捷有效的檢索、統計、整理和編輯功能。
圖像版是利用掃描技術將古籍以圖像方式存入光盤,技術簡單、容易操作,而且可以保存古籍原貌,因而成為國內采用較多的一種方式。1997年,武漢大學出版社推出的“四庫全書光盤版”就采用了這種技術。它以文淵閣本《四庫全書》為底本,將全書200余萬頁逐頁掃描,并將“總目”手工錄入,壓縮到150張光盤中。
全文版以文本形式將古籍存儲于光盤上,并在全文檢索系統的支持下,對文本實行逐字逐詞檢索。它雖然不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當大,但由于具備方便快捷的檢索功能,且占據的存儲空間要遠遠小于圖像版,所以仍有較大優勢。
圖文版的優勢較之前兩類更加明顯。其一,它既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,這對研究者而言非常重要,因為古籍的原始面貌往往能提供很多有用的信息;其二,文本錄入不管如何校對都難免存在誤差,用戶可以對比圖像進行查證;其三,當前各計算機系統漢字字庫容量有限,出版者在錄入古籍文本時往往將異寫、通假、避諱等生僻字用常見字進行替換,研究者需要根據圖像來查看古籍原貌。香港中文大學的漢達古籍資料庫光盤便采用了圖文對照形式,它不僅收錄了140多萬字的竹簡帛書出土文獻,還可以在視窗系統上直接顯示簡帛圖片和對照文本。
三、古籍網絡化
隨著網絡技術的迅速發展和普及,古籍資源的網絡化也成為一種趨勢。它主要是將數字化的古籍資源在網絡上有償或無償發布,供互聯網用戶使用。例如,國學網就擁有《十三經》《資治通鑒》《續資治通鑒》《楚辭》《全唐詩》《全宋詞》《人間詞話》《文心雕龍》《韓非子》《淮南子》等大量古籍的電子版。
網絡化是古籍數字化未來的發展趨勢。當全國各主要圖書館實現古籍數字化以后,就可以建立以網絡為紐帶的古籍數字化地區聯合數據庫和全國性數據庫,甚至在全世界范圍內實現共享。網絡化也能夠使更多人方便地閱讀和使用古籍,為古籍資源的研究和傳統文化的弘揚提供一條嶄新的渠道。
表2 中文古籍資源相關網站
四、現存的主要問題
1.技術問題。古籍文本輸入的主要方法目前有兩個:鍵盤輸入與光學字符識別(OCR)掃描輸入。鍵盤輸入屬于手工作業,效率低,成本高。OCR則是一種較為先進的自動化信息資源輸入技術,但也存在一些諸如圖像質量不高,掃描速度低,單位成本高,識別率低等技術性問題。并且,現有的漢字識別系統多數是針對簡體的,識別字數一般只有4000左右,識別豎排繁體古籍效果非常不理想。即使是能識別繁體漢字的系統,也由于古籍漢字的頻度與現代漢語差異較大,使得識別效果一般較差。
計算機對文字的處理要通過編碼來完成,國標字庫(GB)僅收字6763個,國標擴展漢字字庫(GBK)收字也只有20902個。與此相對的是龐大的漢字數量,《漢語大字典》收字近6萬,《中華字海》收字達8萬,古籍通用字約有4萬,常用異體字約為2萬。相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機的文字編碼不敷應用,缺字一直是古籍電子化的瓶頸。
2.人才問題。在古籍數字化過程中,最重要的工作是要在錄入文本前對古籍進行整理。因為古籍原本都是豎排繁體字,還包含大量的異體字、通假字等,且沒有標點符號,行文格式繁瑣,必須先進行整理,而古籍整理工作只能依賴于專業人員。所以,古籍資源數字化是傳統學術方法與現代科學技術的結合,它需要一批既懂得古籍整理又精通計算機技術的人才。現狀卻是古籍整理專業人員不懂電子技術,計算機技術人員缺少古籍知識。古籍資源數字化專門人才的培養亟待提上日程。
3.統籌問題。我國古籍數量龐大,且往往分散各地,僅由一個單位或組織來負責完成某一專業領域內的古籍書目數據庫建設是非常困難的,需要多方合作才能進行。而國內的古籍數字化工作缺乏一個全國性的權威機構的統一指導和協調,開發單位各自為政,熱點項目重復建設,冷門項目少有問津。1998年一年至少出現了3種光盤版的四庫全書,投資額驚人,造成了人力、物力的極大浪費。長期以來,很多單位都做了古籍書目數據庫或古文獻資料數據庫,并自造了相當數量的字庫,浪費了資源。另外,個別單位僅考慮自身利益,拒絕資源共享,致使一些數據庫涵蓋的文獻資料頗為有限,遠未能實現對全國范圍內的整體檢索。
4.標準問題。規范、統一的數據庫形式是數據庫的生命所在。要建立全國統一的古籍書目數據庫,必須有統一的數據格式要求。如果沒有規范的機讀目錄格式,數據庫就無法進行交換,無法真正實現國家乃至世界范圍內的資源共享。許多單位設計數據庫時采用的標準不一致,導致難以共享使用。此外,還必須對古籍原本進行鑒別和統一著錄,執行統一的分類表和分類原則,否則就會出現書目數據不準確,造成不同的書被著錄成一種書,或者是一種書被著錄為多種書的狀況,給讀者的使用和研究帶來極大不便。
如果相關部門能夠聯合從事古籍數字化的主要單位,制訂古籍數字化的統一標準,實現標準化、規范化,在此基礎上進行分工合作,建立可共享的資源體系,必定能夠促進國內數字化古籍的開發與利用。
5.經費問題。現在擁有古籍文獻資料最多的是公共圖書館。它們雖擁有豐富的文獻資料和文獻處理經驗,但因為缺少經費,無法購置必需的設備和軟件,也缺乏足夠的人力和相關的計算機技術人才,不少已經規劃好的項目無法開展。只有投入足夠的經費,才能夠解決設備、軟件短缺問題,引進技術人員,正常開展古籍數字化工作。
參考文獻:
[1]王純.古籍數字化之趨勢.圖書館理論與實踐,2000(3)
[2]厲莉.古籍數字化的現狀及對策.江西圖書館學刊,2002(1)
[3]王桂平.我國古籍數字化的現狀及展望.圖書情報知識,2000(4)
[4]李為實.關于古籍數字化的思考.四川圖書館學報,2002(3)
[5]王育紅.未來古籍出版的對策與趨勢分析.科技與出版,2002(3) |