鄭永曉
內(nèi)容提要:現(xiàn)代圖書分類法在適用古籍文獻時常有削足適履、生搬硬套之嫌。因此,對于大型傳統(tǒng)古籍數(shù)據(jù)庫建設而言,中國傳統(tǒng)目錄學中以經(jīng)、史、子、集四部分類為基礎的圖書分類法仍具有不可或缺的作用,這是由學科特點和數(shù)據(jù)庫建設的基本要求兩方面因素所決定的,傳統(tǒng)文獻學所積累的學科規(guī)范與現(xiàn)代數(shù)據(jù)技術處理的有機結合才能更好地適應新時期數(shù)據(jù)庫建設的需要。對于文獻種類繁多、內(nèi)容龐雜的綜合性古籍數(shù)據(jù)庫而言,盡管計算器有強大無比的檢索功能,可以任意提取所需字段或數(shù)據(jù),但是,相關數(shù)據(jù)按照一定的規(guī)則進行有序排列仍然是十分必要的。而對于古籍數(shù)據(jù)庫建設而言,按照經(jīng)、史、子、集四部分類法進行排列仍然是迄今為止最好的解決方案。將傳統(tǒng)目錄學與古籍數(shù)據(jù)庫建設聯(lián)姻,進行古籍分類和數(shù)據(jù)導入,其優(yōu)越性表現(xiàn)在:一、作為數(shù)據(jù)庫底層數(shù)據(jù)分類的依據(jù),有效避免因分類混亂產(chǎn)生的訛誤。二、可以作為確定數(shù)據(jù)屬性的依據(jù),每一條數(shù)據(jù)都屬于每個部類下的某個子類,只有首先按照目錄學知識對每條數(shù)據(jù)進行定性,才能使整個數(shù)據(jù)庫具備符合學科要求的檢索功能。以下從四個方面對此稍加梳理,以就教于學界方家。
一、現(xiàn)代學術發(fā)展與傳統(tǒng)目錄學之關系
筆者首先做一個界定,此處所謂學術特指以中國古典文學、古代歷史、古代哲學等為研究對象的學科,這些學科雖各自有其獨立的學科范疇和學術體系,但在長期的發(fā)展歷程中,也在相互汲取他方的研究成果,互為借鑒,相互促進。更有少數(shù)學術大家,文、史、哲兼通,其學術成果橫跨各個領域,世所矚目。所以舊時有“文史不分家”之說。而在人類社會步入二十一世紀的今天,學術追求、學術理念、學術方法都有重大的革新,尤其是看似與人文學科關系甚遠的計算機科學與網(wǎng)絡技術竟深深地影響了這具有悠久歷史傳統(tǒng)的文、史、哲研究,令人驚嘆現(xiàn)代學術中學科交叉、融合趨勢之不可阻擋與學術發(fā)展、學術進步之日新月異。
在這日新月異的學術發(fā)展中,我們固然需要不斷汲取現(xiàn)代科學的最新成果,吸收其他學科的成果,創(chuàng)建和扶植各種新興學科、交叉學科,從不同角度發(fā)現(xiàn)和培植學術增長點;另一方面,我們絕對不能忽視傳統(tǒng)學科本身固有的特性,應在充分繼承學科原有特點和成就的基礎上進行創(chuàng)新。而在傳統(tǒng)的文史研究、現(xiàn)代信息技術和數(shù)據(jù)庫建設這一學術鏈條中,筆者以為,傳統(tǒng)目錄學的重要性不容忽視。
大體而言,在中國傳統(tǒng)目錄學史上,目錄學重在“辨章學術,考鏡源流”,章學誠在評價劉向、劉歆父子目錄學之成就時指出:
校讎之義,蓋自劉向父子部次條別,將以辨章學術,考鏡源流,非探明于道術精微,群言得失之故者,不足與此。[1]
作為我國最早的分類目錄學著述,劉歆《七略》所建立的分類體系以及每類之下有說明和每書之下撰寫敘錄的體例和范式,影響深遠,成為我國傳統(tǒng)目錄學史上需要遵守的基本范式。作者于每類之下所作的考辨,是對于此一類書籍所產(chǎn)生之由來、遞嬗、發(fā)展等所作的揭示,對于辨析學術之流變和異同頗有裨益。而作者于每種書下所作的敘錄,更進一步對相關文獻的作者、版本、真?zhèn)巍?nèi)容、價值等予以考辨,其學術價值亦毋庸贅言。其后班固《漢書·藝文志》即據(jù)劉歆《七略》增刪改纂而成,既保留了西漢一代文獻的概貌,其總序等又對先秦以來的學術思想源流有所辨析。唐代首創(chuàng)四部分類體系的《隋書·經(jīng)籍志》在繼承《七略》和《漢書·藝文志》的基礎上,對文獻的分類和對文獻流變、沿革的闡述也厥功甚偉。
宋代目錄學名著如林,在中國目錄學史上有極其重要的地位。舉其要者,如我國現(xiàn)存最古老的官修目錄學著作《崇文總目》、著名私人提要目錄《郡齋讀書志》和《直齋書錄解題》、特別注重標明版本的目錄《遂初堂書目》等無不是中國目錄學著述之翹楚。《崇文總目》以“敘”闡述所收各類文獻之源流、特色、得失等,而以“釋”介紹具體各書之內(nèi)容,言簡而意賅,歷來頗受好評。至如《郡齋讀書志》和《直齋書錄解題》則對各類文獻進行或詳或略的提要,于作者之生平事跡、學術淵源和書籍的得失短長及版本流傳等有著相當精審的評述,嘉惠后學甚多,屬于治古代文史之學的必讀書目。南宋尤袤所著《遂初堂書目》雖于題解方面有所缺失,但于部分書籍名稱前著錄版本,且同一種書往往著錄數(shù)種版本,使得各種版本間可以相互考訂,此舉頗受后世目錄版本學家的稱贊。
雖然在中國歷史上,目錄學著作并非都這樣以“辨章學術、考鏡源流”為宗旨,但毫無疑問,“辨章學術、考鏡源流”,示人以治學門徑,是中國傳統(tǒng)目錄學的重要功能,自有其不可忽視的價值,也因此受到歷代眾多學者的高度重視,清代四庫館臣所撰《四庫全書總目》即遵循此一規(guī)范而更趨完善。
近代以來,伴隨西方目錄學的引進和中國目錄學的現(xiàn)代化,以實用性為指歸,強調(diào)索引便捷性的目錄學逐漸占據(jù)主導地位。筆者以為,隨著現(xiàn)代圖書數(shù)量的急劇增加,向普通公眾提供圖書借閱服務的圖書館轉向方便性、實用性更強的以書名索引為主要內(nèi)容的現(xiàn)代目錄學體系自有其合理性。但是,對于以中國傳統(tǒng)文、史、哲為研究方向的傳統(tǒng)學術而言,以“辨章學術、考鏡源流”為宗旨的傳統(tǒng)目錄學則更具參考價值。而這一點,正是我們在建設以中國傳統(tǒng)文史資料為主要內(nèi)容的數(shù)據(jù)庫時所必須考慮的。
二、目錄學與索引及全文檢索之異同
在信息技術影響于傳統(tǒng)學科的進程中,筆者特別重視現(xiàn)代技術與傳統(tǒng)學科特點的有機融合,亦即現(xiàn)代信息技術對傳統(tǒng)學科的影響,應以更加強化傳統(tǒng)學科能夠保持學科特點并且能夠加速學科發(fā)展為前提。筆者所以認為建設中國古代文史資料數(shù)據(jù)庫應參照傳統(tǒng)目錄學成果和規(guī)范,是因為一個面向?qū)I(yè)人員,以學科基礎建構為宗旨的數(shù)據(jù)庫,必須具備一定的學術水準,符合該學科的學術規(guī)范,而借鑒傳統(tǒng)目錄學的規(guī)范和成果,正是建設高水準文史數(shù)據(jù)庫的重要前提。
如上所述,中國傳統(tǒng)目錄學的優(yōu)勢之一在于能夠通過類的區(qū)分和書目的解題示學人以讀書治學之門徑,通過綱目、細目、解題等方式,提綱挈領,綱舉目張,將某一領域的文獻屬性,包括作者情況、版本流變、內(nèi)容真?zhèn)巍⒑笕嗽u價等有條不紊地展示在讀者面前。其長處在于能夠令人快速掌握相關領域的重要文獻線索,不會發(fā)生讀書治學不得其門的困境。其短處則是傳統(tǒng)目錄學在文獻本身內(nèi)容的介紹和檢索方面功能較弱,難以快速查詢文獻中的細節(jié)。
快速而準確地檢索到文獻內(nèi)容的細微之處則是索引的長處,更是當代計算機技術在書籍文獻類數(shù)據(jù)庫中的長項所在。
索引,又稱索隱、引得(Index),是在西方目錄學影響下逐步完善的文獻檢索方式。其編纂方式是將圖書、報刊等文獻中的字、詞、句、人名、地名、書名、篇名、主題詞等按照一定的規(guī)則(如筆畫、拼音)等順序排列,便于用戶快速查詢到相關信息。西方的學術傳統(tǒng)中,十分重視索引的編纂。除專門的目錄學著作外,一個比較規(guī)范的專著,其書后也附有詳細的內(nèi)容索引、引文索引等。
而編制索引正是計算機的優(yōu)勢。具備超強記憶和查詢功能的計算機在建立文獻索引方面具有遠非人工所可比擬的優(yōu)勢,這種優(yōu)勢在大型文獻數(shù)據(jù)庫進行全文檢索時表現(xiàn)得淋漓盡致。
同樣非常明顯的是,傳統(tǒng)目錄學與近現(xiàn)代以來在西方目錄學思想影響下的索引有著很大的不同。盡管索引也可以按照主題類別進行排序,但是索引的長項在細致和快捷,卻難以具備傳統(tǒng)目錄學那種“辨章學術、考鏡源流”的功能,在示人以讀書治學門徑方面與我國傳統(tǒng)目錄學相比,似頗有不如。顯然,二者各有所長,不可偏廢。這一點,與現(xiàn)今如何在紛繁復雜的計算機系統(tǒng)中查詢目標文件頗有類似之處。
我們知道,微軟開發(fā)的操作系統(tǒng)在Windows 95以前,系統(tǒng)中建立任何文件都首先需要確定路徑(directory),所有的文件都是按照一定的路徑排列的。因此在DOS命令中,顯示目錄、建立目錄、刪除目錄等操作,都離不開directory 這個詞,這個詞在中文環(huán)境下又譯作“目錄”。DOS和早期windows中的這個“目錄”,便頗有些類似于我國傳統(tǒng)目錄學中關于圖書類別的區(qū)分。知曉某一類文件的路徑所在,便不難按圖索驥,很方便地查詢到相關文件的具體位置。隨著技術的進步,存儲器容量的激增、系統(tǒng)文件和用戶文件的幾何級增長,原來按路徑查詢定位文件的方式便力不從心了,所以微軟開始發(fā)展搜索技術。搜索技術的要點是計算機在后臺建立系統(tǒng)內(nèi)盤符與文件的索引項,用戶只要記得文件名、建立日期等要素便可在設定的區(qū)域內(nèi)或整個計算機、局域網(wǎng)內(nèi)查詢到所需要的文件。也因為搜索技術的成熟,微軟便將DOS系統(tǒng)下習慣使用的“路徑”(directory)一詞棄而不用而更改為使用“文件夾”(folder)。
問題在于,世間萬物的屬性是很復雜的。搜索技術的成熟固然對海量文件中查詢單個文檔頗有助益,但是一旦忘了文件名等文件屬性,則難免令用戶感覺所謂搜索反不如過去根據(jù)若干明晰的路徑更容易找到需要的文件。因此,微軟一方面開發(fā)包括桌面搜索在內(nèi)的各類搜索軟件,同時卻也在Vista 等操作系統(tǒng)中將用戶文檔預設各種分類,以便用戶可以更方便地管理和使用自己的文件。其目的就是試圖把搜索技術和傳統(tǒng)的路徑管理兩方面的優(yōu)勢結合起來。
目錄和索引的異同和優(yōu)劣短長給我們進行數(shù)據(jù)庫開發(fā)以重要啟示。我們知道,以當代計算機科學和數(shù)據(jù)庫技術的發(fā)展而言,各種類型的數(shù)據(jù)庫多具有強勁的檢索和查詢功能。因此,檢索技術在當前而言不是問題,如何把中國傳統(tǒng)目錄學那種“考鏡源流”、引導初學者以讀書治學之門徑和巨細無遺的檢索功能結合起來才是需要我們認真對待和解決的問題。這個問題在建設與學科發(fā)展關系密切的專題數(shù)據(jù)庫和大型古典文獻數(shù)據(jù)庫時尤為重要。
三、傳統(tǒng)目錄學應用于數(shù)據(jù)庫建設之探索
通過上文的分析我們不難看出,計算機的檢索功能固然強大,卻并不能代替我國傳統(tǒng)目錄中那種“辨章學術,考鏡源流”的功能,難以示人以治學門徑。縱觀近年來比較流行的古籍類數(shù)據(jù)庫,也往往是檢索功能強,而分類和導引功能較弱。
在計算機科學和數(shù)據(jù)庫技術產(chǎn)生以前,一般而言,在文史研究領域,學者在從事某一研究課題之前,會根據(jù)所研究對象和領域的不同,大多會有選擇性地首先查閱《漢書·藝文志》、《隋書·經(jīng)籍志》、《四庫全書總目》這類目錄學著作,再通過這些目錄進行延伸閱讀,找到自己研究領域所需要使用的書籍。這樣一條治學路徑優(yōu)點是不至于遺漏本學科需要研讀的基本書籍,不會漏掉最重要的基礎文獻。而其缺點也很明顯,即難以快速查詢到精確的信息。我們知道,中國古籍浩如煙海,即使將范圍限制在某個較小的領域,所閱讀的文獻也可能相當龐大,比如研究《三國演義》,既需要梳理作為文學作品的小說的各種資料,又需要研究與三國時期那段歷史相關的各種文獻,同時還涉及宋元以來有關“三國”的戲曲、說唱、曲藝等藝術部類。面對龐雜的各種文獻,即使是睿智聰慧、博聞強記的學者也常常望書興嘆。因此,當計算機技術滲透進入中文信息處理領域,專門為文史研究者開發(fā)建設的電子版“國學寶典”、《四部叢刊》、《四庫全書》、“廿五史”、“中國基本古籍庫”等數(shù)據(jù)庫問世后,眾多學者大為贊嘆。 整日在書海中遨游的學者們此前從未想到,計算機能夠在這樣短的時間內(nèi)檢索出那么多巨細無遺的資料,其記憶力和反應速度與人腦相比,勝過后者何止千倍!
問題在于,學術的發(fā)展涉及方方面面,既有微觀研究,也有宏觀研究;既有以探索歷史發(fā)展規(guī)律為指歸的理論研究,也有針對某個具體問題或某個研究對象所作的專題研究。舉例來說,如果某學者準備就歷史上的諸葛亮寫一篇論文,他可以在某些古籍數(shù)據(jù)庫中,以“諸葛亮”為主題詞將搜索范圍限定為史學著作進行檢索,所得出的結果當有助于對某些論點的辨證和澄清,或是提出新的見解。但是,如果一個剛剛試圖步入學術之門的年輕學者對小說《三國演義》產(chǎn)生了興趣,想以此作為自己的研究方向,將“三國演義”作為主題詞在上述古籍數(shù)據(jù)庫中搜索,他可能得出上萬條有關《三國演義》的信息。面對這許多撲面而來的數(shù)據(jù),他極有可能會無所適從。這是由于,就目前的數(shù)據(jù)庫開發(fā)水平而言,檢索出來的這些信息一般會按照數(shù)據(jù)庫中所收古籍的時間順序遞次排列。這種排序?qū)τ谘芯空叨裕鋵嵟c雜亂無章沒什么差別,對于如何進入《三國演義》的研究幫助不大。之所以如此,就是因為基于全文檢索技術而產(chǎn)生的這些查詢結果并不能按照研究者的意愿進行真正有序的排列,它無法判斷那些書籍更重要,那些信息是垃圾。當然,對于信息的價值判斷本身正是屬于需要學者研究的范圍。但是,對于文史研究這種歷史悠久的傳統(tǒng)學科而言,前人的研究成果已然汗牛充棟,那么在數(shù)據(jù)庫中,根據(jù)以往的學術成果對所收文獻進行一個初步的學術判斷,為初學者給出一個基本的價值評估,似也不算過分要求。
誠然,憑借技術進步和增加人工干預,可以通過事先標記等手段對所收數(shù)據(jù)進行預處理,比如標記圖書類別、朝代、時間、方位、人名、地名、職官等信息,使用戶在查詢時能夠得到一個按照標記類別排列順序的檢索結果。這當然較之單純由計算機控制的全文檢索結果要好得多,但即便如此,卻也并不能給予用戶一個綱目清晰、全面完整、系統(tǒng)有序的有關研究對象的資料信息。這一點,卻正是傳統(tǒng)目錄學著作所擅長的功能。
因此,筆者以為,適用于學科基礎建構,推動學術發(fā)展的數(shù)據(jù)庫,應該是結合傳統(tǒng)目錄學和計算機雙方長處的結晶。
之所以說傳統(tǒng)目錄學而不是現(xiàn)代目錄學,是因為如前文所述,現(xiàn)代目錄學更側重于索引,而非傳統(tǒng)的目錄解題。至于索引功能,計算機較過去人工編制索引已經(jīng)遠為完善,而傳統(tǒng)目錄學的分類、解題等功能便成為學術數(shù)據(jù)庫需要汲取和完善的地方。現(xiàn)有的某些數(shù)據(jù)庫,在編列數(shù)據(jù)時雖然也根據(jù)朝代、文體等要素對所收錄的數(shù)據(jù)進行排列,亦即數(shù)據(jù)庫除可以全文檢索外,也可以按類查找相關書籍進行閱讀。但是,這些數(shù)據(jù)庫的分類經(jīng)常既未嚴格遵守傳統(tǒng)目錄學的分類標準,亦難以用現(xiàn)代圖書分類法進行規(guī)范,往往是根據(jù)朝代或文體對所收文獻進行粗淺的分類。而在比較規(guī)范的傳統(tǒng)目錄學中,對每種文獻其實有著相當嚴格的區(qū)分。例如經(jīng)部所收文獻與子部儒學類是不能相混淆的。而史部文獻中又可區(qū)分出正史、別史、編年、紀事本末、史鈔、史評、傳記、政書、職官、地理、雜史等類別。籠統(tǒng)地以冠以所謂歷史著作的名稱不僅僅顯得沒有學術水準,更重要的是對于用戶而言,也失去了引導學者進入相關領域?qū)W術殿堂的功能。
筆者以為,在建設面向?qū)W者,為科研服務的文史類數(shù)據(jù)時,應審慎、嚴格、規(guī)范地按照傳統(tǒng)目錄學的相關知識對所收文獻進行排列、設置。絕對不能憑借數(shù)據(jù)庫強大的檢索功能而疏于對數(shù)據(jù)按照學術屬性進行設置和排列。亦即符合學術規(guī)范、對學科建設有更大裨益的數(shù)據(jù)庫應是將目錄和索引兩方面的功能結合起來,才能達到既能令用戶可以清晰地利用文獻目錄的導引功能,了解數(shù)據(jù)庫收錄文獻的范圍、名稱、作者、版本、學術價值等信息,也能夠憑借數(shù)據(jù)庫強大的檢索功能可以快速查詢到任何一個細微的信息單元。
基于此種考慮,中國社會科學院A類課題“元代文獻數(shù)據(jù)庫”在立項之初,便決定遵循傳統(tǒng)目錄學中關于圖書的四部分類法對所收文獻進行分類,同時在技術上,則保證數(shù)據(jù)庫有強大的檢索功能,包括分類檢索、按作者、書名、主題詞檢索及全文檢索等。因為該數(shù)據(jù)庫雖然僅是元代一個朝代的斷代文獻數(shù)據(jù)庫,但所收經(jīng)、史、子、集四部文獻也十分龐雜。又考慮到這樣一個數(shù)據(jù)庫的用戶必然涉及史學、文學、哲學等多個學科,所謂術業(yè)有專攻,學者的研究方向不同,研究領域不同,所研讀的文獻便自然有所區(qū)別。我們按照學科規(guī)范對這些文獻條分縷析,對所收文獻的屬性有明確的、細致的定位,并且在每種文獻之前,錄入《四庫全書總目》等文獻中有關元代文獻的提要和時人及后人為該文獻所作的序跋,這就類似于傳統(tǒng)目錄學中對文獻所作的解題,其目的就是令用戶在使用這些文獻之初,就能首先對這些文獻的屬性和價值有較為明晰的了解,并以此確定該數(shù)據(jù)庫中所收錄的文獻有哪些可以涵容在該學者的研究范圍之內(nèi)。數(shù)據(jù)庫對所收文獻所作的這種細致分類顯然有助于學者能夠更快地利用數(shù)據(jù)庫掌握本學科領域的相關文獻。
四、傳統(tǒng)目錄學應用于數(shù)據(jù)庫建設之意義
在近年來的學術研究中,學者們在使用數(shù)據(jù)庫時已經(jīng)習慣了其強大的搜索功能,這在查詢某個細小的信息時尤為重要,因為這種檢索是人工很難辦到的。對于像文、史、哲研究這種傳統(tǒng)學科來說,學者們已經(jīng)慶幸自己擁有了前輩學者做夢也沒有想到的便捷工具。
但是,治學嚴謹?shù)膶W者在使用這種功能強大的數(shù)據(jù)庫時,卻并不會將數(shù)據(jù)庫提供的信息直接引用在自己的學術論文中。他們滿足于數(shù)據(jù)庫給自己提供了一個線索,而為了可靠與嚴謹,他們一定會再找到原始紙質(zhì)書籍或其他精良版本,重新校對,才能放心地將檢索獲得的信息作為自己學術論文的組成部分。
這樣的結果難道是數(shù)據(jù)庫開發(fā)建設者所樂意看到的嗎?
之所以產(chǎn)生這樣的結果,原因固然有多種,其中,現(xiàn)今文史類數(shù)據(jù)庫的開發(fā)還未能完全遵守學術規(guī)范,未能切實體察學者的實際需求則是重要原因。
所以,我們一方面應充分肯定近年來文史類數(shù)據(jù)庫建設的成就,另一方面,則不能故步自封,滿足于目前取得的成績,而應該切實從學術發(fā)展和學科建設的角度,仔細審慎地體察學者的需求,將數(shù)據(jù)庫建設推進到一個新的高度。
而要實現(xiàn)這樣一種愿景,筆者以為最重要之處即是汲取傳統(tǒng)目錄學的長處,利用目錄學知識的引導,在全面、專業(yè)、精良等方面下功夫,庶幾可以逐步滿足學者的需求。
所謂全面是指數(shù)據(jù)庫所收文獻的范圍而言,應當盡可能巨細無遺地網(wǎng)羅符合數(shù)據(jù)庫建設宗旨的所有文獻和數(shù)據(jù)。就目前的數(shù)據(jù)庫開發(fā)情況而言,文史類數(shù)據(jù)庫大體可分為三種類型,其一為將某部或多部大型圖書進行數(shù)字化,并建成數(shù)據(jù)庫,如眾所周知的電子版《四部叢刊》、《文淵閣四庫全書》等。其二是試圖將中國有史以來的重要文獻盡其所能收錄于一個大型數(shù)據(jù)庫中,如“國學寶典”、“中國基本古籍庫”等。其三是根據(jù)某些分支學科建設的需要,建設為某個具體學科服務的專題數(shù)據(jù)庫,如我們正在建設的“元代文獻數(shù)據(jù)庫”和“《紅樓夢》研究資料數(shù)據(jù)庫”等。前者可用于對元代文、史、哲等方面的研究,后者則僅限于為《紅樓夢》研究服務。
由于中國歷史悠久,印刷術發(fā)達,因此歷代遺留下來的文獻數(shù)量十分龐大。這既是中華文明寶貴的精神遺產(chǎn),也是我們今天從事古籍數(shù)字化所賴以進行的對象。而因其數(shù)量巨大,產(chǎn)生的年代不同,存放的介質(zhì)不同,或為版刻,或為手抄,其字跡或清晰或模糊,這就使得中國古籍的數(shù)字化和數(shù)據(jù)庫建設面臨巨大的挑戰(zhàn)。
至少就目前來說,很難有哪一個數(shù)據(jù)庫能夠?qū)⑾惹匾詠淼乃形墨I都網(wǎng)羅進一個數(shù)據(jù)庫中。即使這種超大型數(shù)據(jù)庫最終能夠完成,也會因為存儲和運算速度的限制而造成使用效率的浪費。
《四部叢刊》、《四庫全書》那樣級別的文獻畢竟不是太多。像“國學寶典”、“中國基本古籍庫”那樣的數(shù)據(jù)庫當然也可以繼續(xù)增添新的文獻。然而,為了學科建設的需要和學者使用的便利,在未來的數(shù)據(jù)庫建設中,筆者以為應該把重點放在那些切合學科建構需要的專題數(shù)據(jù)庫方面。
而對于一個專題數(shù)據(jù)庫來說,首先考慮的因素就是收錄數(shù)據(jù)必須全面,亦即對于該學科或該專項研究而言,數(shù)據(jù)庫應竭盡其所能將所有能夠為該項研究利用的資料悉數(shù)收錄進來。那么如何才能確保所收數(shù)據(jù)全面而不至有所遺漏呢?當然是向權威的目錄學著作求助。目錄學著述已經(jīng)為我們提供了歷代文獻的存世數(shù)量、版本、存放地點等信息,按書索驥,便不難將相關文獻資料全部網(wǎng)羅進來,不會產(chǎn)生重要文獻未被納入的缺憾。而一個有學養(yǎng)的數(shù)據(jù)庫用戶,他當然能夠判斷該數(shù)據(jù)庫所收文獻是否足夠全面,如果收錄的文獻沒有缺漏,則能夠使學者在從事此一領域的研究時別無所求,不必再花費心思到別處查詢資料,則此數(shù)據(jù)庫的價值也就不言而喻。
第二點則是專業(yè)性。庫中所收錄的文獻不僅要全面無缺漏,還應該在數(shù)據(jù)分類、數(shù)據(jù)排列、屬性設置、檢索科學等方面符合文史學科本身的特性,特別需要能夠根據(jù)前人和今人的已有研究成果對數(shù)據(jù)進行預處理,能夠給出像傳統(tǒng)目錄學那種“解題”式的闡釋。其目的在于讓用戶在使用數(shù)據(jù)時能夠快速把握相關文獻的價值、真?zhèn)巍⑾嚓P研究成果等信息。這樣才能使數(shù)據(jù)庫起到引導用戶盡快進入相關研究領域的功能,使學者在前人已有研究成果的基礎上更進一步。這也正是傳統(tǒng)目錄學所具有的功能。當然,配合數(shù)據(jù)庫本身所具備的強大檢索功能,數(shù)據(jù)庫的應用應該遠比一些目錄著作和目錄中所著錄的書籍具有更大優(yōu)越性。
以精良版本的文獻為基礎開發(fā)的數(shù)據(jù)庫才是真正對學者有用的數(shù)據(jù)庫,這是建設專題數(shù)據(jù)庫所需要注意的第三個方面。在中國歷史上,越是著名的著作,其刊刻的次數(shù)就越多,而每次刊刻,如非出自同一模板,由于校對者水平不一,便難免產(chǎn)生字句不一的現(xiàn)象。有些同一種類的文獻,書名相同,但卷數(shù)相異,所收錄的文獻內(nèi)容差別甚大。更有些文獻,沒有刻本,只有鈔本,鈔本中難以辨認字跡者為數(shù)不少。凡斯種種,都是源于不同文獻版本所造成的差異。版本不同,所記錄的信息便可能相差甚遠,有些文獻是宋元時的版本最好,而有些文獻則是清人曾經(jīng)花費巨大精力進行校勘,清人校本優(yōu)于宋元刻本。因此,治學嚴謹?shù)膶W者往往比較不同版本的差異,而以最可靠版本的記載作為自己論證的依據(jù)。這就為我們開發(fā)文史類數(shù)據(jù)庫帶來了挑戰(zhàn)。怎樣處理才能最大程度地符合高質(zhì)量數(shù)據(jù)庫的要求呢?“中國基本古籍庫”的做法是對部分文獻盡可能收錄多種版本。這不失為一種很好的創(chuàng)意和實踐。美中不足的是這些版本是以圖片形式儲存的,不具有檢索功能。
如果某種文獻僅有兩三種版本,則在建設數(shù)據(jù)庫時將其全部收錄也許不失為最優(yōu)處理方式。但是如果某種文獻有十余種版本甚至更多,則又當如何?所以,較好的處理方法還是選擇精良版本進行處理,而對相對劣質(zhì)的版本則忽略不計,不予處置。那么如何才能選擇精良版本呢?自然還是向目錄學求援。我國傳統(tǒng)目錄學的基本功能之一就是記錄文獻的版刻源流,比較不同版本間的優(yōu)劣短長。而一旦根據(jù)目錄學所指引的目標得以確立,剩下的就是按照選定的版本進行嚴格的校勘,力求令數(shù)據(jù)庫中的文獻與紙質(zhì)版本完全相同。只有這樣,學者們在使用這一數(shù)據(jù)庫時,才不會出現(xiàn)在數(shù)據(jù)庫中查詢信息,再到紙質(zhì)版上核實的現(xiàn)象。
傳統(tǒng)目錄學對專題數(shù)據(jù)庫建設的重要性已如上述。因此,只要我們在開發(fā)建設數(shù)據(jù)之初,多研習相關領域的目錄學著述,就能基本保證該數(shù)據(jù)庫是一個收錄全面、專業(yè)性強、符合學科特點的數(shù)據(jù)庫。這些論點是否成立,還請方家不吝教正。
注釋:
[1] 章學誠:《校讎通義》自序。
發(fā)布日期:2009-08-18