傳統(tǒng)目錄學與古籍文獻數(shù)據(jù)庫的開發(fā)建設
摘要:文、史、哲等傳統(tǒng)學科的學者需要面對浩如煙海的古籍,由于數(shù)量龐大和閱讀不易,古籍數(shù)據(jù)庫的作用便越來越大,而如何建設古籍數(shù)據(jù)庫便成為一個與傳統(tǒng)學術密切相關的問題。以經、史、子、集四部分類為基礎的傳統(tǒng)目錄學仍具有不可或缺的作用,傳統(tǒng)目錄學與現(xiàn)代數(shù)據(jù)庫技術的結合才能更好地適應新時期的古籍數(shù)據(jù)庫建設,并對傳統(tǒng)文史學科的發(fā)展提供更好的支持。
關鍵詞:傳統(tǒng)目錄學;古籍數(shù)字化;數(shù)據(jù)庫
1. 傳統(tǒng)目錄學之功能及在古籍數(shù)據(jù)庫建設中的作用
以中國古典文學、古代歷史、古代哲學等為研究對象的人文學科,在步入二十一世紀的今天,學術追求、學術理念、學術方法都有重大的革新。尤其是看似與人文學科關系甚遠的計算機科學竟深深地滲透進來,古籍數(shù)據(jù)庫的應用已經相當普及。在這樣一種學術氛圍中,我們固然需要不斷汲取現(xiàn)代科學的最新結晶,從不同角度發(fā)現(xiàn)和培植學術增長點;另一方面,我們卻也絕對不能忽視傳統(tǒng)學科本身固有的特性,應在充分繼承學科原有特點和成就的基礎上推陳出新。而在傳統(tǒng)的文史研究、現(xiàn)代信息技術和古籍數(shù)據(jù)庫建設這一學術鏈條中,筆者以為,傳統(tǒng)目錄學的重要性不容忽視。
大體而言,在中國傳統(tǒng)目錄學史上,目錄學重在“辨章學術,考鏡源流”,清代著名學者章學誠在《校讎通義》卷一中指出:
校讎之義,蓋自劉向父子部次條別,將以辨章學術,考鏡源流,非深明于道術精微,群言得失之故者,不足與此。
作為我國最早的分類目錄學著述,劉歆《七略》所建立的分類體系以及每類之下有說明和每書之下撰寫敘錄的體例和范式,對于辨析學術流變和異同頗有裨益,影響深遠,成為我國傳統(tǒng)目錄學史上歷代相沿的基本范式。其后班固《漢書·藝文志》即據(jù)劉歆《七略》增刪改纂而成。唐初所修《隋書·經籍志》,首創(chuàng)四部分類體系,在繼承《七略》和《漢書·藝文志》的基礎上,對文獻的分類和對文獻流變、沿革的闡述也厥功甚偉。
雖然歷史上的這些目錄學著作并非都這樣以“辨章學術、考鏡源流”為宗旨,也有詳分類目以便檢索的所謂帳簿派目錄學,但毫無疑問,“辨章學術、考鏡源流”,以明晰學術史的發(fā)展歷程為指歸的學術史派更應被看作是傳統(tǒng)目錄學的主流。
傳統(tǒng)目錄學著眼于辨析文獻的演變歷程,闡明學術史的流變,其功能在于收集、保存、傳承、研究文獻。傳統(tǒng)目錄學的這一功能,正是我們在建設以傳統(tǒng)文史資料為主要內容的古籍數(shù)據(jù)庫時所必須認真考慮的。因為專業(yè)性較強的古籍文獻數(shù)據(jù)庫其服務對象均屬專業(yè)人士,其目的在于突破傳統(tǒng)閱讀方式瀏覽海量文獻的局限,使得浩如煙海的古籍文獻能夠便捷地為學術研究服務。既然是為專業(yè)人員提供服務的數(shù)據(jù)庫,理應與服務對象的需求和相關學科的特點有機地契合,正是在這個意義上,筆者認為古籍數(shù)據(jù)庫建設應更多地借鑒傳統(tǒng)目錄學的長處。之所以是傳統(tǒng)目錄學而不是現(xiàn)代目錄學,是因為以“索引”為主要技術手段的現(xiàn)代目錄學,與傳統(tǒng)目錄學在學科宗旨、功能設置等方面頗有相異之處。
2. 傳統(tǒng)目錄學與索引及全文檢索的優(yōu)劣對比
如上所述,中國傳統(tǒng)目錄學的優(yōu)勢在于能夠通過類的區(qū)分和書目的解題示學人以讀書治學之門徑,通過綱目、細目、解題等方式,提綱挈領,綱舉目張,將某一領域的文獻屬性,包括作者情況、版本流變、內容真?zhèn)巍⒑笕嗽u價等有條不紊、要言不煩地展示在讀者面前。其長處在于能夠令人快速掌握相關領域的重要文獻線索,不會發(fā)生讀書治學不得其門而入的困境,其短處則是傳統(tǒng)目錄學在文獻內容本身的介紹和檢索方面功能較弱,難以快速查詢文獻中的細節(jié)。
快速而準確地檢索到文獻內容的細微之處則是索引的長處,而當代計算機領域中的全文檢索技術則把這種索引、查詢、檢索功能發(fā)揮到了極致。
索引,又稱索隱、引得(Index),是在西方目錄學影響下逐步完善的文獻檢索方式。具體而言,索引是將圖書、報刊等文獻中的字、詞、句、人名、地名、書名、篇名、主題詞等按照一定的規(guī)則(如筆畫、音序)等進行順序排列,便于用戶快速查詢到相關信息。西方的學術傳統(tǒng)中,十分重視索引的編纂。
盡管索引也可以按照主題類別進行排序,但是索引的長項在于微觀方面的細致和快捷。而這個曾經花費大量人工和時間才能實現(xiàn)的功能在計算機那里可謂不費吹灰之力。具備超強記憶和查詢功能的計算機在建立文獻索引方面具有遠非人工所可比擬的優(yōu)勢,這種優(yōu)勢在大型文獻數(shù)據(jù)庫進行全文檢索時表現(xiàn)得淋漓盡致。
比如像書同文公司制作的電子版《四庫全書》這樣的大型古文獻數(shù)據(jù)庫,以比較精準的方式向學者展示了以往靠人力所不能實現(xiàn)的功能,尤其在查詢某些字詞的原始出處、出現(xiàn)頻率等方面,這樣的數(shù)據(jù)庫的確提供了此前學者想象力所不及的功能。
問題在于,檢索功能強大并不能包辦一切。例如查詢宋代詩人黃庭堅的資料,因古人習慣以字號相稱,黃庭堅號“山谷”,所以查詢黃庭堅的資料必須將“山谷”作為重要關鍵詞之一。但是古往今來,以“山谷”作為地名之處比比皆是。查詢結果可想而知:魚龍混雜、泥沙俱下,雖然有關“山谷”的信息撲面而來,目不暇接,卻難以令學者把握住最緊要的信息所在。
這個例子告訴我們,建立在數(shù)字化文獻基礎上的數(shù)據(jù)庫,至少到目前為止,仍然存在一些缺憾。顯示出目前IT人士主導建設的數(shù)據(jù)庫,與學者的實際需求之間,尚存在一定的差距。
而這些缺憾,筆者以為,恰恰可以從傳統(tǒng)目錄學那里獲得啟示和改進。具體而言,至少在這樣幾個方面值得古籍文獻數(shù)據(jù)庫借鑒:一、具有總攬全局、統(tǒng)觀古今的功效。瀏覽幾部經典的目錄學著述,如《隋書·經籍志》、《郡齋讀書志》、《直齋書錄解題》、《通志·藝文略》、《文獻通考·經籍考》、《四庫全書總目》等,可以對中國文化發(fā)展史之大略有比較清晰的認識。第二,嚴格區(qū)分文獻屬性,對文獻性質、價值有嚴格的定位和評價。例如經部所收文獻與子部儒學類是不能相混淆的。而史部文獻中又可區(qū)分出正史、別史、編年、紀事本末、史鈔、史評、傳記、政書、職官、地理、雜史等類別。這些細目的區(qū)分雖然在不同的目錄學著述中微有不同,對同一種文獻的屬性定位在不同的目錄學著述中也可能有不一致處,但這都顯示出目錄學作者根據(jù)自身學術眼光對文獻性質作出的判斷,對于后來的學者十分重要。第三,重視版本。所謂目錄學最重要的功能即是向讀者推薦優(yōu)秀版本的文獻。版本的不同,小則影響對一個字句含義的理解,大則影響某些學術流派根本思想的異同。
傳統(tǒng)目錄學的優(yōu)點當然不止于此,然僅就以上幾點而言,也足以證明傳統(tǒng)目錄學的價值所在。顯然,以索引見長的西方目錄學與我國傳統(tǒng)目錄學相比,可謂各有千秋,不可偏廢。
3. 傳統(tǒng)目錄學應用于數(shù)據(jù)庫建設之探索
通過上文的分析我們不難看出,計算機的檢索功能固然強大,卻并不能代替我國傳統(tǒng)目錄學中那種“辨章學術,考鏡源流”的功能。縱觀近年來比較流行的古籍類數(shù)據(jù)庫,也往往是檢索功能強,而分類和導引功能較弱,在文獻編排方面相當隨意。有時雖然也根據(jù)朝代、文體等要素對所收錄的數(shù)據(jù)進行排列,亦即數(shù)據(jù)庫除可以全文檢索外,也可以按類查找相關文獻。但是,由于沒有嚴格遵守傳統(tǒng)目錄學的規(guī)范,一般僅僅根據(jù)朝代或文體對所收文獻進行粗淺的分類。對于傳統(tǒng)目錄學中所言正史、別史、編年等,籠統(tǒng)地冠以所謂“歷史著作”的名稱,不僅顯得沒有學術水準,更重要的是對于用戶而言,也失去了引導學者進入相關領域學術殿堂的功能。
在數(shù)據(jù)庫技術產生以前,一般而言,在文史研究領域,學者在從事某一研究課題之前,會根據(jù)所研究對象和領域的不同,大多會有選擇性地首先查閱《漢書·藝文志》、《隋書·經籍志》、《四庫全書總目》這類目錄學著作,再通過這些目錄進行延伸閱讀,找到自己研究領域所需要的書籍。這條治學路徑優(yōu)點是不至于遺漏本學科需要研讀的基本書籍,不會漏掉最重要的基礎文獻。而其缺點也很明顯,即難以快速查詢到精確的信息。眾所周知,中國古籍浩繁龐雜,即使將范圍限制在某個較小的領域,所閱讀的文獻量也可能相當可觀,比如研究《三國演義》,既需要梳理作為文學作品的小說的各種資料,又需要研究與三國時期那段歷史相關的各種文獻,同時還涉及宋元以來有關“三國”的戲曲、說唱、曲藝等藝術部類。面對龐雜的各種文獻,即使是睿智聰慧、博聞強記的學者也常常望書興嘆。因此,當計算機技術滲透進入中文信息處理領域,專門為文史研究者開發(fā)建設的電子版《四部叢刊》、《四庫全書》、“廿五史”、“中國基本古籍庫”等數(shù)據(jù)庫問世后,眾多學者大為贊嘆。整日在書海中遨游的學者們此前從未想到,計算機能夠在這樣短的時間內檢索出那么多巨細無遺的資料,其記憶力和反應速度與人腦相比,勝過后者何止千倍!
問題在于,如果將“三國演義”作為主題詞在上述古籍數(shù)據(jù)庫中搜索,很可能得出上萬條有關《三國演義》的信息。面對這許多撲面而來的數(shù)據(jù),用戶極有可能會無所適從。這是由于,就目前的數(shù)據(jù)庫開發(fā)水平而言,檢索出來的這些信息一般會按照數(shù)據(jù)庫中所收古籍的時間順序遞次排列。這種排序對于研究者而言,其實與雜亂無章沒什么差別,對于如何進入《三國演義》的研究幫助不大。之所以如此,就是因為基于全文檢索技術而產生的這些查詢結果并不能按照研究者的意愿進行真正有序的排列,它無法判斷哪些文獻更重要,哪些信息是垃圾。
誠然,憑借技術進步和增加人工干預,可以通過事先標記等手段對所收數(shù)據(jù)進行預處理,比如標記圖書類別、朝代、時間、方位、人名、地名、職官等信息,使用戶在查詢時能夠得到一個按照標記類別排列順序的檢索結果。但即便如此,卻也并不能給予用戶一個綱目清晰、全面完整、系統(tǒng)有序的有關研究對象的資料信息。這一點,卻正是傳統(tǒng)目錄學著作所擅長的功能。
筆者以為,在建設面向學者,為科研服務的文史類數(shù)據(jù)庫時,應審慎、嚴格、規(guī)范地按照傳統(tǒng)目錄學的相關知識對所收文獻進行排列、設置。絕對不能憑借數(shù)據(jù)庫強大的檢索功能而疏于對數(shù)據(jù)按照文獻屬性進行設置和排列。亦即符合學術規(guī)范、對學科建設有更大裨益的數(shù)據(jù)庫應是將目錄和索引兩方面的功能結合起來。
基于此種考慮,中國社會科學院A類課題“元代文獻數(shù)據(jù)庫”在立項之初,便決定遵循傳統(tǒng)目錄學中的四部分類法對所收文獻進行分類,同時在技術上,則保證數(shù)據(jù)庫有強大的檢索功能,包括按作者、書名、主題詞檢索及全文檢索等。因為該數(shù)據(jù)庫雖然僅是元代一個朝代的斷代文獻數(shù)據(jù)庫,但所收經、史、子、集四部文獻也十分龐雜。又考慮到這樣一個數(shù)據(jù)庫的用戶必然涉及史學、文學、哲學等多個學科,所謂術業(yè)有專攻,學者的研究方向不同,研究領域不同,所研讀的文獻便自然有所區(qū)別。我們按照學科規(guī)范對這些文獻條分縷析,對所收文獻的屬性有明確的、細致的定位,并且在每種文獻之前,錄入《四庫全書總目》等書籍中對相關文獻所作的提要和時人及后人為該文獻所作的序跋,這就類似于傳統(tǒng)目錄學中對文獻所作的解題,其目的就是使用戶對這些文獻的屬性和價值有較為明晰的了解,幫助學者能夠更快地利用數(shù)據(jù)庫掌握本學科領域的相關文獻。由于各類文獻嚴格按照經、史、子、集及各部所屬子類順序規(guī)則排列,保證了該數(shù)據(jù)庫既具有強大的檢索查詢功能,又符合傳統(tǒng)學科的固有規(guī)則,不同領域的學者都可以根據(jù)自己的需要快捷地查詢到相關文獻。事實證明,這些措施是可行的,也取得了預期效果。
因此,筆者以為,這樣的探索是有意義的。適用于學科基礎建構,推動學術發(fā)展的數(shù)據(jù)庫,應該是結合傳統(tǒng)目錄學和計算機雙方長處的結晶。
4. 傳統(tǒng)目錄學應用于數(shù)據(jù)庫建設之途徑
在近年來的學術研究中,學者們在使用數(shù)據(jù)庫時已經習慣了其強大的搜索功能,但是,治學嚴謹?shù)膶W者在使用這些功能強大的數(shù)據(jù)庫時,卻并不會將數(shù)據(jù)庫提供的信息直接引用在自己的學術論文中。他們滿足于數(shù)據(jù)庫給自己提供了一個線索,而為了可靠與嚴謹,他們一定會再找到原始紙質書籍或其他精良版本,重新校對,才能放心地將檢索獲得的信息作為自己學術論文的組成部分。
這樣的結果難道是數(shù)據(jù)庫開發(fā)建設者所樂意看到的嗎?
所以,我們一方面應充分肯定近年來文史類數(shù)據(jù)庫建設的成就,另一方面,則不能故步自封,而應該切實從學術發(fā)展和學科建設的角度,仔細審慎地體察學者的需求,將數(shù)據(jù)庫建設推進到一個新的高度。
而要實現(xiàn)這樣一種愿景,筆者以為最重要之處即是汲取傳統(tǒng)目錄學的長處,利用目錄學知識的引導,在全面、專業(yè)、精良等方面下功夫,庶幾可以逐步滿足學者的需求。
就目前的數(shù)據(jù)庫開發(fā)情況而言,文史類數(shù)據(jù)庫大體可分為三種類型,其一為將某部或多部大型圖書進行數(shù)字化并建成數(shù)據(jù)庫,如眾所周知的電子版《文淵閣四庫全書》、《四部叢刊》(由書同文公司分別于1999年、2000年開發(fā)成功)等。其二是試圖將中國有史以來的重要文獻盡其所能收錄于一個大型數(shù)據(jù)庫中,如“國學寶典”(DOS版發(fā)布于1998年,其后遞有增補)、“中國基本古籍庫”(2005年10月發(fā)布)等。其三是根據(jù)某些分支學科建設的需要,開發(fā)為某個具體學科服務的專題數(shù)據(jù)庫,如筆者正參與建設的“元代文獻數(shù)據(jù)庫”和“《紅樓夢》研究資料數(shù)據(jù)庫”等。
除《四部叢刊》、《四庫全書》外,《永樂大典》、《古今圖書集成》、《四部備要》、也已經開發(fā)出電子版。這個系列的數(shù)據(jù)庫其發(fā)展方向一是將“續(xù)修四庫”系列進行數(shù)字化,二是將眾多的明清方志進行數(shù)字化。因為投入巨大,短時期內很難見到類似《四庫全書》那樣規(guī)模的具備全文檢索功能的產品,學界人士只能翹首以待。而像“國學寶典”、“中國基本古籍庫”那樣的數(shù)據(jù)庫當然也可以繼續(xù)增添新的文獻。然而,為了學科建設的需要和學者使用的便利,在未來的數(shù)據(jù)庫建設中,筆者以為應該把重點放在那些切合學科建構需要的專題數(shù)據(jù)庫方面。
而對于一個古籍文獻專題數(shù)據(jù)庫來說,是否達到相應學術水準是衡量該數(shù)據(jù)庫成功與否的重要標尺。實現(xiàn)這一目標的關鍵即在于汲取傳統(tǒng)目錄學的相關知識作為數(shù)據(jù)庫建設的指導思想。具體而言,以下幾點需要特別注意:
第一點力求收錄數(shù)據(jù)全面。所謂全面是指數(shù)據(jù)庫所收文獻的范圍而言,應當盡可能巨細無遺地網羅符合數(shù)據(jù)庫建設宗旨的所有文獻。那么如何才能確保所收數(shù)據(jù)全面而不至有所遺漏呢?當然是向權威的目錄學著作求助。目錄學著述已經為我們提供了歷代文獻的存世數(shù)量、版本、存放地點等信息,按書索驥,便不難將相關文獻資料全部網羅進來,不會產生重要文獻未被納入的缺憾。而一個有學養(yǎng)的數(shù)據(jù)庫用戶,他當然能夠判斷該數(shù)據(jù)庫所收文獻是否足夠全面,如果收錄的文獻沒有缺漏,則能夠使學者在從事此一領域的研究時別無所求,不必再花費心思到別處查詢資料,則此數(shù)據(jù)庫的價值也就不言而喻。
第二點力求更加專業(yè)。庫中所收錄的文獻不僅要全面無缺漏,還應該在數(shù)據(jù)分類、數(shù)據(jù)排列、屬性設置、檢索科學等方面符合文史學科本身的特性,特別需要能夠根據(jù)前人和今人的已有研究成果對數(shù)據(jù)進行預處理,能夠給出像傳統(tǒng)目錄學那種“解題”式的闡釋。其目的在于讓用戶在使用數(shù)據(jù)時能夠快速把握相關文獻的價值、真?zhèn)巍⑾嚓P研究成果等信息。這樣才能使數(shù)據(jù)庫起到引導用戶盡快進入相關研究領域的功能,使學者在前人已有研究成果的基礎上更進一步。這也正是傳統(tǒng)目錄學所具有的功能。對于古籍數(shù)據(jù)庫而言,相關數(shù)據(jù)按照經、史、子、集四部分類法進行有序排列仍然是迄今為之最好的解決方案。
第三,力求數(shù)據(jù)來源更加可信。在古籍數(shù)據(jù)庫的開發(fā)中盡可能以精良版本的文獻為基礎來建設數(shù)據(jù)庫。在中國歷史上,越是著名的著作,其刊刻的次數(shù)就越多,而每次刊刻,如非出自同一刻板,由于校對者水平不一,便難免產生字句不一的現(xiàn)象。有些同一種類的文獻,書名相同,但卷數(shù)相異,所收錄的文獻內容差別甚大。更有些文獻,只有鈔本,難以辨認字跡。凡斯種種,都是源于不同文獻版本所造成的差異。版本不同,所記錄的信息便可能相差甚遠,有些文獻是宋元時的版本最好,而有些文獻則是清人曾經花費巨大精力進行過校勘,清人校本優(yōu)于宋元刻本。因此,治學嚴謹?shù)膶W者往往比較不同版本的差異,而以最可靠版本的記載作為自己論證的依據(jù)。這就為我們開發(fā)文史類數(shù)據(jù)庫帶來了挑戰(zhàn)。必須在選定精良版本的基礎上,進行嚴格的校勘,力求令數(shù)據(jù)庫中的文獻與紙質版本完全相同。只有這樣,學者們在使用這一數(shù)據(jù)庫時,才不會出現(xiàn)在數(shù)據(jù)庫中查詢信息,再到紙質版上核實的現(xiàn)象。
5. 小結
由于古代文學、史學、哲學、古漢語研究等傳統(tǒng)人文學科需要面對極其浩繁的古代文獻,學術的發(fā)展又必須推陳出新,因此借助古籍數(shù)據(jù)庫便成為學者的不二選擇。而古籍數(shù)據(jù)庫如何更能為學者所易于接受,如何能夠幫助用戶快速找到所需要的文獻,是任何古籍數(shù)據(jù)庫開發(fā)者所必須思考的問題。僅僅具備全文檢索功能顯然遠遠不能滿足學者的需求。傳統(tǒng)目錄學在歷史上曾經統(tǒng)領眾多古籍,引導過無數(shù)的讀書人步入學術殿堂。那么,我們今天以傳統(tǒng)目錄學統(tǒng)領古籍數(shù)據(jù)庫建設的全局并具體應用于數(shù)據(jù)庫的開發(fā),也具有重要意義。未來的數(shù)據(jù)庫應該不僅僅局限于可以查詢需要的數(shù)據(jù),而且可以巨細無遺地將有關專題涉及的數(shù)據(jù)文獻脈絡清晰地提供給學者,不僅是文獻本身,而且還包含文獻之間的“關系”。只有這樣,古籍數(shù)據(jù)庫才能真正成為學術發(fā)展的基石。
此外,數(shù)據(jù)庫的廣泛應用和學術本身的發(fā)展,也在不斷催生很多新興學科和交叉學科。傳統(tǒng)文獻學將向數(shù)字文獻學轉變,地理信息系統(tǒng)、人工智能等將逐步影響傳統(tǒng)文史學科。而某些新興學科、交叉學科的出現(xiàn)也必將對古籍數(shù)據(jù)庫建設提出新的要求。但這已屬于另外一個問題,筆者將另文討論。
參考文獻:
- [1] 章學誠.《校讎通義》[M],粵雅堂叢書.廣東.南海伍氏刊本.1853
- [2] 李鐸,王毅.《關于古代文獻信息化工程與古典文學研究之間互動關系的對話》[J],文學遺產.2005 .1:126-137.
- [3] 范子燁.《咫尺應須論萬里:說電子版〈四庫全書〉》
- [EB/OL].[2003-10-29]. http://xiangyata.net/data/articles/f03/261.html
- [4] 鄭永曉.《古籍數(shù)字化對學術的影響及其發(fā)展方向》[J],《社會科學管理與評論》2006.32(4):81-88.
作者簡介:鄭永曉? 中國社會科學院文學研究所,研究員,博士。主要研究方向為唐宋文學、文獻學、古籍數(shù)字化。