文獻數字化背景下的學術研究——以人文科學為例
【內容提要】上個世紀產生的IT技術對人類社會的各個方面產生了巨大影響,學術研究概莫能外。即使是像文史哲這樣的人文學科,由于有越來越多的數字化文獻的出現和數據庫的廣泛應用,也呈現出新的特點:傳統學科的研究領域和研究方式發生重大變化,新興學科和交差學科開始出現。數字化文獻的廣泛應用,對于人文科學的深入發展、對現代知識體系的形成具有積極正面的作用和深遠的影響。這種影響只會在深度和廣度上繼續發展而不會逆轉。抄襲和拼湊而導致的學術垃圾的出現并非文獻數字化和網絡本身的弊端。
【關 鍵 詞】人文科學、文獻數字化、現代知識體系
【作者簡介】鄭永曉,中國社科院文學所研究員。
一、當前人文科學研究與數字化文獻的應用
錢鍾書先生有一句名言:“大抵學問是荒江野老屋中二三素心人商量培養之事,朝市之顯學必成俗學?!卞X先生發表此論的背景是上個世紀八十年代末學界部分人士籌辦《錢鍾書研究》,“錢學”似有方興未艾之勢,而錢先生本人對此堅決反對,故有此言。筆者淺見,考慮到錢先生本人的知識結構和當時發表此論的背景,錢先生此處所言學問應主要是指人文科學,而與自然科學無涉。這層意思本來顯而易見,無需論證,但由于拙文主要考察人文科學與計算機科學的關系,故不得不先作此畫蛇添足的界定。
錢先生此言雖然簡單,卻透露出人文學科的幾個重要特點。比如,做學問要有一個相對安靜單純的環境,與喧囂浮華相隔離;學術極具個性化色彩,主要依賴于個體的思維與創造,二三個素心人切磋培養即可,無需大規模的集體項目運作;學者必須是“素心人”,能耐得住寂寞,有甘做冷板凳的功夫。關于這幾句話,學界有很多透徹深入的解讀,此處不再贅言。筆者想借此說明的是,盡管人文科學涵蓋多種學科,每個學科也各有其獨具的特點,但是像文史哲這種典型的人文學科,其基本的功能和目的是產生“思想”,而“思想”的產生當然主要是依賴于人的創造性思維而不是其他。雖然自然科學和社會科學也并非不產生“思想”,但是相對而言,人文科學不像自然科學那樣依賴于科學實驗,也不像社會科學那樣借助于統計分析。所以,這其間的區別還是比較明顯的,這正是錢先生認為學問是“二三素心人商量培養之事”的原因所在。
但是,我們也必須認真思考錢先生這段言辭的前提,錢先生所言“二三素心人”能夠“商量培養”出學問,是因為他那睿智的大腦已經儲存了大量的信息。他所以能夠寫出《談藝錄》、《管錐編》那樣博通古今、融匯中西的巨著,一個顯而易見的前提是他閱讀了大量古今中外的書籍。錢先生閱讀之廣博、記憶力之超強是人所共知的。幾個不識字的白癡或者讀書甚少的人,即使再“素心”,也切磋不出學問來。
但是,這世上能夠具備錢先生那樣睿智大腦的人畢竟少之又少,作為普通的學者,我們先天的條件和后天的素養都無法望其項背。于是我們只好借助于一些工具,幫助我們儲存和記憶,這類工具在過去是卡片和筆記,在上個世紀九十年代以后,則是計算機和網絡。計算機及相關IT技術是二十世紀最偉大的發明之一,也是人類迄今為止最好的記憶和儲存工具。正是由于這個特性,使得像文史哲這類傳統的人文學科也與尖端自然科學中的IT技術建立的密切關系。
令人驚嘆的是,早在上個世紀八十年代,錢鍾書先生就準確預見到計算機科學必將對人文科學產生重要影響,因而積極支持在社科院建立計算機室。在他的鼓勵下,欒貴明先生等陸續開發出了國內最早的《全唐詩》數據庫及《論語》數據庫、《紅樓夢》數據庫等。
上個世紀九十年代初,由作家、學者換筆開始,計算機技術的相關應用開始步入人文學術的殿堂。至九十年代中期以后,網絡和數據庫開始進入學者的視野,一些先行者嘗到了使用數據庫的甜頭。至本世紀以來,無論是文獻數據庫的開發建設,還是文史工作者的實際使用都到達到了一個較高層次。
根據筆者有限的見聞,如果說在5年以前尚有極少數學者對使用與電腦、網絡、數據庫有關的一切有抵觸情緒,對自己不使用還頗有自負、自得、不屑一顧的心態,那么現在這樣的學者已屬十分稀有了。數據庫和網絡的優越性其實根本無需論證,比如我們可以遠程查詢包括日本宮內廳書陵部、國會圖書館、東京大學東洋文化研究所漢籍善本全文影像資料庫等日本六十余個機構的部分漢籍藏書影像,可以檢索到哈佛大學哈佛燕京圖書館特藏資源庫的部分文獻,可以閱讀中美百萬冊書數字圖書館的數字文獻。例繁不備舉。這對于在更廣泛的范圍內占有學術資料、開拓學術視野、促進學術的與時俱進與良性發展顯然是非常必要的。
正是意識到了文獻數字化和數據庫的極大優越性,也伴隨著學者隊伍年齡層次的新老更替,近年來絕大多數學者都把文獻數據庫作為獲取學術資源的重要途徑?!秶鴮W寶典》、電子版《文淵閣四庫全書》和《四部叢刊》、《中國基本古籍庫》等已經在近年來的學術研究中發揮了相當的作用。
誠然,就古籍數字化進程和文史領域的數據庫建設而言,盡管已經取得了不小的成績,但是由于版權保護、國家支持力度以及某些技術方面的原因,總體上還只能說處于初級階段。而從人文學科領域學者的應用而言,大多數學者也僅僅是把數據庫當作一個檢索工具。通常情況下,治學嚴謹的學者在檢索到自己需要的資料后會進而用紙質書籍進行復核,而少數不嚴謹的學者則會直接引用。這種情況確實對部分學術垃圾的制造起了推波助瀾的作用。
但是,我們不能因為極少數人利用網絡數據庫便于復制、拼湊的特點,就否定數據庫的積極作用。
如果我們把目光僅僅盯在網絡和數據庫易于復制、便于抄襲的特性,而阻礙、延緩文獻數字化和網絡數據庫的發展,則未免有目光短淺、因噎廢食之嫌。不了解網絡的特點,沒有掌握這種學術利器的特性,站在一種天然正確的道德制高點上,對文獻數字化進程和網絡數據庫冷眼旁觀甚而指責,是一種故步自封、不負責任的做法,不利于學術在新時期取得更好、更快的發展。
二、數字化文獻與建立現代知識體系之關系
根據現代知識體系形成和管理方面的相關理論,數據經過整理成為信息,信息經過系統化成為知識,而知識是“智慧”和“思想”的淵藪。這就是著名的DIKW(Data–to–Information–to–Knowledge–to–Wisdom)理論。這個體系最早可以追溯到英國著名詩人托馬斯·斯蒂恩·艾略特在1934年為倫敦教堂所寫的慶典劇《巖石》(Choruses from “The Rock”)。在這篇詩劇中,艾略特寫到:Where is the Life we have lost in living?/Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?大意是說,我們在哪里遺失了生命中的靈魂?我們在哪里遺失了知識中的智慧?我們在哪里遺失了信息中的知識?1982年12月,美國教育家哈藍·克利夫蘭(Harlan Cleveland)引用艾略特的這些詩句在其出版的《未來主義者》的一章中提出了“信息即資源”(Information as a Resource)的主張。其后,教育家米蘭·瑟蘭尼(Milan Zeleny)、管理思想家羅素·艾可夫(Russell .L. Ackoff)進一步對此理論發揚光大,前者在1987年撰寫了《管理支援系統:邁向整合知識管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰寫了《從數據到智慧》(“From Data to Wisdom”,Human Systems Management 7)[①]
根據這種理論,數據是數字、文字、圖像、符號等,是一些事實的集合。在沒有被處理之前,本身不代表任何潛在的意義。而當通過某種方式對數據進行組織和分析時,數據的意義才顯示出來,從而演變為信息,信息可以對某些簡單的問題給予解答。信息經過系統化處理,成為信息的集合,從而上升為“知識”。知識是對信息的應用,是在對信息進行了篩選、綜合、分析等等過程之后產生的。知識不是信息的簡單累加,往往還需要加入基于以往的經驗所作的判斷。此外,知識基于推理和分析,還可能產生新的知識。因此,知識可以解決較為復雜的問題。
智慧和思想是人類思維的高級形式。智慧是對知識的有效利用,它所關注的是事物發展的未來,是試圖理解過去未曾理解的事物。智慧和思想是人類所獨有,并且不可能借助任何工具而產生。
在這個鏈條中,智慧固然最可寶貴,但是人類的智慧卻是不可憑空產生的,它是由數據而信息而智慧這樣一種層級遞進的方式才可能出現。
顯然,數據處于鏈條的基礎位置。換言之,沒有數據的處理,就沒有后來的信息和知識,當然也就更不可能有智慧和思想。
如果這個理論成立,我們就需要重新審視古籍數字化的作用,重新探討在人文學科領域加強建設文獻型數據的必要性和緊迫性。
前輩學者經常告誡我們,治學應該盡可能掌握第一手資料。這是非常正確的,永不過時。問題在于如何盡可能多地掌握第一手資料,如何讓更多的第一手資料為我所用并經過分析、推導,提出自己獨特的學術見解。在信息化技術已經相當發達的今天,通過人工抄寫、記錄卡片的形式不僅顯得毫無必要,而且浪費太多的時間。就其獲取原始資料的深度、廣度和效率而言,與通過數據庫的方式相比,根本不在一個層次上,不具有可比性。
我們有理由相信,伴隨數字化進程的加快,在不遠的將來,清代以前的文獻和部分現當代文獻都會完成數字化,可以通過快捷方便的數據庫方式進行有效使用。在這樣的治學環境下,我們研究一個學術命題,都會真正實現竭澤而漁式地獲取到相關的所有學術資料。建立在這樣一種全面掌握學術資料前提下的學術研究,顯然更有可能得出更接近事實和真理的結論,從而把學術研究在新的環境下向前推進一步。
三、數字化文獻對人文科學的影響具有不可逆轉性
誠然,人文學科具有自己的特點。比如,文學研究就需要長期浸淫于文學作品中,體味、咀嚼、涵詠的功夫十分重要。曾有學者擔心,計算機時代,學術資料獲取的便捷減少了學者深入體味、研讀、咀嚼作品的時間,甚至根本就略過了這樣一個必不可少的過程,而僅僅憑借若干東拼西湊的剪貼資料就攢出一些所謂論文來。原《文學遺產》主編陶文鵬先生稱其為“電腦體”。
這些擔心并非沒有道理,學界也確實存在著部分學者利用網絡和數據庫剪貼資料的便利拼湊學術垃圾的現象。
問題在于,抄襲和制造學術垃圾并非計算機時代的專利。這種現象從來就有,只是由于現今學術隊伍越來越大,少數學者的道德水準較為低下,學術評價體系中對發表論文數量的過分追求,導致現在劣質論文的數量也相應增加。根治這種頑癥需要多方面的努力,如果把目光過分集中在所謂網絡和數據庫的弊端上,不僅不能解決問題,反而掩蓋了這種弊端產生的真正原因,而難以從根本上杜絕這種現象的蔓延。
筆者以為,作為自然科學重要成果和工具的計算機技術也是促進人文科學發展的利器。人文科學與自然科學在某些交匯點上并非水火不容,而是可以相互促進,共同發展。在傳統文史研究方面,以當代IT技術為支撐的古籍數字化和各種文獻數據庫正是實現學科發展的重要輔助工具。
在清代以前,普通學者的治學往往依賴于個人藏書的多寡,所以很多學術造詣深厚的學者兼有藏書家的身份。
二十世紀以來,科研、教育機構和公共圖書館的藏書在學術發展過程中扮演了重要角色。就人文學科而言,一個科研機構的實力在一定程度上是與其收藏的該領域藏書的數量成對應關系的。沒有藏書,也就不能占有學術資料,自然也就很難出產高質量的學術成果。
二十一世紀以來,數據庫的作用日益明顯。在社會科學領域,如經濟學、人口學、社會學等,很多學術成果是靠統計數據才能有發言權的,所以,各種權威數據庫的地位早已在紙質書籍之上。而在人文科學領域,盡管這種局面還沒有出現,但是我們可以斷言,隨著古籍數字花進程的加快和質量的提高,至少數據庫的地位達到與傳統書籍對等的程度是完全可以想象的。
筆者以為,計算機和數據庫的全面使用,并不會弱化人文學科的特性和優勢。甚至可以說,正是由于計算機簡化了很多事務性的工作,可以節約出大量時間用于體味、涵詠作品,并進行思考。用前文所言現代知識體系理論來說,就是計算機可以幫助我們加快在數據處理和信息加工方面的進程,盡快到達知識和智慧階段。使我們有更多的時間去思索,去探究形而上的問題,去提出更多對文化、對思想有真正建樹的理論。
尤為重要的是,古籍數字化的進程、文獻數據庫的廣泛利用、以IT為代表的自然科學在人文學術領域的深度參與是不以我們的意志為轉移的。這是一個必然快速向前發展的過程,而不可能出現倒退或逆轉。例如,在史學中有歷史文獻學、在文學中有古典文獻學,文獻學的發展受計算機的影響極大,類似古籍標點、版本比對等很多工作將會被計算機所取代。傳統文獻學必將向數字文獻學轉化。新興學科和交差學科將出現,并促進各相關學科融入到現代學術體系中。
從科研的角度而言,數字化有利于加快現代學術體系和研究范式的建立;從知識管理的角度而言,數字化有利于實現從數據到信息,再到知識的跨越性發展。從閱讀和知識傳播的角度而言,現在的年輕人已經習慣了屏幕閱讀。傳統紙質書籍盡管還可以與電子讀物并存一個較長時期,但終究會被數字化讀物所取代也是無可置疑的。那么,在這種趨勢下,像文史哲這樣的傳統人文學科,順勢而為,加快數字化進程,及早促進學術體系轉型,顯然是學術發展的必由之路。
四、余論
筆者以為,必須從發展人文科學、建設當代文化的戰略高度審視古籍數字化和相關文獻數據庫的建設工作。
改革開放以來,盡管我們的經濟建設取得了舉世矚目的成就。但是,社會上過分追求物質利益、金錢至上、道德水準低下的狀況還沒有得到根本的改變,令人十分憂心。筆者以為,造成這種狀況的根本原因是市場經濟環境下,經濟利益的驅動力量過分強大戕害了人文精神的發展與重建。大、中、小學文科教育力度不足,科研機構中人文學科相對弱勢,整個社會文化氛圍中對人文精神的關注與培養嚴重滯后。這對于我國提高文化軟實力、發展高水平的文化創意產業顯然形成了極大的制約。
改變這種狀況的根本點在于從源頭上重視人文精神的重建,而這個源頭就是我們源遠流長的傳統文化。
一方面,傳統文化對于重建當代人文精神具有重要的基礎作用毋庸置疑。另一方面,傳統文化雖然以不同的方式影響著一代又一代的民眾,但在當今全球化浪潮高漲、民眾學習外語的熱情遠高于學習母語的情勢下,傳統文化也并不會自動發揮其應有作用。
若要使傳統優秀文化在當代人文精神重建中擔當重要角色,則必須從科研、教育、社會人文環境培養等各個環節入手,以現代化的手段挖掘傳統優秀文化的底蘊,并使用當代民眾易于接受的方式將這種文化精華滲透進先進文化的發展建構中。
顯然,以現代化的手段深入挖掘傳統文化的精華在這個鏈條中是基礎中的基礎。而這正是古籍數字化的重要性所在。我國歷史悠久,典籍眾多,或說浩如煙海,或言汗牛充棟,即使代有學人深入鉆研,所涉及的文獻數量也往往是滄海一粟。如果只是憑借人力對傳統學術進行探索,不僅不符合現代學術潮流,更難以實現讓傳統文化在重建當代人文精神的艱巨任務中起到重要作用。
因此,古籍數字化任重而道遠,文獻數字化的發展和數據庫建設及其廣泛的利用是大勢所趨。在文獻數字化背景下的人文科學研究,應該適應這一發展趨勢,推動古籍數字化和文獻數據庫建設向更加專業化的方向發展。只有這樣,人文科學才能與時俱進,也才能在當代人文精神重建過程中發揮應用的作用。
注釋: