數字化時代對史學研究模式的影響
【內容提要】隨著計算機智能技術的發展,傳統文獻學面臨著數千年來最大的變革,人類知識傳承出現新載體,文獻書寫方式、收藏方式、閱讀方式、出版方式都出現重大變革。這一時代變革對史學研究也產生深刻影響:改變了史料搜集的方式,改變了校勘與考據的概念,改變了索引、標點的方式,引發了研究思維的轉變,改變了學術前沿的概念。歷史學科研究生應該密切注意這種變化對學術研究的影響,努力提高個體信息素養,以使自己的研究跟上時代的進步。
【關 鍵 詞】歷史學;文獻學;數字化;史學理論
前言、古典文獻學面臨的“千年之變”
馬克思說:生產工具促進生產力。馬克思在經典著作中論述人類歷史發展階段劃分時指出:歷史發展階段是以人類采用什么生產工具及相應的生產方法來劃分的,所以分成石器時代、鐵器時代等。推動歷史發展,生產工具的變革是最積極、最首要的因素。人類的生產工具由手動發展到具備動力,馬克思認為這是一次人類生產工具的大革命。現在計算機技術的發展,使人類的生產工具具有一定智能性,這是人類生產工具新的又一具有劃時代意義的發展。
進入20世紀以來,計算機的軟硬件技術對古典文獻學產生了越來越深入的影響。一是出現了人類知識傳承新的載體,在人類進入文明社會后,甲骨、金石、簡帛、紙質文獻構成了文獻載體,而現在電子文獻也成為人類知識的新載體,并具有容量、復制、保存諸方面的科技優勢。二是人類書寫方式出現新的變革,中國傳統的書寫工具有刀錐和毛筆兩類,并與印刷術相結合,產生了數量龐大的古籍文獻,現中國古籍存世約有15萬種。而計算機時代,鍵盤錄入以及文字識別成為新的書寫方式,既帶來論著寫作的便捷化,又使海量文字錄入成為可能。三是實現人類收藏與檢索文獻方式的變革。人類曾試圖把所有知識放在一幢房子里,因而出現了圖書館,并因檢索的需要而出現目錄學的專門知識。網路技術的出現和檢索引擎的發展,使人類的精神文化寶庫可以不經集中收藏就可以聯結成巨型文獻庫,即使是珍稀古籍版本也可飛入尋常百姓家,文獻材料對每個研究人員而言在數量上都是平等的,并出現去物質化的趨勢。四是實現人類閱讀文獻方式的變革。所有印刷出版物均是“線性”的,只能一頁一頁按順序閱讀,而網頁組織則是“網狀”的,讀者可以直接閱讀自己最需要的內容,人類從有序閱讀變為無序閱讀。2009年王余光先生《我們不得不面臨的時代》一文提出在中國歷史上,第一次閱讀轉型是從手抄書到雕版印刷;第二次是機械印刷和新式教育的變革;而第三次就是我們今天所處的時代,電視、電腦和手機等電子媒介屏幕閱讀成為主流。五是實現圖書出版方式的變革,人類圖書出版長期處于鉛與火的時代,自近代進入光與電的時代,而現在自動排版成為可能,不需要出版社而由作者直接出版圖書的“去中介化”趨勢也已出現,網絡首發也成為學術成果發表的認可方式。
古籍文獻是史學研究的基礎,文獻學面臨的“千年之變”及計算機技術的智能化的深入發展,自然也會對史學研究模式產生深入影響。
一、文獻普及化
對治中國古史研究而言,常以占用盡可能多的歷史文獻作為得出結論的前提,占用絕大多數史料就可以下基本結論,而沒有看到重要史料,只能就事論事、就書論書,因而這樣的研究也難以產生影響。
所以對古時學者而言,是否看到史籍決定了同一專題學者群的大小。清代徐松等人利用修《四庫全書》的機會,得以觀覽《永樂大典》,撰寫了《宋會要輯稿》等輯佚作品,完成《唐兩京城坊考》、《登科記考》等考據性著作,成為有清一代研究相關專題的最著名學者。即使《宋會要輯稿》成書后,大多治宋史學者也無緣閱讀,一直到民國影印以后,才得以廣泛傳播。
另如《四庫全書》是清代乾隆年間官修的規模龐大的百科叢書,它彚集了從先秦到清代前期的歷代主要典籍,共收書3400余種,79000多卷,分裝36000多冊,總字數約9億。《四庫全書》作為有清修書集大成之作,清政府在各地建閣而收藏,但普通人根本無緣翻讀。民國期間,時任北洋政府教育總長的傅增湘到北平圖書館看《四庫全書》,都是在兩個帶槍士兵監視之下才得以成行。陳垣少時讀《四庫全書總目提要》,曾自嘆今生可能無望讀到《四庫全書》。1915年,文淵閣《四庫全書》搬運至北京京師圖書館。陳垣每天租一架驢車到圖書館閱讀《四庫全書》,十年每日往返,才成就其學術的淵博高深。上世紀90年代,漆俠先生購買臺灣文淵閣四庫全書,所需15萬經費需省長特批,當時河北省內只有3套四庫全書。
北京書同文數字化技術有限公司于 1997~2000年與香港迪志文化出版有限公司、上海人民出版社、微軟北京研發中心、北大方正、清華大學計算機系、國家圖書館、香港中文大學等單位合作,開發完成了《文淵閣四庫全書》原文及全文檢索版,只占7個多G的硬盤空間,在保存了原書文獻真實性的基礎上,還提供完備的閱讀及檢索功能。北京書同文數字化技術有限公司又于2001年開發研制成了《四部叢刊》全文檢索電子版。
四川大學古籍研究所較早完成“電子版《宋會要》”項目。2008年與上海人民出版社、北京大學、河北大學、河南大學、武漢大學、上海師范大學也聯合制作了《宋會要輯稿》研發項目。2013年上海人民出版社出版《全宋文》數據庫。現在一臺計算機甚至一個智能U盤,就是可以隨身攜帶的圖書館,跑圖書館查閱資料已經不是學者常做的事情了。
此外一些古籍珍本,也因大型綜合性圖書的出版而從館內秘藏變為面向世人。如四川大學古籍研究所編纂《宋集珍本叢刊》就是從海內外各大圖書館收集而得的960種宋代珍本文獻中精選而成。1996年上海圖書館啟動《宋元善本全文數據庫》,并分期實現上網服務。1998年國家圖書館啟動“中國數字圖書館工程”,其中數字方志資源庫、石刻拓片資源庫、甲骨文獻資源庫、館藏各類文獻書目數據庫、永樂大典資源庫等六個子項目均是古籍項目。此外中華古籍善本國際聯合書目系統、臺灣國家圖書館善本叢刊影像先導系統、“學苑汲古——高校古文獻資源庫”、哈佛大學哈佛燕京圖書館藏善本特藏資源庫、東京大學東洋文化研究所漢籍全文影像數據庫、漢籍數字圖書館、長春圖書館“館藏國家珍貴古籍數據庫”等網站,也都可以查閱古籍。
在古籍數字化的時代,可以說古籍珍本已經飛入尋常百姓家,對于史學各個領域而言,其剛剛進入相關領域的研究者與已有多年積累的研究者,其在文獻占有的數量上幾乎是相等的,再也沒有文獻占有的客觀制約了。
二、史料綜合化
古代典籍浩如煙海,學術上的突破,往往依賴于新材料的發現。從某種意義上講,史學就是史料學的觀點有相當的合理性,傳統的史學研究在某種程度上,就是發掘史料功夫的較量。以傅斯年為代表的史料學派就是這樣認為的:“只要把材料整理好,則事實自然顯明了。一分材料出一分貨,十分材料出十分貨,沒有材料便不出貨”,他們宣稱不讀書只找材料,“上窮碧落下黃泉,動手動腳找東西”,對后來學者也有相當大的影響。
但在古籍數字化的時代,各種各樣的古籍數據庫的特點是通過檢索來搜集史料,而且速度之快,幾億字的古籍檢索可以在分鐘單位內完成,讓每位初次使用數據庫的學者都曾嘆為觀止。隨著各類古籍數據庫建設的精細化發展,其查全率和查準率都有相當提高,越來越可以放心使用。有學者舉例:
有位學者研究中國古代的“矯制”,用傳統方法查找資料,辛辛苦苦干了一個多月。文章寫成后,請一位懂電腦的同行提意見,那位先生上網檢索“矯制”,幾分鐘就檢索完了。一對照,手工翻書比電腦查找還少找了一條資料。[①]
現在面世的古籍數據庫大多以古籍為數字化對象,而不是以現在通行學科類別為區分標準,這就使得數字化古籍庫模糊學科分類,事實上消解了歷史、文學、哲學等學科間的材料隔膜。專治宋史的王曾瑜先生在撰寫了科技思想史方面的文章后感嘆道:“目前古籍電腦軟件盡管還是處于原始發展階段,有不少的缺點,卻已顯示了巨大的優越性,可以數倍,甚至數百倍、成千倍地提高查史料的效率。我常說,自己治史,過去是手工生產階段,如今算是進入了機器生產階段。我通過一些治思想史研究生的答辯,發現治思想史者常泛用宇宙觀一詞,才想到應為此寫一篇文章。《從古“宇宙”詞義談古人的宇宙觀》一文全靠古籍電腦軟件檢索,但還是與核查書本相結合。完工後,不免感慨說,如果未使用古籍電腦軟件之前,憑自己的學力,這個題目確是連想都不敢想。就是在前輩學者中,只怕也只有張政烺先生方可勝任。如《明儒學案》一書,即使要瀏覽一遍,只怕也須用兩三天,我使用古籍電腦軟件檢索,大約只花了三十分鐘。”[②]
在數字化時代下,已經有學者將電子文獻列為文獻學的重要研究內容,如張三夕先生主編的《中國古典文獻學》中有“電子文獻的檢索和利用”的專題論述。[③]楊琳先生《古典文獻及其利用》中認為:“數字文獻(Digital document)是以二進制數字代碼形式記錄于磁帶、磁盤、光盤等載體,依賴計算機系統存取并可在通信網絡上傳輸的文本、圖像、音頻、視頻等文獻。數字文獻也叫做電子文獻。”[④]
自20世紀以來,人類迎來知識爆炸的時代,人類知識總量急劇增長,至21世紀初,人類至少已經寫作了3200萬冊書、7.5億篇文章,這種學術深化發展必然帶來各種學科的細致分類,有學者認為5000年前,世界上只有三門學科:語言、圖騰、技藝,2000年前,已經增加到5000門,本世紀中葉應該有20000門學科。貝弗里奇講:““不管一個人對一門學科(藝術、經濟、宗教、政治、科學等)掌握多少,人們總不能看到這樣一個令人驚訝的事實,即這些學科集中在一起可以形成某種別的東西。事實是,整體大于原來個體加在一起的總和,其性質不能從部分中預測到,這才是事實的關鍵所在。”“獨創性常常在于發現兩個或兩個以上研究對象或設想之間的聯系或相似之處,而原來認為這些對象或設想彼此沒有關系。”這些數以萬計增加的新學科,決大多數都是交叉學科,而新產生的人文社會科學學科至少也會數以千計,都會產生大量的學術增長點。而綜合性的數據庫一定會為這些新的學術熱點提供有力的技術支持。
三、數據個性化
在前數字化時代,中國傳統史學的治學模式都是近似的:先是確定題目,然后閱讀相關史籍,邊作史料卡片,邊進行理論思考。隨著研究者對相關文獻的系統翻閱,所選題目的歷史發展漸漸清晰,進而找出問題的關鍵所在,結合時代背景提出作者的個人結論。因而史料搜集是中國傳統史學研究的基本功,讀書并做卡片是幾乎所有導師對學生的基本要求。因為史料史料的翻閱與搜集是相當枯躁的事情,因而提倡“板凳要坐十年冷”的治學精神。可以說,史料卡片的多年積累,幾乎是中國傳統史學的不二法門。眾多著名學者的成名之作都是建立在大量史料卡片記錄的基礎之上,如錢鍾書先生的《談藝錄》、《管錐編》就是在幾大麻袋卡片的基礎上完成的。文革期間,因為所搜集的眾多史料卡片的丟失,迫使眾多學者中斷了學術研究,漆俠先生曾說過文革期間最大的損失之一,就是為寫作《宋代經濟史》而準備的幾麻袋卡片被抄走。文革結束后,漆俠先生馬上到天津圖書館等地重新查閱史料,還說“這樣也好,可以讓我重讀一遍史料”,又經多年準備,才最終完成《宋代經濟史》。
在數字化時代,為史料卡片的制作與搜集有帶來相當大的便利性。現在流行的數據庫,幾乎都有文字復制功能,這就避免了大量手工抄寫勞動,而進行“Ctrl+C”、“Ctrl+V”的操作就可以了。 1997年~2000年香港迪志文化出版有限公司與北京書同文數字化技術有限公司等單位合作,開發的《文淵閣四庫全書》全文檢索版,就提供了文字復制功能,同時可以復制書名和卷數的史料出處,但要注意的是,在復制后粘貼時,注文不在原句之下,而是在復制史料的末尾之后。另一大規模數據庫“中國基本古籍庫”6.0版也提供出處復制。
此外,還有相當多的數據庫提供卡片輸出功能,既有檢索結果,又有文獻出處,使史料卡片的制作進入機器化時代。臺灣中央研究院的《漢籍電子文獻》、陳郁夫先生的“寒泉”檢索系統都有分段顯示并輸出的功能。2010年北京國學時代文化傳播公司與河北大學宋史研究中心合作研發的《宋遼夏金元史電子館》也實現了卡片輸出功能,檢索宋遼夏金元時期近4億字文獻后,可以幾秒鐘內將結果輸出為電子卡片。陜西師范大學袁林先生主持開發的“漢籍全文檢索系統”,共近10億字,也可以一次性輸出為一個文本文件。
可以說,在數字化時代,傳統的史料搜集工作已經向數據收集轉化了。這一時代特點,首先對人物與名物等帶有明顯檢索關鍵詞的選題帶來便利。進行人物研究,檢索歷史人物的姓名、字號、別號、事跡、著述,花費旬日檢索得來的史料基本上就可以扶持開始著手研究工作了。筆者要研究宋代詞人筆下的“鏡”意象,使用北京國學時代文化傳播公司研制的《全宋詞》數據庫,檢索得到鏡意象共224處,65000字的卡片幾秒鐘內生成。隨著研究的深入,所涉及的關鍵詞可以不斷增加調整,從而多單一檢索變為多元檢索,從定向檢索變為關聯檢索,由靜態檢索變為動態檢索,從而在更大范圍內找尋出相關史料,進行分類整理之后,就可以建立起屬于研究者相關選題的個性數據庫。
戴偉華先生《地域文化與唐代詩歌》為例來說明。唐代文學研究中地域文化視角得到了應有的重視,歸納起來大致有六個層面:(1)以本貫、占籍為切入點;(2)以隸屬階層為切入點;(3)以南北劃分為切入點;(4)以文人的移動路線為切入點;(5)以詩人群和流派為切入點;(6)以文化景觀為切入點,等等。那么,面對這樣豐碩的成果,要從詩歌自身來討論地域文化問題有相當的困難。如果以詩歌創作為本位切入地域文化與唐代詩歌研究,可能會更貼近唐詩的實際。正是基于這樣的考慮,戴先生從唐詩創作地點切入,花費大量時間創建兩個必備的數據庫,一是《唐文人籍貫數據庫》,一是《唐詩創作地點考數據庫》。在此基礎上,戴先生將過去主要以詩人籍貫為主的分析,轉換為以詩歌創作地點為主的地域文化與文學的研究。[⑤]
此外,在論著參考方面,也可以建立個人數據庫。如超星數字圖書館中,用戶可以編輯專題的虛擬圖書館。另外“人大復印報刊資料”等中文全文期刊數據庫,也按學科領域或專題進行編選而形成的系列專題資料。數字化時代,不論史料收集,還是論著參考,都可以以數據形式,形成個性化、專題化的數據庫。
四、解讀碎片化
在數字化時代,建立屬于研究者的專題數據庫成為可能,史料搜集有向數據收集轉化的趨勢,這就使得史學研究更多從史料匯編開始進行,而史料閱讀從有序閱讀更多轉向為無序閱讀進行。
傳統史學研究中的史料卡片制做,是建立在有順序讀書的基礎之上。中國古代史籍,不論是紀傳體、編年體,還是總集、別集,其內容編排都有內在的邏輯順序,其作者及成書都有固定的文獻背景,而邊讀書邊做卡片就是在這一邏輯框架內展開的,因而幾乎每張史料卡片中都要注明時間、地點、人物信息,以便與其他卡片建立聯系,最后用大量卡片完成所選題目的全貌拼圖。
而在數字化時代,選題之后通過檢索生成的數據卡片,其所依據的所查詢數據庫的子庫編排順序,其最大缺點是史料脫離了當時的歷史背景,人物常孤立于時代群體之外,事件常不明其背后利害關系,制度常難解其演變過程,地點常斷裂于自然區域,總而言之,檢索史料脫離了其所在的活生生時代背景。
因此,數字化時代檢索生成史料匯編后,語境回追成為重要環節,需要回到原文中閱讀而理解上下文語境,讓每條史料回歸當時的史源出處和歷史背景。如朱瑞熙等先生合著《遼宋西夏金社會生活史》時,引清代學者錢大昕《十駕齋養新錄》之說,認為婦人自稱“奴”始于宋代。王曾瑜先生認為此說無十分把握,使用《四庫全書》電腦軟件檢索,不料竟有兩三萬個“奴”字,王先生憑藉以前的閱讀和使用經驗,單查《太平廣記》和《全唐詩》兩書,果然在前一書中找到了唐代女子自稱“奴”者。[⑥]
如果說,少量史料重新回到文獻語境中再次閱讀是比較容易,而讓海量檢索信息回歸歷史(如包偉民先生所言對歷史完整場景的理解)則有相當的難度。比如《四庫全書》電腦軟件,“朱子”、“晦庵”、“朱熹”的檢索結果就有25817卷、78864個匹配。至于“孔子”,更是高達23757卷、111641個匹配。檢索“鏡”字,結果有19210卷、50335個匹配。復制、閱讀、理解這些數目龐大的檢索結果,是相當花費功夫的。更重要的是,還可能出現研究者淹沒于海量信息中,而難以完成史料碎片的歷史拼圖。
汪圣鐸先生對電腦檢索和史料匯編的關系有如下認識:1避免重復;2考察文獻成文年代和所反映情況和關系上的考證;3是文字校點核校方面的努力,因而自信它的功能決不是電腦檢索所能取代的。[⑦]
因為利用數據庫檢索的史料是脫離歷史背景的,因而常“只見草莖,不見根須”,對學術研究的進一步開展當然有深刻的不利影響。李華瑞先生評價宋史界博士論文時說出這種弊端:“現代信息數據技術的高度發展,為年輕學者,甚至為非歷史專業初入宋史方向的博士生,在很短的時間內掌握大量論文所需資料成為可能,那種以掌握史料多寡作為衡量史家能力高低的時代已一去不復返,這大致也是現今博士學位論文在短短三年間字數動輒逾數十萬言的主要原因。但是由于相當多的青年學生過分依賴數據庫,而缺乏對基本史料的閱讀理解,缺乏對宋代歷史發展的總體把握,論文敘述很難把握問題本質與現象之間的聯系,豐富的歷史內容失去了多彩的顏色,變得單調而孤立。只見樹木,不見森林的現象頗為嚴重。”[⑧]
在數字化時代,我們既要利用檢索手段獲得新材料,而又要避免臆想檢索詞和查詢結果脫離歷史背景的弊端,因而研究生要特別加強這方面的訓練。2012年上海華東師范大學“e-考據與文史研究”研修班,其意圖就是代表了這樣的努力:“ 以清代名臣福康安之史事與傳說作為主要的研究個案,選擇此一目前仍混沌不明的有趣題材為案例,透過講演與實例演練,嘗試引導學員如何切入一個陌生的課題,發掘有意義的問題,規劃可行的研究路徑,搜索有幫助的證據,處理不兼容的材料,并探索該如何逼近歷史的原貌,供學員能在短時間內切入龐雜史料,從中拓展、組合、拼湊關鍵的數據,進而張開研究的視野與深度。”
五、考證工具化
對史料進行考證,是史學研究的基本功。在數字化時代,考證出現工具化的趨勢。這是因為,古籍數據庫全庫檢索本身就能成為考證重要手段,如袁林先生舉例:
中學語文課文有《樂羊子妻》一篇,需考證:樂羊子是否戰國時樂羊?此“子”是否類如“孔子”為男子尊稱?在我們所做“漢籍全文檢索系統”軟件10億字古籍中,分別檢索含有“樂羊子”、含“樂羊”但不包含“樂羊子”的全部資料,并予以歸類,發現兩組材料特征完全不同,僅《封神演義》將此二者混同,由此可得結論:“樂羊子”非“樂羊”,此“子”為姓名一部分,非男子尊稱。
更重要的是,因為古今各類工具書的大量數字化,如《漢語大辭典》、《漢典》的網絡版,《瀚堂典藏》數據庫(原稱《龍語翰堂》)中對中國傳統小學工具及古代類書的數字化,以及百度知道、新浪愛問、雅虎知識堂、天涯問答等網絡工具書的發展,許多考證問題也成為省時省力的技術性操作。比如研究生初讀《續資治通鑒長編》卷一的史料,利用網絡工具書可以做簡單考證,以利于理解古文:
丁巳,命宗正少卿郭玘祀周廟及嵩、慶二陵,因詔有司以時朝拜,著于令。(玘,未見。)
【有司: 指官吏。古代設官分職,各有專司,故稱有司。例:《史記·廉頗藺相如列傳》:召有司案圖。諸葛亮《出師表》:宜付有司論其刑賞。王安石《答司馬諫議書》:授之于有司。】
【著zhù ◎ 顯明,顯出:~名。~稱。顯~。昭~。卓~。◎ 寫文章,寫書:~述。編~。~書立說。◎ 寫作出來的書或文章:名~。巨~。遺~。譯~。~作。◎ 古同“貯”,居積。】
目前,已經出現古籍校勘智能化的趨勢,如書同文公司開發了“校得快、校得準、校得精”軟件,另有公司開發了黑馬校對系統。北京國學時代文化傳播公司開發的古籍自動比對技術,更有助于古籍考證。以兩個數字化版本的比對重新標點《文淵閣本二十四史》,現將《宋史》第一九九卷《刑法志》中,具有明顯不同之處擇要舉例如下:
GX:禁于已然之謂敕禁于未然之謂令設于此以待彼之謂格使彼效之之
BZ:=≈★=====≈★=====≈============
DB:禁於未然之謂敕禁於已然之謂令設於此以待彼之謂格使彼效之之
GX:劉一止言法令具在吏猶得以為奸今一切用其所省記欺蔽何所不至
BZ:==★====================★====
DB:劉一正言法令具在吏猶得以為奸今一切用其所省記欺敝何所不至
GX:日小事五日三年詔御史臺鞫徒以上罪獄具令尚書丞郎兩省給舍以
BZ:======================★=====
DB:日小事五日三年詔御史臺鞫徒以上罪獄具令尚書丞即兩省給舍以
GX:日乃候進止裁處輕重必當其罪咸平四年從黃州守王禹偁之請諸路
BZ:===============★============
DB:日乃候進止裁處輕重必當其罪咸平元年從黃州守王禹偁之請諸路
GX:改法詔以強盜計贓應絞者并增一倍贓滿不傷人及雖傷人而情輕者
BZ:============★===============
DB:改法詔以強盜計贓應絞者并減一倍贓滿不傷人及雖傷人而情輕者
GX:捕系罷其職奉元豐二年成都府利路鈐轄言往時川峽絹匹為錢二千
BZ:=====================★======
DB:捕系罷其職奉元豐二年成都府利路鈐轄言往時川陜絹匹為錢二千
考證以上不同,唐律中勅為刑法,追溯以往,當為“禁于已然”;《宋史》中有《劉一止傳》,劉一正為誤;《續資治通鑒長編》卷四三咸平元年十二月甲寅載:“(刑部郎中、知制誥王禹偁)落職知黃州”,因而當為咸平元年。
此外,人民出版社的“金典引文比對系統”,也可以校證引用馬恩列斯毛語錄是否正確。
隨著古籍數字化的發展,甚至可能實現電子標點古籍。現在國學公司利用多年積累而成的句型庫、語法庫、參考文本庫,已經實施電腦重新點校二十四史。李鐸先生提出的讓計算機自主學習而標點《四庫全書》的設想,在將來是有實現可能的。
在數字化時代,臺灣新竹清華大學黃一農教授所著《兩頭蛇》一書充分利用網絡文獻和數字化古籍來考察明末清初的第一代天主教徒,所利用資料多達1099種,進而提出“e考據”的概念,認為“我們有機會在很短時間內就掌握前人未曾寓目的材料,并填補探索歷史細節時的許多隙縫,或透過邏輯推理的布局,迅速論斷先前待考的疑惑或者矛盾。事實上,一個有機會孕育‘e-考據學派’的時代或已出現。”
六、觀點理論化
在數字化時代,數據庫檢索將原來花費精力的史料搜集工作變為技術性操作,對于專業研究者,還是業余愛好者,這種檢索都很容易完成。這就使得一些題目的學術價值相對降低了,如傳統的“尋章摘句”的乾嘉學派考據式的研究就在此中之列。如一則民間故事所言:乾隆南游經順德府與高僧對話:“常念佛經,上面有幾句阿彌陀佛?”老僧反問:“熟讀四書,上面有幾個子曰?”這樣的問題在今天已經難以稱為學術。只有由于這種考據式的研究在思維方面的省力性特點,在當前研究中的實用性思想的主導下,仍然有大量這方面的選題。
在史料搜集便捷化的趨勢下,研究者的精力當然要投入到更深層次的理論層面。劉家和在《<崔述與中國學術史研究>序》中說道:“記得從前有一位學術前輩說過:‘上窮碧落下黃泉,動乎動腳找材料。這已很不容易,而現在是要‘上窮碧落下黃泉,以求有所新發現’,這就更難上加難了。”[⑨]
在數字化時代,史學研究應更追求理論化思維。本文以兩個方面為例:一是數據庫的檢索功能,其查詢結果實質也實現了統計功能,可以促進量化式研究的新進展,從而為計量史學提供新的應用。二是在數據庫中檢索,其關鍵詞很容易建立相互間聯系,關系網絡式研究的理論也會得到新發展。
在前數字化時代,很多統計只能憑籍感性認識,如明人孔尚任講中國古代詩歌與季節的關系:“秋之氣高潔爽朗,合于詩人之致,于秋得其五,于春得其三,于夏冬僅得其一二。”這種說法完全建立在作者感性認識之上,而缺少數據統計支持。現在有學者如羅鳳珠先生利用數據庫對“詩詞中的四季與景物”進行了精確統計:[⑩]
根據羅先生統計,《唐宋詞》中以春天為主題的約占70%,以秋天為主題的約占28%,而以夏、冬為主題的各約占1%。而《全唐詩》以春天為主題的約占53%,以秋天為主題的約占39%,而以夏為主題的約占5%,而以冬為主題的約占3%。《宋名家詩》以春天為主題的約占54%,以秋天為主題的約占37%,而以夏、冬為主題的各約占4.5%。證明中國古代詩人題詠,春季的體裁實多于秋季,而夏季和冬季的體裁比例更少,這種統計數據是更有說服力的。
但是這種數字統計之后,還要進行理論分析,否則只能描述現象,而不能給出歷史原因。筆者研究宋代詞人筆下的“鏡”意象,檢索得知,吳文英使用58次,賀鑄使用28次,陳允平使用19次,晏幾道使用18次,陸游使用16次,辛棄疾使用16次,周密使用16次,吳潛使用12次,李曾伯使用12次,劉辰翁使用10次,秦觀使用9次,周邦彥使用7次,蘇軾使用4次,姜夔使用3次。但是何原因,使不同作者對“鏡”意象的使用出現這樣的偏差,則還需進一步理論分析。
袁林先生曾用模糊數學中的模糊聚類分析和模糊相似優先比分析方法,對數據庫檢索進行分析,提出前資本主義社會主要的被剝削被壓迫階級中有一些游離于斯大林定義的奴隸和農奴之外,并不能為這兩個概念所涵蓋。[11]北京大學李鐸先生研發的《全唐詩& 全宋詩分析系統》,以智能“分析”替代全文“檢索”,在數據深層挖掘和知識發現方面具有開創性意義。將《全唐詩》57000多首,《全宋詩》254240首作為檢索對象,可以直接完成重出詩提取、格律詩標注、字、詞組和詩歌格律的頻率分布統計等人力無法完成的課題。
古籍數據庫的使用可以促進“群體傳記”等關系網絡類研究。群體傳記學(Prosophgraphy)興起于20世紀二三十年代對歐洲歷史的研究,它是指“通過對一群人物生平的集體性研究,來探討他們共同的背景特征”,其采用的方法是:
先建立一個研究范圍,然后詢問一組系統的問題:關于出生與死亡、婚姻與家庭、社會出身與其所繼承的經濟地位、居住地、教育、個人財富的數量與來源、職業、宗教、仕歷等等。之后將這一范圍內所有個人的各種信息對比、組合,并探析其重要的變量。研究者會分析這些信息的內在相關性,及它們與其它類型的行為與活動的相關性。[12]
英國學者郝若貝教授《750至1550年間中國的人口、政治和社會轉型》一文是“群體傳記”典型成果,文章提出:宋初的統治集團,是一群所謂的開國功臣;到10世紀末,統治人群便被一群職業官僚所替代;而到了11世紀晚期,這群人又被所謂的地方精英所取代。[13]現在哈佛大學與北京大學等單位建設的《中國古代人物傳記資料庫》(CBDB)就尤為注重輸入人物的各種關系,從而為深入研究提供數據支持,可以實現學者的相關設想:“以某一作家的生平家世為焦點,可以迅速排列比較同時代和異時代的多個、甚至多組作家的類似背景資料,從而發現其中各種關聯和變化的脈絡。”[14]
七、思維雙向化
古籍數字化時代,不僅為研究者提供了前所未有的史料檢索的方便,更重要的是,還可以促進了學者群體的思維轉化。
首先,數字化時代的學者可以實現從“一意求之”到“無意求之”的選題轉變。人類習慣于直線式思考,是以A→B→C→D→E的順序依次排下去的邏輯,我們通常會順著這些線條來收集史料,沿著線條進行思考。蘇東坡在《又答王庠書》里說:“書富如海,百貨皆有。人之精力,不能兼收盡取,但得其所欲求者爾。故愿學者每次作一意求之。如欲求古今興亡治亂,圣賢作用,但作此意求之,勿生余念。又別作一次,求事跡故實;典章文物之類,亦如此。他皆仿之。”這種“一意求之”讀書法實際上也是集中精力的研究路徑:“每當我們將零星的斷片(即史料)按照一定規則重新排列、組合以后,都會有一種豁然開朗的感覺,因為我們從中發現了那些資料在原有脈絡之中難以解讀出的字面之外的第二甚至第三重含義,以及它們之間的各種內在關聯,我們對這些含義和關聯作進一步的分析或綜合,往往會有新的發現和解讀,這就是人文學術研究的一般過程。”[15]
演繹思維要求從客觀實際出發,搜集大量的事實材料,將此作為出發點(起點),然后遵循傳統的邏輯規則,沿著歸一的或單一的方向進行嚴謹周密的推理論證,進行分析、綜合、抽象、概括,揭示客觀事物的本質及其規律性,必須一環扣一環地展開研究,特別重視因果鏈條,要求實事求是,不允許用聯想和想象代替推理和論證,更不允許出現跳躍。
在數字化時代,學者對所遇問題沒有研究也可以試著檢索,從而實現“無意求之”的改變。數字化時代的史學研究,有的問題可以邊研究邊查史料,王曾瑜先生寫 《宋朝兵制初探》時,還沒有古籍數據庫,但對史料分布有深入,也是一邊寫一邊找材料,成為宋代軍事史研究的重要參考著作。而在數字化時代,使用模糊查詢或漸進式查詢,更有可能如此進行研究。更重要的是,以前學者多將精力耗費于史料搜集工作,對于一個問題的諸多答案、辦法和方案中,只能選擇一個最好的。而“無意求之”,則可以在研究中多思路地進行思考,不斷探索其他的可能性,從內心深處把齒輪從單數變成復數,從而把自己從一個問題的解決者轉變為一個問題們的解決者,或稱為多問題的解決者。
“無意求之”的研究路徑,使學術研究在進行分析之前,可以先進行假設,“以果為始”,以最終的結果作為思考的開始,以最初需要的數據或者信息為這個循環思維的終點。在思考一個重要問題,或者做出重要結論前,先確定真正的問題,思索一下所有的相關因素,進行清理。然后針對重點提出假設,并明確支持或者推翻假設需要的數據,然后明確目的地,收集數據。這種“假設-檢驗”的思維模型,使胡適先生講的“大膽設想,小心求證”[16]成為可能。
演繹思維與以果為始思維各有缺點,前者因為依托邏輯,只是沿著一條固定的思路走下去,容易使我們的思考受拘泥、被定型、局限住;后者往往主題先行,即先有題目再去論證,容易造成偽命題的出現。但是在數字化時代,可以兼用兩種思維,相向思考,勢必大于裨益于學術創新。
尾 語
數字化時代的另一面是網絡的迅速發展,網絡的無與倫比的交互性發展,現在已在很大程度上取代傳統的論著索引工具書,而成為發布學術成果的主要途徑。?? 這體現在兩個方面,一是研究動態近期化,要求對研究問題進行的學術史回顧到最近時期;二是研究情報多樣化,除了論著之外,學術會議、學位論文、調研報告、講演發言、網絡博客等非正式成果也可列入參考文獻。中國學術期刊全文數據庫是國內較通用的全文庫。超星電子圖書館為目前世界最大的中文在線數字圖書館。萬方數據是國內第一家以信息服務為核心的股份制高新技術企業。隨著各類研究成果的發展,窮盡相關研究參考文獻也成為可能,學術創新的難度也相應提高,有的問題可能進入微創新時代。
2000年1月美國公布了《高等教育信息素養(informationLiteracy)能力標準》,確定了一個具備信息素養的人應達到的目標是:“確定所需信息的范圍;有效地獲取所需的信息;鑒別信息及其來源;將檢索出的信息融入自己的知識基礎;有效地利用信息去完成一個具體任務。”在數字化時代,學會利用數據庫和學術信息搜索都成為研究生必備的研究素養。
當然,數字化時代對學術研究也會帶來負面影響,一是會有“以檢索代替研究”、技術偽裝學問的詬病。[17]二是只重史料,而不愿理論思考,從而實質上重復前人的研究成果,漆俠先生認為這樣的研究終為轅下之駒,這是我們應該避免的。
注釋:
[①] 王文濤:《怎樣利用數字資料研究中國古代史》,《歷史教學(下半月刊)》2003年第5期。
[②] 王曾瑜:《治遼宋金史雜談》,《纖微編》,河北大學出版社,2011年版,第24頁。
[③] 張三夕:《中國古典文獻學》,華中師范大學出版社,2007年第2版。
[④] 楊琳:《古典文獻及其利用》,北京大學出版社,2010 增訂本。
[⑤] 轉引自吳夏平:《古籍數字化與文獻利用》,尹小林主編《第一屆中國古籍數字化國際學術會議文集》,北京:五洲傳播出版社,2009年版。
[⑥] 王曾瑜:《治遼宋金史雜談》,《纖微編》,河北大學出版社,2011年版,第24~25頁。
[⑦] 汪圣鐸:《兩宋貨幣史料匯編·編后語》,中華書局,2004年版。
[⑧] 李華瑞:《近三十年來國內宋史研究方向博士學位論文選題取向分析與思考》歷史教學(下半月刊),2009 年第6期。
[⑨] 邵東方:《崔述與中國學術史研究》,人民出版社,1998年版。
[⑩] 2009年8月18——20日“第二屆中國古籍數字化國際學術研討會提交論文”(北京)會上發言。
[11] 袁林:《中國古代奴婢性質問題的模糊數學分析》,《河北師院學報》1993年第3期。
[12] Lawrence Stone, “Prosopography”, Daedalus 100.1 (1971), p 46.
[13] Robert M. Hartwell, “Demographic, Political and Social Transformations of China, 750-1550”, Harvard Journal of Asiatic Studies, December 1982, pp. 405-416.
[14] 李鐸、王毅:《數據分析時代與古典文學研究的開放性空間——兼就信息化工程與古典文學研究之間的互動問題答質疑者》,《中國文化研究》2006年第2期。
[15] 史睿:《試論中國古籍數字化與人文學術研究》,《國家圖書館學刊》1999年第2期。
[16] 胡適:《清代學者的治學方法》,歐陽哲生編:《胡適文集》第二冊,北京大學出版社,1998年版,第285、302頁。
[17] 吳夏平:《古籍數字化與學術異化》,2011年8月16—18日“第三屆中國古籍數字化國際學術研討會提交論文”(北京)提交文章。
(作者單位:河北大學 宋史研究中心暨歷史學院,河北 保定 071002 )