中文古籍的數字化,近幾年發展迅猛,種類之多,數量之大,功能之強,都出乎我們的意料。古籍的數字化,不僅可以給我們提供強大的檢索功能,還可以幫助我們發現問題。數字化古籍,怎么能夠發現問題呢?我舉兩個例子。
一是《全宋詞》中,有許多互見詞,也就是一首詞被收錄在不同作者名下,由于史料的缺乏,有的難以判斷這些互見詞的真正作者。為慎重起見,我的老師唐圭璋先生在編《全宋詞》時,根據相關文獻,把這些互見的同一首詞編列于不同作者的名下。唐先生生前,曾經耗費大量的精力,做過《宋詞互見考》,能斷是非的就作判斷,不能斷是非的就存疑。我原以為唐先生已經將這一工作窮盡了。前幾年一次偶然的機會,卻發現《全宋詞》中還有些互見詞,老師并未發現。那是我要統計《全宋詞》中相互唱和的詞作,請一個朋友幫我設計一個軟件,將《全宋詞》中用韻相同或相近的詞作全部列出目錄。他用了四個小時,在《全宋詞》數據庫里加寫了一個程序,經計算機自動運算處理,最終用Excel幫我列出了我所需要的相關資料和數據。如果讓我手工在計算機上查詢2萬多首詞哪些是屬于唱和次韻之作,恐怕沒有一年半載的時間難以做到,他卻只花了一個晚上的時間就幫我搞定了。這使我相信,古籍的數字化,只有我們想不到的,沒有做不到的。我們利用古籍做研究的人,需要數字化古籍庫提供什么功能,都應該可以解決。我在統計結果時,意外地發現,有許多用韻完全相同的詞,有的屬于同一首詞,而見于不同作者名下,即屬互見詞。其中不少互見詞,我的老師沒能發現。這并不是我比老師高明,而是電腦可以窮盡式地處理資料數據,而手工和記憶,畢竟會有遺漏。不是這個數據庫,我既不可能準確地統計出《全宋詞》中唱和詞的情況,也無法發現《全宋詞》中還有一些互見詞有待考定。這是數字化古籍幫我發現的第一個問題。
第二個問題是,前年我做《全明詞》和《全清詞》研究。由于明清之際的詞人,時代的劃分不易處理,屬明屬清,都有道理。于是,有的詞人,這兩本書都予收錄。為了弄清楚這兩本書究竟收錄了哪些共同的詞人和詞作,我讓門下研究生做了一個數據庫,將這兩本書所收錄的詞人、詞作和收錄的來源文獻,用Excel做了一個表格。結果意外地發現,同一位詞人,兩本書收錄的作品數量、篇目并不一樣,有的甚至相差二、三百篇。這主要是因為兩本書依據的文獻不一樣。利用這個數據庫,我寫了一系列的《全明詞》和《全清詞》的研究論文,其中發現并指出了《全清詞》應收而未收的詞作有1600首之多。如果用人工比對,而不用數據庫處理,花的時間多不說,也難以一一發現這些問題。
由此,我想到,未來數字化古籍,應該具有哪些功能才是最理想的?我以為,最好應具備三大功能,以適應專業研究者的需求。
一、智能化的檢索功能
目前已經問世的大型數字化古籍,基本上都有全文檢索功能,似乎不必再饒舌。但目前全文檢索的功能相對單一,還不能滿足專業研究者的多元需求。因為,這些全文檢索,只能是關鍵詞的檢索,不論是單詞檢索,還是組合檢索,檢索一次,都只能檢索到與輸入的詞語嚴格匹配的資料,而不能檢索到不含輸入的詞匯而實際相關的資料。比如,在《四庫全書》電子版中檢索“蘇軾”的資料,只能檢索到包含有“蘇軾”二字的資料,卻不能檢索到不含“蘇軾”二字、卻含有“東坡”、“子瞻”、“大蘇”、“蘇徐州”、“蘇黃”等與蘇軾有關的資料,因為《四庫全書》電子版不能自動識別“東坡”、“子瞻”、“大蘇”、“蘇徐州”等就是蘇軾。也就是說,數字化古籍目前只能固定檢索海量數據,而不能智能化地檢索和生成新的數據。因為不能智能化檢索,所以,我們無法窮盡古籍文獻里的資料。如果說,用關鍵詞檢索人物資料,通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的話,那么,查找相關主題的資料,就更加困難了。比如說,我想查《四庫全書》中有關文學傳播的資料,但是古人并不常用“傳播”這個概念,如果用“傳播”作為關鍵詞,就無法查到《四庫全書》中蘊藏的大量的傳播資料。
要實現智能化的檢索,數字化古籍必須能自動識別我們所需要的與關鍵詞相關的資料。比如上面說過的,檢索“蘇軾”,數字化古籍能自動識別“東坡”、“子瞻、“大蘇”、“蘇徐州”也與蘇軾有關。檢索“李白”的資料,數字化古籍能自動識別“太白”、“謫仙”、“詩仙”等與李白相關的資料。檢索杜甫的資料,數字化古籍能自動識別“杜子美”、“杜二”、“杜少陵”、“杜工部”、“詩圣”等與杜甫相關的資料。檢索“傳播”等主題資料,又能自動識別哪些資料與傳播相關。
今后數字化古籍,如果能由單一檢索變為多元檢索、由定向檢索變為關聯檢索、由靜態檢索變為動態檢索,那就更好了。簡單地說,就是實現檢索的智能化。我們在數字化古籍中,輸入一個關鍵詞后,不僅能檢索到與關鍵詞匹配的資料,也能檢索到與關鍵詞關聯的資料,還可以動態地生成相關資料和數據。
我想,在數字化古籍里,根據不同研究者的需要,附加不同的參數,應該是可以解決這個問題的。只是人們的需求有不同,數字化古籍不可能完全滿足使用者千差萬別的需要。可以考慮,讓數字化古籍變成一個動態的開放式的數據庫,而不是一個封閉的凝固的系統。讓使用者根據自己的需要,增加相關條件后,就可以動態地智能化地檢索。
二、自動化的統計功能
定量分析,今后可能是古代文學研究中常用的一種手段和方法。定量分析,需要大量的統計數據。如果數字化古籍能實現這個功能,那就更為便利。比如,我想在《國學寶典》里統計歷代評論李白和杜甫的數據,從一個角度比較說明,歷史上是李白更受推崇還是杜甫更受尊敬?目前的《國學寶典》,我不知道能不能做到。因為,在《國學寶典》里,即使我們從不同的角度用不同的組合方式查到所有李白和杜甫的資料,但《國學寶典》不能自動識別哪些是評論資料,哪些是記載生平的歷史資料,更無法識別資料中對李杜的評價是褒還是貶,是揚還是抑。所以無法自動統計和生成我們所需要的評論數據。
再比如,我想統計唐詩在歷代文獻中入選和被稱引或被評點的資料。這個數據,也比較復雜。原因是,有些詩歌,在題下署了作者的名字,有的沒署。沒署名怎么自動識別是哪位作者的?即使署了名,有的署名,有的署字,有的署別號,又怎樣自動識別哪些名、字、號是同一位詩人?有的僅征引了詩中的一句或幾句,又怎樣自動識別這幾句是哪位詩人的哪一首詩?體裁上,怎樣自動識別是古體還是近體,是七律還是五律?
我目前做的唐詩數據庫,是將歷代唐詩選本一一錄入,設置一些項目,如詩題、作者、文獻來源、體裁等等。然后再分類統計。有沒有可能,利用現有的大型數字化古籍,加上一些識別的條件,讓它自動識別和生成我所需要的數據呢?技術上也許是可能的。我的這個數據庫,目前只含近百種古今唐詩選本,遠遠沒有窮盡古今所有的唐詩選本,更沒有包含類書和相關典籍諸如詩話、筆記、別集、小說中的唐詩資料。
數字化古籍,統計字頻比較容易,《國學》網上已公布了《國學寶典》中單字字頻的數據。雖然詞頻統計相對復雜和困難,但已經獲得了解決。如果能夠根據研究者不同的需要,數字化古籍能自動統計各種數據,那該多么令人神往!
三、多元化的對比功能
有比較才有鑒別,有比較才有發現。科學研究是從發現問題開始的。數字化古籍的對比功能,用于古籍整理和研究最有優勢。數字化古籍可進行哪些項目的對比呢?
1.版本對比
在超大型數字化古籍庫中,可以考慮同時收錄同一古籍文獻的多種版本。將不同版本的文本進行對比,以發現文字的異同,自動進行校勘。
2.作者對比
古籍文獻中,常有同一作品歸屬不同作者的情況。將所有文獻記載的作品分別進行對比,考察其作品歸屬的異同,以便考訂作者的歸屬和作品的真偽。
3.數量對比
同一古籍,因版本不同,收錄的作品有多寡。經過對比,可以鑒別哪些版本收錄作品比較完善齊全,哪些版本有遺漏脫缺。這既可以將別集的不同版本進行對比,也可以將總集進行對比。
同一類型的不同選本,入選的作者和作品都有差異。比如詩選和詞選,可以對比它們入選作者、篇目、數量的差異,從中可以發現編選者不同的審美取向和選擇宗旨,也可以研究每位詩人詞人在不同時期的影響力和認同度的變化。
4.類型對比
將不同作者、不同文獻記載的同一體裁類型的作品進行對比,以發現某一體裁、文體的形成、發展和演變。比如在詞學研究中,可以將同一詞調的全部作品進行對比,考察這一詞調句式、用韻、平仄的異同及其變化。在詩學研究中,特別是唐詩的研究中,可以將唐代的近體詩進行對比,以考察近體詩的特點、定型過程及變化規律。
不同的需要,有不同的對比。比如,要考證一則史料的來源,可以將所有文獻記載的這則史實進行對比,以考察其原始出處和后續記載的變異。
不同的目的,也有不同的對比。可以是相似性的對比或關聯性的對比,也可以是差異性的對比。
如果一個超大型數字化古籍庫,能將同一類型的古籍或不同版本的古籍盡可能收錄,就可能具有對比功能。
以上僅僅是我個人的一點期待。謬誤之處,敬請指教。
【作者單位】武漢大學 |