中文古籍的數(shù)字化,近幾年發(fā)展迅猛,種類之多,數(shù)量之大,功能之強(qiáng),都出乎我們的意料。古籍的數(shù)字化,不僅可以給我們提供強(qiáng)大的檢索功能,還可以幫助我們發(fā)現(xiàn)問題。數(shù)字化古籍,怎么能夠發(fā)現(xiàn)問題呢?我舉兩個(gè)例子。
一是《全宋詞》中,有許多互見詞,也就是一首詞被收錄在不同作者名下,由于史料的缺乏,有的難以判斷這些互見詞的真正作者。為慎重起見,我的老師唐圭璋先生在編《全宋詞》時(shí),根據(jù)相關(guān)文獻(xiàn),把這些互見的同一首詞編列于不同作者的名下。唐先生生前,曾經(jīng)耗費(fèi)大量的精力,做過《宋詞互見考》,能斷是非的就作判斷,不能斷是非的就存疑。我原以為唐先生已經(jīng)將這一工作窮盡了。前幾年一次偶然的機(jī)會(huì),卻發(fā)現(xiàn)《全宋詞》中還有些互見詞,老師并未發(fā)現(xiàn)。那是我要統(tǒng)計(jì)《全宋詞》中相互唱和的詞作,請(qǐng)一個(gè)朋友幫我設(shè)計(jì)一個(gè)軟件,將《全宋詞》中用韻相同或相近的詞作全部列出目錄。他用了四個(gè)小時(shí),在《全宋詞》數(shù)據(jù)庫(kù)里加寫了一個(gè)程序,經(jīng)計(jì)算機(jī)自動(dòng)運(yùn)算處理,最終用Excel幫我列出了我所需要的相關(guān)資料和數(shù)據(jù)。如果讓我手工在計(jì)算機(jī)上查詢2萬多首詞哪些是屬于唱和次韻之作,恐怕沒有一年半載的時(shí)間難以做到,他卻只花了一個(gè)晚上的時(shí)間就幫我搞定了。這使我相信,古籍的數(shù)字化,只有我們想不到的,沒有做不到的。我們利用古籍做研究的人,需要數(shù)字化古籍庫(kù)提供什么功能,都應(yīng)該可以解決。我在統(tǒng)計(jì)結(jié)果時(shí),意外地發(fā)現(xiàn),有許多用韻完全相同的詞,有的屬于同一首詞,而見于不同作者名下,即屬互見詞。其中不少互見詞,我的老師沒能發(fā)現(xiàn)。這并不是我比老師高明,而是電腦可以窮盡式地處理資料數(shù)據(jù),而手工和記憶,畢竟會(huì)有遺漏。不是這個(gè)數(shù)據(jù)庫(kù),我既不可能準(zhǔn)確地統(tǒng)計(jì)出《全宋詞》中唱和詞的情況,也無法發(fā)現(xiàn)《全宋詞》中還有一些互見詞有待考定。這是數(shù)字化古籍幫我發(fā)現(xiàn)的第一個(gè)問題。
第二個(gè)問題是,前年我做《全明詞》和《全清詞》研究。由于明清之際的詞人,時(shí)代的劃分不易處理,屬明屬清,都有道理。于是,有的詞人,這兩本書都予收錄。為了弄清楚這兩本書究竟收錄了哪些共同的詞人和詞作,我讓門下研究生做了一個(gè)數(shù)據(jù)庫(kù),將這兩本書所收錄的詞人、詞作和收錄的來源文獻(xiàn),用Excel做了一個(gè)表格。結(jié)果意外地發(fā)現(xiàn),同一位詞人,兩本書收錄的作品數(shù)量、篇目并不一樣,有的甚至相差二、三百篇。這主要是因?yàn)閮杀緯罁?jù)的文獻(xiàn)不一樣。利用這個(gè)數(shù)據(jù)庫(kù),我寫了一系列的《全明詞》和《全清詞》的研究論文,其中發(fā)現(xiàn)并指出了《全清詞》應(yīng)收而未收的詞作有1600首之多。如果用人工比對(duì),而不用數(shù)據(jù)庫(kù)處理,花的時(shí)間多不說,也難以一一發(fā)現(xiàn)這些問題。
由此,我想到,未來數(shù)字化古籍,應(yīng)該具有哪些功能才是最理想的?我以為,最好應(yīng)具備三大功能,以適應(yīng)專業(yè)研究者的需求。
一、智能化的檢索功能
目前已經(jīng)問世的大型數(shù)字化古籍,基本上都有全文檢索功能,似乎不必再饒舌。但目前全文檢索的功能相對(duì)單一,還不能滿足專業(yè)研究者的多元需求。因?yàn)椋@些全文檢索,只能是關(guān)鍵詞的檢索,不論是單詞檢索,還是組合檢索,檢索一次,都只能檢索到與輸入的詞語(yǔ)嚴(yán)格匹配的資料,而不能檢索到不含輸入的詞匯而實(shí)際相關(guān)的資料。比如,在《四庫(kù)全書》電子版中檢索“蘇軾”的資料,只能檢索到包含有“蘇軾”二字的資料,卻不能檢索到不含“蘇軾”二字、卻含有“東坡”、“子瞻”、“大蘇”、“蘇徐州”、“蘇黃”等與蘇軾有關(guān)的資料,因?yàn)椤端膸?kù)全書》電子版不能自動(dòng)識(shí)別“東坡”、“子瞻”、“大蘇”、“蘇徐州”等就是蘇軾。也就是說,數(shù)字化古籍目前只能固定檢索海量數(shù)據(jù),而不能智能化地檢索和生成新的數(shù)據(jù)。因?yàn)椴荒苤悄芑瘷z索,所以,我們無法窮盡古籍文獻(xiàn)里的資料。如果說,用關(guān)鍵詞檢索人物資料,通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的話,那么,查找相關(guān)主題的資料,就更加困難了。比如說,我想查《四庫(kù)全書》中有關(guān)文學(xué)傳播的資料,但是古人并不常用“傳播”這個(gè)概念,如果用“傳播”作為關(guān)鍵詞,就無法查到《四庫(kù)全書》中蘊(yùn)藏的大量的傳播資料。
要實(shí)現(xiàn)智能化的檢索,數(shù)字化古籍必須能自動(dòng)識(shí)別我們所需要的與關(guān)鍵詞相關(guān)的資料。比如上面說過的,檢索“蘇軾”,數(shù)字化古籍能自動(dòng)識(shí)別“東坡”、“子瞻、“大蘇”、“蘇徐州”也與蘇軾有關(guān)。檢索“李白”的資料,數(shù)字化古籍能自動(dòng)識(shí)別“太白”、“謫仙”、“詩(shī)仙”等與李白相關(guān)的資料。檢索杜甫的資料,數(shù)字化古籍能自動(dòng)識(shí)別“杜子美”、“杜二”、“杜少陵”、“杜工部”、“詩(shī)圣”等與杜甫相關(guān)的資料。檢索“傳播”等主題資料,又能自動(dòng)識(shí)別哪些資料與傳播相關(guān)。
今后數(shù)字化古籍,如果能由單一檢索變?yōu)槎嘣獧z索、由定向檢索變?yōu)殛P(guān)聯(lián)檢索、由靜態(tài)檢索變?yōu)閯?dòng)態(tài)檢索,那就更好了。簡(jiǎn)單地說,就是實(shí)現(xiàn)檢索的智能化。我們?cè)跀?shù)字化古籍中,輸入一個(gè)關(guān)鍵詞后,不僅能檢索到與關(guān)鍵詞匹配的資料,也能檢索到與關(guān)鍵詞關(guān)聯(lián)的資料,還可以動(dòng)態(tài)地生成相關(guān)資料和數(shù)據(jù)。
我想,在數(shù)字化古籍里,根據(jù)不同研究者的需要,附加不同的參數(shù),應(yīng)該是可以解決這個(gè)問題的。只是人們的需求有不同,數(shù)字化古籍不可能完全滿足使用者千差萬別的需要。可以考慮,讓數(shù)字化古籍變成一個(gè)動(dòng)態(tài)的開放式的數(shù)據(jù)庫(kù),而不是一個(gè)封閉的凝固的系統(tǒng)。讓使用者根據(jù)自己的需要,增加相關(guān)條件后,就可以動(dòng)態(tài)地智能化地檢索。
二、自動(dòng)化的統(tǒng)計(jì)功能
定量分析,今后可能是古代文學(xué)研究中常用的一種手段和方法。定量分析,需要大量的統(tǒng)計(jì)數(shù)據(jù)。如果數(shù)字化古籍能實(shí)現(xiàn)這個(gè)功能,那就更為便利。比如,我想在《國(guó)學(xué)寶典》里統(tǒng)計(jì)歷代評(píng)論李白和杜甫的數(shù)據(jù),從一個(gè)角度比較說明,歷史上是李白更受推崇還是杜甫更受尊敬?目前的《國(guó)學(xué)寶典》,我不知道能不能做到。因?yàn)椋凇秶?guó)學(xué)寶典》里,即使我們從不同的角度用不同的組合方式查到所有李白和杜甫的資料,但《國(guó)學(xué)寶典》不能自動(dòng)識(shí)別哪些是評(píng)論資料,哪些是記載生平的歷史資料,更無法識(shí)別資料中對(duì)李杜的評(píng)價(jià)是褒還是貶,是揚(yáng)還是抑。所以無法自動(dòng)統(tǒng)計(jì)和生成我們所需要的評(píng)論數(shù)據(jù)。
再比如,我想統(tǒng)計(jì)唐詩(shī)在歷代文獻(xiàn)中入選和被稱引或被評(píng)點(diǎn)的資料。這個(gè)數(shù)據(jù),也比較復(fù)雜。原因是,有些詩(shī)歌,在題下署了作者的名字,有的沒署。沒署名怎么自動(dòng)識(shí)別是哪位作者的?即使署了名,有的署名,有的署字,有的署別號(hào),又怎樣自動(dòng)識(shí)別哪些名、字、號(hào)是同一位詩(shī)人?有的僅征引了詩(shī)中的一句或幾句,又怎樣自動(dòng)識(shí)別這幾句是哪位詩(shī)人的哪一首詩(shī)?體裁上,怎樣自動(dòng)識(shí)別是古體還是近體,是七律還是五律?
我目前做的唐詩(shī)數(shù)據(jù)庫(kù),是將歷代唐詩(shī)選本一一錄入,設(shè)置一些項(xiàng)目,如詩(shī)題、作者、文獻(xiàn)來源、體裁等等。然后再分類統(tǒng)計(jì)。有沒有可能,利用現(xiàn)有的大型數(shù)字化古籍,加上一些識(shí)別的條件,讓它自動(dòng)識(shí)別和生成我所需要的數(shù)據(jù)呢?技術(shù)上也許是可能的。我的這個(gè)數(shù)據(jù)庫(kù),目前只含近百種古今唐詩(shī)選本,遠(yuǎn)遠(yuǎn)沒有窮盡古今所有的唐詩(shī)選本,更沒有包含類書和相關(guān)典籍諸如詩(shī)話、筆記、別集、小說中的唐詩(shī)資料。
數(shù)字化古籍,統(tǒng)計(jì)字頻比較容易,《國(guó)學(xué)》網(wǎng)上已公布了《國(guó)學(xué)寶典》中單字字頻的數(shù)據(jù)。雖然詞頻統(tǒng)計(jì)相對(duì)復(fù)雜和困難,但已經(jīng)獲得了解決。如果能夠根據(jù)研究者不同的需要,數(shù)字化古籍能自動(dòng)統(tǒng)計(jì)各種數(shù)據(jù),那該多么令人神往!
三、多元化的對(duì)比功能
有比較才有鑒別,有比較才有發(fā)現(xiàn)。科學(xué)研究是從發(fā)現(xiàn)問題開始的。數(shù)字化古籍的對(duì)比功能,用于古籍整理和研究最有優(yōu)勢(shì)。數(shù)字化古籍可進(jìn)行哪些項(xiàng)目的對(duì)比呢?
1.版本對(duì)比
在超大型數(shù)字化古籍庫(kù)中,可以考慮同時(shí)收錄同一古籍文獻(xiàn)的多種版本。將不同版本的文本進(jìn)行對(duì)比,以發(fā)現(xiàn)文字的異同,自動(dòng)進(jìn)行校勘。
2.作者對(duì)比
古籍文獻(xiàn)中,常有同一作品歸屬不同作者的情況。將所有文獻(xiàn)記載的作品分別進(jìn)行對(duì)比,考察其作品歸屬的異同,以便考訂作者的歸屬和作品的真?zhèn)巍?/p>
3.?dāng)?shù)量對(duì)比
同一古籍,因版本不同,收錄的作品有多寡。經(jīng)過對(duì)比,可以鑒別哪些版本收錄作品比較完善齊全,哪些版本有遺漏脫缺。這既可以將別集的不同版本進(jìn)行對(duì)比,也可以將總集進(jìn)行對(duì)比。
同一類型的不同選本,入選的作者和作品都有差異。比如詩(shī)選和詞選,可以對(duì)比它們?nèi)脒x作者、篇目、數(shù)量的差異,從中可以發(fā)現(xiàn)編選者不同的審美取向和選擇宗旨,也可以研究每位詩(shī)人詞人在不同時(shí)期的影響力和認(rèn)同度的變化。
4.類型對(duì)比
將不同作者、不同文獻(xiàn)記載的同一體裁類型的作品進(jìn)行對(duì)比,以發(fā)現(xiàn)某一體裁、文體的形成、發(fā)展和演變。比如在詞學(xué)研究中,可以將同一詞調(diào)的全部作品進(jìn)行對(duì)比,考察這一詞調(diào)句式、用韻、平仄的異同及其變化。在詩(shī)學(xué)研究中,特別是唐詩(shī)的研究中,可以將唐代的近體詩(shī)進(jìn)行對(duì)比,以考察近體詩(shī)的特點(diǎn)、定型過程及變化規(guī)律。
不同的需要,有不同的對(duì)比。比如,要考證一則史料的來源,可以將所有文獻(xiàn)記載的這則史實(shí)進(jìn)行對(duì)比,以考察其原始出處和后續(xù)記載的變異。
不同的目的,也有不同的對(duì)比。可以是相似性的對(duì)比或關(guān)聯(lián)性的對(duì)比,也可以是差異性的對(duì)比。
如果一個(gè)超大型數(shù)字化古籍庫(kù),能將同一類型的古籍或不同版本的古籍盡可能收錄,就可能具有對(duì)比功能。
以上僅僅是我個(gè)人的一點(diǎn)期待。謬誤之處,敬請(qǐng)指教。
【作者單位】武漢大學(xué) |