薛天緯
(新疆師范大學文學院)
賴瑞和《唐代基層文官》(中華書局·2008)《自序》中有這樣一段話:“市面上和網上的《全唐詩》電子文庫很多,但多為簡體字版,且校對欠佳,又無卷數頁數,都不合學術用途。最合乎學界需要,校對精細,且以繁體字制作的,據我所知就只有陳教授這一套了。”此處陳教授,是指臺灣東吳大學中文研究所陳郁夫先生。眾所周知,《全唐詩》是最基本的文學古籍之一,對于我們這些以唐詩及唐代文學研究為專業的人來說,其重要性更是居于任何他書之上。這些年來,我們都習慣于使用《國學寶典》版的《全唐詩》,平心而論,這個版本的《全唐詩》也確實給了我們許多幫助,為我們的研究工作提供了前所未有的方便條件。賴瑞和先生不知是否使用過或見識過《國學寶典》版《全唐詩》,但按照他的標準,一是要用繁體字,二是要校對精細,三是要有卷數頁數,《國學寶典》版《全唐詩》除了有卷數這一點外,其余方面都不符合或不太符合他的要求,即用的是簡體字,校對不甚精細,未標明原書頁數。那么,我們可以想見,賴瑞和先生即使接觸過并了解《國學寶典》版《全唐詩》,肯定也不會認為它是“合學術用途”“合乎學界需要”的版本。賴先生提出的幾個條件,在很大程度上可視為數字化古籍的一般標準。因此,我們在肯定和感激《國學寶典》版《全唐詩》的同時,也真誠地希望它能與時俱進,真正做到如賴瑞和先生所說的“合學術用途”“合乎學界需要”。而要做到這一點,最根本的改進,就是要將錄入改為掃描,即不再對古籍重新進行二次性的人工錄入,而是改為選定善本(學術意義上的善本,而非收藏意義上的善本)進行掃描。之所以需要進行這樣的改進,我所考慮到的理由有以下幾條:
1.避免錯誤,即避免錄入別字。
由于錄入人員并非專業研究者,其錄入過程一般來說并不伴隨對文義的理解和閱讀,而只是依據字形“照錄”,而且不能不追求一定的工作速度,所以,出現錯誤就成為不可避免的事情。尤其是形近字、同音字,常常因辨識錯誤或一念之差而錄入別字。如杜甫的名篇《觀公孫大娘弟子舞劍器行》,就有三處錄入錯誤:“一舞劍器動四方”句,“器”誤為同音字“氣”;“晚有弟子傳芬芳”句,“晚”誤為形近字“況”;“風塵澒動昏王室”句,“澒”誤為形近字“傾”。同樣以公孫大娘為題材的詩作,還有司空圖《劍器》:“樓下公孫昔擅場,空教女子愛軍裝。潼關一敗胡兒喜,簇馬驪山看御湯。”第三句中“胡”被錯錄為“吳”,應是讀音相近致誤。
又如《宋史·蘇軾傳》有這樣一段話:“微宗立,移廉州,改舒州團練副使,徒永州。”其中“微”字應為“徽”字,“徒”字應為“徙”字,兩處都是形近致誤。
類似于上面舉出的錄入錯誤,對于專業研究者來說,基本屬于常識性問題,因而不難識別,并可自行糾正,但我們實不敢保證自己的眼睛和水平能夠發現所有錯誤。所以,保證文字正確,仍是數字化古籍必須解決的首要問題。如果采用善本古籍掃描,則可從根本上解決這一關鍵問題,從而保證數字化古籍的質量。
2.解決稀見字錄入的困難。
古籍中往往出現時下各種字庫中很難找到的稀見字,這就成為錄入時無法逾越的障礙。尤其是韓愈、盧仝等常常有意使用冷僻字的作家,錄入他們的某些作品確實是件很困難的事。為了對付這個難題,目前采用了一些變通的辦法,如把一個字左右分開成兩個字、在括號中錄入兩個字表示一個字、用字母代替等,如韓愈《陸渾山火和皇甫湜用其韻》中,有“月番”“酉爵”“石覃”“目爰”,還有[谷含],這都是一個字的形態。還有一個字,字形是“上亡下皿”(應讀huang),《全唐詩》中錄成了“fI”,實在不知是什么意思。盧仝《月蝕詩》中,則有〈齒取〉〈齒禺〉這樣的字,還有g6、gpoA這樣的“字母字”。遇到這種情況,閱讀實際上無法進行下去。這一問題的解決,也必須倚賴善本古籍的直接掃描。
3.增強文獻的使用價值,為讀者提供可資引用的版本。
目下的數字化古籍,并不是一種真正的版本,不具有原始性質,所以無法作為正式的文獻資料來使用,尤其是無法加以引用。從根本上說,它只有一定的查閱價值,而不具有如同紙本出版物一樣的使用價值。再加上它在錄入時的錯誤率又遠遠高于紙本出版物,其可信度要大打折扣,這就更影響了它的使用價值。換句話說,我雖然有了《國學寶典》版《全唐詩》,但并不等于我擁有了真正的《全唐詩》,我在一種研究成果的“參考文獻”中,只能列入中華書局版或上海古籍出版社版的《全唐詩》,而不能列入《國學寶典》版《全唐詩》。其他書亦然。如果將善本古籍原封不動掃描過來,每一種書籍都有版權頁,都有與原書一樣的頁碼,我們就可將這種數字化古籍當成紙本一樣來使用了。
4.改善閱讀的視覺感受。
目下的數字化古籍,密密麻麻一片,不分頁,不能進行版式設計,沒有天地空白,沒有字形變化,視覺感受與紙本古籍有很大差別。因此,人們在一般情況下還是愿意使用紙本書,而不是首先打開電腦使用電子書。如果使用掃描法,出現在讀者面前的是一頁頁與紙本一樣的書,相信這種情況會有所改善。
5.大面積并且從根本上解決資料“全”的問題。
以《國學寶典》為例,目下收入的文獻已經很不少,容量已經相當可觀,但仍遺漏了許多應該收入的內容。比如,“宋初四大書”,其它三種都收了,惟獨文學價值最高的《文苑英華》未收。詩話類著作收了一些,但很重要的《滄浪詩話》未收。尤其是別集類文獻,目前《國學寶典》收的很少,我在上屆會議的論文中就提出過這個問題。對于研究者來說,事實上別集往往比總集更重要、更有用,總集通常用以檢索,別集則是閱讀和研究的依據。我們要讀某位唐代詩人的作品,只要他有編就的別集,尤其是經過科學整理的別集,那么,首選應是其別集,而不是《全唐詩》。大量收入別集,靠目前的錄入法是很難實現的。可行的辦法,是挑選別集善本、尤其是經今人精校精注的別集,通過掃描加以“復制”,又快又好地解決這個問題。當然,將今人著作制成數字化文本,可能存在著作權問題,對此應依據相關法律條文妥善處理,必要的成本應當計入。
總起來說,根據我個人的經驗,覺得數字化古籍的優越性是便捷、易攜帶,特別是可檢索。但數字化古籍并不能代替傳統紙本古籍。紙本的好處是閱讀時便于前后翻動,可以在空白處批注,這是數字化書做不到的。而且,讀紙本書時總是伴隨著對問題的思考,思維活動比較活躍,讀數字化書似乎主要是眼睛的活動,而思維活動有所減弱。今后數字化古籍的發展,應該最大限度地克服其局限性,同時最大限度地發揮其優勢,尤其是可檢索的優勢。隨著技術的進步和經驗的積累,數字化古籍一定會日臻完美,日益提高學術質量,同時日益擁有更多的讀者和更大的市場。
發布日期:2009-08-18