隨著電子技術的發展,古籍數字化已經成為必然之勢,在當今時代,任何反對、阻止這種潮流的想法與做法,都是不足取的。確實,古籍數字化會使古籍的久遠保存和廣泛傳播以發揮其自身價值,進一步落實、完善資源共享,使學者讀到以前不易讀到的書籍;會為研究者們提供便捷快速的檢索服務,提供遠比手工檢索更為全面、可靠的需要資料,使資料的轉化、引用、運用異常迅速,甚至還會提供一些新的靈感和構思。總之,古籍數字化帶給古代文學研究界的實實在在的好處,是誰也抹煞不了的。
但是,就目前的現狀言,古籍數字化也存在一些問題,值得人們思考并努力解決。
一、信息的全部再現
首先是信息量的全部再現問題。古籍數字化,第一個要回答的問題就是是否做到了信息量的全部再現。信息量的全部,不是說現存全部古籍的數字化,而是就一部書所包含的全部信息而言。
一部書的全部信息,按照從外到內、從大到小的先后次序說,由這樣幾部分構成:
(1)版本信息,包括版刻(稿本、抄本的撰寫、謄錄、抄寫)時間,出版者(個人或機構),出版地,出版類型(重刻、翻刻、補版、增訂等等),版次(原刻原印、重印),以及出版的一些附錄項,如出資人、刻字者、校字者、版權聲明、廣告等。
(2)序跋。序跋往往會交代一部書的撰寫、出版情況,書作者的生平、家庭、經歷、思想情況,書在作者當時或出版時的接受流傳情況,因而存儲了大量的有價值的信息。有的書籍有多篇序跋,一序再序,一跋再跋,這對古籍數字化的過程言,無疑增加工作量和繁難度,但對使用者、研究者而言,卻是非常難得的信息。
(3)題辭。有的書,在成書或付印前、后,會約請他人題辭,這些題辭,或文或詩詞,形式不拘,而不論是直接評論作品、交代創作背景,還是述交情、談感受,其價值都不容忽視。有些題辭還未被題辭者作品集收錄,或題辭者根本就無作品集,可以補題辭者作品之遺佚。
(4)凡例。凡例是一部書編寫、撰定的標準規定,是綱領是宗旨,它設定了全書編、撰的原則、體例、取舍存汰。那些文學選本的凡例,更是編、撰者思想、情趣、傾向性的濃縮,反映了他們對某一文學現象的總體認識、基本評價,甚至直接表述了編作者的文學觀。
(5)目錄和目錄序論。不少古籍都有目錄,它是全書內容的排列次序。但古籍的目錄,往往與正文不相一致,存在著種種差異,甚至有目無文、有文無目。從現代出版標準看,這是不規范的,應該加以批判、杜絕的,但傳統的魅力恰在于此,所謂因病成妍,顰心增媚:目錄與正文的差異,可以提供有價值的異文,形成互注性的文本結構。有的書籍,在目錄后還有目錄序論、目錄跋,其性質與凡例、與論非常接近,有的目錄序論就是重要的理論文獻,如清代常州詞派理論家周濟關于宋詞家法與習學路徑的觀點,就以《宋四家目錄序論》的形態出現的,本來就是選本《宋四家詞選》的目錄后之序論。
(6)正文。包括卷次、題目及題注、正文內容及其異文。這是古籍的核心部分,也是一般數字化古籍所特別重視、關心的部分,是他們所理解、從事的古籍數字化的全部內涵。這幾項中,往往被人忽略的題注、正文異文,有時價值反而比題目比正文更大。中唐時期劉禹錫《和樂天春詞》之題,有兩首作品,一首有題注,一首沒有題注,沒有題注的是七言絕句,有題注的是長短句,題注是:“依望江南曲拍為句。”這個簡單的題注,已經成為重要的詞學文獻,它標志著文人此體意識的獨立。遺憾的是,有的數字化古籍,對題注、異文關注很少,認為它們可有可無。
以上6個方面,構成一部古籍的全部信息,當然,有的書籍6項指標兼具,有的書籍具備幾項,甚至只有一項。但是,不管它有幾項,在數字化的過程中,都應該如實反映出來,不能根據自己的理解,只數字化正文,將其它信息一概摒棄、屏蔽。一部書的信息,是多方面的,有多個價值指向,它會根據使用者、研究者的不同,體現出不同的價值。正文內容是被普遍關注的部分,但有的人關心其中的版本信息,有的人看重序跋,有的人需要題注,有的人重視歷史事實和時間。所謂人棄我取、人輕我重,各取所需而已。如果認為只要是正文數字化了,就是全部數字化,必然導致大量有益信息的流失,這樣的數字化,不如不數字化。正如清修《四庫全書》,雖自有其價值,但修書過程中造成大量古籍的消亡、被改造,實際也是書籍之巨厄。
二、信息的真實再現
如果說信息的能否全部再現,屬于人的主觀認識的問題,那么,信息的真實再現,則既有主觀因素在內,也有客觀因素在內;而相比信息的全部再現,真實再現似乎更重要。
主觀方面因素,是指人的思想認識能力、文字認識能力、傳統文化素養、掌握現代電子技術的能力等。電子技術能力毋需多說。這里的思想認識能力,主要是充分認識到古籍數字化的文化意義、現實意義和未來意義。中國的古籍文獻,由于時間(長)、物質(紙張、油墨、溫濕度)、技術等原因,有的已經很難再原樣保存下去,有的只能作為一種文化的載體存在而無法實現其供人閱讀的文化價值。古籍數字化不是簡單的數字化技術問題,而是關系到中華數千年文明典籍的轉化、再生、存續,關系到民族文化記憶、思想的現代化表述。當今社會,大量的研究者正翹首期盼著現代化技術帶來的盡可能多的典籍使用的便捷化、準確化、快速化。古籍數字化,應該盡量滿足現代研究者的學術需要。而古籍數字化也是古籍適應未來社會發展的必要手段。做好古籍數字化,不是一個人幾個人的事情,也不是一個小團體的事情,它關系到整個國家,整個民族。
文字認識能力,是指認識繁體、難字、異體字的能力。繁體,難字冷僻字多,異體字多,是古籍不同于現代書籍的重要表現。一般掃描儀器連簡體字的報刊書籍尚不能百分之百準確無誤地識別,掃描古籍差錯率必然大。一是技術跟不上,不能保證質量;一是古籍自身問題,刻本的繁體、難字、異體已經造成數字化的高難度,稿本、抄本中的異體字、行書體字、草書體字,對現代技術來說,更無異于“天書”,要想全部辨識,難上加難。這就對從事古籍數字化的人員提出高難要求,他們必須認識古籍中的各種字體,必須解決儀器識認不了的字,將它們真實地再現出來,讓閱讀的人可以閱讀。如“夘央”或“夗央”,實際是“鴛鴦”的異體書寫。一部書,數字化以后,存在這樣那樣的錯字,或是以其它符號代替的字,或留空,或以圖像代替的字,總感覺到閱讀不順暢,或閱讀時感覺文本不真實。
傳統文化素養,指的是綜合的國學功底。古籍的閱讀和數字化,不是僅僅識字就可以了那么簡單。古籍書寫,有其特殊的“格”。這些“格”,有的較簡單,如直行,不分段,開頭不空格,避諱字闕筆等等,較容易掌握;有的較復雜,不容易掌握,如為表示對朝廷、帝后,以及書寫者尊長的尊敬,行文中會在相應位置留空、轉行、偏行、頂格、小字處理等,一不留神,就會出錯。如清代中期李星馳淑儀《澹香閣詩抄》,其夫侄序云:“澹香閣者,先叔母旌表節孝李太宜人之居也。”原刻本在“先叔母”后留空,“旌表節孝李太宜人之居也”另起行,以示寫序者對其叔母的尊敬。嘗見有人將其點斷為:“澹香閣者先叔母。”作一行;“旌表節孝李太宜人之居也。”另作一行。古籍中還有一些特殊的符號,不知道,不掌握,很難有效地數字化。如清人對南宋曾宏父所刻《鳳墅法帖》進行釋文時,基本保留原手寫書信的一些特殊用字符號,像《鳳墅殘帖釋文》卷五“清江三劉帖”,多次出現“將息二二”、“至極二二”、“苦事二二”、“至喜二二”、“可惜二二”、“保重二二”等,其中“二二”顯然是重復時的省略符號,“將息二二”,即“將息將息”,“至極二二”即“至極至極”,如此類推。現代人對手寫的一字省略符號較為熟悉,對古籍中的二字三字省略符號,恐怕就不大認識了。清代青浦詞論家王昶《西崦山人詞話》稿本卷二第一條“朱竹垞尊彝云”,在“尊”字右邊加了一個方向朝下的逗點,“彝”字右邊加了一個方向朝上的逗點,都很輕,不留心會忽略過去,即表示“尊彝”二字要倒為“彝尊”。這個乙字符號,也與現代人所掌握的不同。至于斷句標點,也是基本功之一,是對數字化者綜合素養的考驗。
古籍信息的真實再現,就是建立在正確理解原文基礎上的文字轉化。沒有“正確理解”這個前提,只需要復印、拍照即可做到真實再現,但復印、拍照不是數字化,不能檢索、復制;數字化而沒有“正確理解”這個前提,絕對不可能達到真實再現這個目標。
三、古籍數字化后的新問題
古籍數字化,必將為人們的閱讀、研究提供非常多的好處,但同時,我們也不能不看到,古籍在數字化以后,也會滋生一些新的問題。這突出地表現在以下幾個方面:
第一,誤引誤用成為常事。數字化具備異常快捷的檢索、統計功能,于是乎,字、語詞、意象使用頻率的統計,典事最早或原始出處的查找,都可以在瞬間完成。不再需要一本書一本書地翻檢,不需要一個人一個人地請教,只需輸入關鍵字詞,輕點鼠標,幾秒鐘一切事情都搞定。殊不知,這樣檢索、統計的結果,是不可靠的,其中有許多虛假數字。電腦雖然號稱人工智能,在社會科學領域,畢竟不如人腦聰慧。它只能找出字或字串,不能區別同字之異義,區別相同字串的不同涵義。筆者為做《唐代試律詩研究》,曾檢索電子版《四庫全書》中的“試律”一詞,可以得到144條,但合乎考試的律體詩歌這一意思的,只有幾條;檢得“試律詩”2條,全部不合要求。只要上一字是“試”,下一字是“律”,就會被它當作“試律”看待,其錯誤類型五花八門,如:“凡明法,試律七條令三條”(《新唐書》卷44),“進士諸科,始試律義十道”、“第一第二場,試律”、“亦試律義”、“仍罷試律義”(《宋史》卷155),“試律學第一,除參軍”(《遼史拾遺》卷16)、“試律官二員”、“會試下第再舉,直赴御試。律科進士,又稱為諸科”(《金史》卷51)、“試律賦一首,律詩一首”(《太平治跡統類》卷27),還有宋代王庭珪《瀘溪文集脫藁》目錄,上一行是“送劉世臣赴省試”,下一行是“律詩七言”,也被嫁接成“試律詩”。這些“試律”、“試律詩”,完全脫離上下文的語言環境,不問“試”何指,“律”何義,隨意組合,牽強成詞。如果自己在電腦檢索的結果出來后,不細加辨析,便會得出錯誤的結論。技術無道德,不需要負責任;但人是社會生物,需要對自己的研究負全責。
第二,青年人整體古籍閱讀能力的下降乃至喪失。上世紀九十年代以來,在商品經濟大潮的沖擊下,在急功近利世風的影響下,越來越多的從事古代歷史、文化史、文學史研究的人,急于成名,急于完成學業,不認真讀書,只從他人的著作、文章中輾轉稗販一些古籍段落、字句,率爾操觚,輕易成文,本身的閱讀力卻不斷下降。近年來的“國學熱”、“讀經熱”,正是在青年人整體傳統文化興趣和功底都喪失殆盡形勢下的危機應對策略,它是非常態的,不得已的。一旦古籍完成數字化,就有可能助長這種不讀原典的壞風氣。年輕一代的本科生、研究生,古代文化文學愛好者,發現可以非常輕易地得到師長輩們費盡九牛二虎之力才得到,或根本就得不到的研究資料,還會去孜孜矻矻地讀經典,讀正史,讀詩詞曲賦嗎?數字化將造就一批學術懶人,這是可以預料也可以接受的;但是,以一代人甚至幾代人古籍閱讀能力、理解能力的下降乃知喪失為代價,換得數字化,那么,這個代價也太大了,相信是大多數人都不愿看到不愿接受的。于今之計,否定數字化,拒絕數字化,肯定是行不通的;加強思想道德教育,通過學校、老師(導師)給年輕人施加壓力,估計收效也不會大。比較理想的措施,可能需要國家教育主管部門、文化主管部門,還有人事主管部門、學校、教師、家庭,多方合作協商,從人才培養、任用、考評等制度方面,制定出一整套長效機制,方能解決根本性的問題。
第三,數字化的法律秩序。首先是版權、著作權混亂。傳世古籍,除了今人的影印、點校、注釋、翻譯之外,是沒有著作權的,不涉及版權問題。但數字化以后,這個問題就變得復雜了。數字化算不算古籍整理?有沒有產生新的著作人、版權人?這個版權如何維護?人們在使用數字化古籍成果時,要不要加署資料出處?而新的著作人、版權人,又是否能夠保證使用者所引用資料的正確無誤?具體而言,圖像版的古籍(數碼拍照)有無版權?如果有,版權是歸藏書單位,還是歸圖像制作者?數字化的古籍,有無版權?版權歸誰?這些問題,就目前的數字化古籍市場看,顯得十分混亂。國家尚未出臺一部針對數字化古籍的法律法規,因而市場無準繩可依。其次,數字化進程混亂。現在是諸侯割據,各占一方。只要投入資金,都可以進行古籍數字化。而缺少統一部署,統一調度,有限的人力資源、資金資源,得不到有效的整合、協作,從而使古籍的數字化出現較為嚴重的重復施工、整體布局失衡的現象。一些較為熱門的古籍,不斷被人數字化,冷僻一點的,則無人問津。除了《四庫全書》、《四部叢刊》等少數幾部外,大量的大型叢書(當然,不少叢書的細目,存在交叉重合,數字化時,也需要協調,免得重復投入),成了被電子技術遺忘的角落,成了電光、激光普照不到的陰暗地方。為此,我們呼喚相關法律法規的出臺,盼望數字化市場早日法律秩序化。
【作者單位】華東師范大學中文系 |