午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

 

古籍數(shù)字化與古典文學研究的未來

鄭永曉

  內容提要:具有前瞻性眼光的學者決不能僅僅滿足于把計算機當作一個檢索工具。人類如何適應并利用其獨特的思維方式,在古籍數(shù)字化的基礎上將古代文學研究提升到一個更高境界,是廣大文學研究者和IT業(yè)者共同面對的挑戰(zhàn)。計算機人工智能首先在古籍整理方面大有用武之地,在古典文學研究方面也有其契合點。文章同時對版本意識淡薄、字庫設計不規(guī)范以及缺乏合適的程序設計語言等古籍電子化過程中面臨的問題作了探討。

  關鍵詞:古籍數(shù)字化;古代文學研究方法;人工智能

  作者簡介:鄭永曉,男,1963年生。2003年畢業(yè)于中國社科院研究生院,獲博士學位,現(xiàn)為中國社科院文學所副研究員。發(fā)表過專著《黃庭堅年譜新編》等。

 

  IT技術的飛速發(fā)展在人文、社會科學中的一個重要表現(xiàn)就是傳統(tǒng)紙質文本向電子文本的轉化,亦即報刊、書籍的數(shù)字化,這其中又以古籍數(shù)字化的成果最為引人注目。中國傳統(tǒng)古籍浩如煙海,二千馀年來,沒有被充分開掘和利用者不計其數(shù),因此,對古籍予以數(shù)字化的迫切性和必要性較之現(xiàn)代書籍而言,顯然有過之而無不及。相關機構正是著眼于數(shù)字化古籍在應用方面具有深廣的潛力,且一般不存在版權問題,才投入大量人力物力,先后完成了電子版《四庫全書》、《四部叢刊》、《二十五史》、《全唐詩》、《全宋詩》等一系列有關傳統(tǒng)文獻的數(shù)據庫,而廣大文史工作者也確實受惠于這些數(shù)字化古籍。此足以說明,數(shù)字化古籍對古典文學研究不僅必要而且必將有著十分光輝的未來。具有前瞻性眼光的學者決不能僅僅滿足于把計算機當作一個檢索工具,滿足于把計算機檢索到的資料復制到自己的文章中,以省卻自己的翻檢之勞。計算機具有自己的思維特點,人類如何適應并利用其獨特的思維方式,將人的創(chuàng)造性思維與計算機的強大功能有機結合起來,把古代文學研究提升到一個更高境界,是廣大文學研究者和IT業(yè)者共同面對的挑戰(zhàn)。令人欣慰的是,已經有一些機構和學者在這方面做了非常有益的探索并取得了可觀的成績,如北京大學中文系李鐸博士主持開發(fā)的《全宋詩電子分析系統(tǒng)》,即具有較高的智能化特色。筆者有幸使用過這一系統(tǒng),并拜讀了李鐸博士和王毅先生《關于古代文獻信息化工程與古典文學研究之間互動關系的對話》(以下簡稱《對話》)①,深感獲益匪淺。因此,愿意把自己近年來有關此問題的一些想法發(fā)表在此處,作為這一精彩文章的蛇足之論,欠妥之處,還請李鐸、王毅先生和眾方家批評指正。

一、計算機智能化的前景及其對古典文學研究的影響

  伴隨計算機科學技術的日新月異及其在各行各業(yè)中的廣泛應用,人們對計算機軟硬件的要求愈來愈高,對計算機科學所能攻克的難題也愈來愈抱有更高的期望。于是,學術界很自然地進而提出究竟計算機能否具備類似人類的思維方式,完成人類大腦所能支配的工作,亦即計算機能否實現(xiàn)人工智能的問題,由此誕生了二十一世紀三大尖端技術之一的“人工智能”。②作為計算機科學的一個重要分支,人工智能是一門研究運用計算機模擬和延伸人腦功能的綜合性學科,其目的在于讓計算機這樣的“機器”能夠像人一樣思考和判斷,具有人類的某些智慧以及解決復雜問題的能力。信息技術的這一前沿分支,其研究、應用和發(fā)展在一定程度上決定著計算機科學的發(fā)展方向。

  那么,人工智能這樣尖端的科學,與我們的古典文學研究究竟有什么關系呢?據筆者觀察,在上個世紀90年代前期,人文、社科學者利用計算機基本上僅限于打字,95年互聯(lián)網引入中國以后,少數(shù)學者開始嘗試利用網絡查閱學術資料,一些具有前瞻性眼光的公司開始制作古籍資料檢索光盤,如商務國際有限公司制作發(fā)行的《全唐詩》光盤等。90年代末至本世紀初,古籍數(shù)字化進入迅速發(fā)展階段。1998年全國高校古籍整理委員會批準立項并直接資助了“中國基本古籍庫光盤工程”,目前很多學者尤其是古代文史研究者手中使用著由迪志公司、書同文公司等開發(fā)的《四庫全書》、《四部叢刊》等,大陸、臺灣和香港各種網站上也提供了愈來愈多的數(shù)字化古籍文獻等。很顯然,經過近十年的快速發(fā)展,數(shù)字化古籍的總量已經十分可觀,程序提供的檢索手段也已經相當完善。在這種日益強大的檢索手段基礎上,如果能輔以更加智能化的統(tǒng)計、分析、綜合、判斷程序,那么以人工智能為支撐的信息技術在古籍整理和古典文學研究方面將產生劃時代影響,便絕非故作危辭聳聽之論。

  誠然,學者個性千差萬別,學術道路、學術方法也多種多樣。計算機沒有產生之前的學術大師固然成就不凡,當代學人中從未使用過電腦而能取得很大學術成就者也大有人在。但是,這并不表明信息技術的發(fā)展對這部分學者不會產生影響。這里有兩個因素需要特別注意:第一,傳統(tǒng)學者治學過程中對私人藏書或公共圖書館的依賴在不遠的將來會不復存在。因為伴隨存儲技術的日新月異,將中國歷史上的所有古籍存儲在一張DVD光盤或一張郵票大小芯片上的可能性并不遙遠。近年來,光盤存儲容量正朝著單碟20GB以上規(guī)格邁進,而熒光多層光碟FMD(Fluorescent Multilayer Disc)技術成熟后更使得目前CD大小的盤片可以存儲100GB的數(shù)據,第二代FMD技術將使盤片存儲量升至1TB甚至更高。③所以,盡管傳統(tǒng)古籍浩如煙海,此前從未有人能夠全部擁有,更遑論能夠全部讀完。但是,隨著存儲技術的迅速發(fā)展,將所有古籍隨身攜帶卻不再是一個遙遠的夢想。第二,與傳統(tǒng)圖書的閱讀方式不同,可隨身攜帶的這些古籍是可以快速檢索、統(tǒng)計的電子文本,在不遠的將來完全可以在此基礎上實現(xiàn)自動標點、箋注、翻譯等功能,甚至進而實現(xiàn)歷史年表的編撰、作家年譜的纂輯以及數(shù)字化文學史等更具智能化的功能。這就使得此前乾嘉學派那套治學功夫基本沒有了用武之地,像標點、箋注、翻譯等工作完全可以交給機器去處理。同時,現(xiàn)代人推崇的美學分析、文本分析、文化研究等等也必將面臨重大變革,因為對文學史所作的理論和美學分析建立在對歷史文獻的解析、歸納之上,而一旦對文獻的處理發(fā)生了劃時代的變革,則整個古典文學研究方式也必將隨之變革。

  總之,將電腦與人腦的長處和優(yōu)勢結合起來,將為古籍整理和古典文學研究注入一股強大的新生力量,在資料采集、推理求證、綜合分析等方面帶來思維方式和研究方法的革命,從整體上促進學科發(fā)展水平的大幅提高。下文對此稍作疏解。

二、關于計算機的思維方式與古籍整理

  計算機人工智能的開發(fā)在不同領域有不同的側重和研發(fā)方向。在人文和社會科學研究領域,筆者以為,開發(fā)計算機的人工智能應側重發(fā)揮計算機“思維方式”(借用李鐸先生的提法)的長處,同時結合計算機摹擬人腦的功能。在這方面,計算機首先在古籍整理方面大有用武之地。

  古籍整理主要包括標點、?薄⒐{注等工作。關于利用計算機進行古籍標點的問題,李鐸、王毅先生在其《對話》中已經闡述得相當清楚,我完全同意他們的觀點。利用計算機的自學習功能,由易到難,先選用已經標點,且質量較高的古籍文本讓計算機學習、摹擬,從而不斷擴充知識庫,在此基礎上完全可能實現(xiàn)對大規(guī)模古籍的標點工作。在具體操作上,除了需要注意古漢語的規(guī)律,找出字與字之間的親和度以外,還需要讓計算機學習不同文體的特點。因為在我國傳統(tǒng)文化史上,產生過數(shù)十種文體,每一種文體都有不同的行文方式,計算機如能首先判斷出需要標點的文本是何種文體,便可根據這種文體的特點和規(guī)律做出高質量的標點切分工作。因為多數(shù)讀者沒有編程方面的知識,我們以大家都熟知的字處理軟件,微軟WORD“工具”菜單中提供的“宏(Micro)為例,簡單驗證利用計算機標點文本與文體的關系。④如果我們用“宏”來標點一首不分行的七言詩,且要求排列成每聯(lián)為一行,我們只需使用Visual Basic編輯器或錄制“宏”的辦法告訴計算機從第一個字算起,至第七字后加逗號,至第十四個字后加句號及一個段落標記(硬回車),第二十一個字后加逗號,第二十八個字后加句號及一個段落標記,馀者以此類推。這樣一個簡單的小程序(宏)標點一首七言詩的時間不足一秒鐘,這是因為程序設計者已經告訴計算機或者計算機已經能夠判斷這是一首七言詩。如果遇到一首詞,計算機能夠根據其詞牌去判斷標點位置,無疑將做出十分精確的切分和標點。反之,如果僅憑字詞之間的親和度以及漢語構詞法,對于用詩、詞、曲這種文體寫成的文本,便可能出現(xiàn)誤判和錯誤標點。例如像杜甫的拗體詩“香稻啄馀鸚鵡粒,碧梧棲老鳳凰枝”(《秋興八首》第八),如果程序在不能判斷這是一首七言詩的前提下,除了不會在“香稻”、“鸚鵡”、“碧梧”、“鳳凰”等詞語處切分外,其他字詞之后都有可能,很容易造成誤判。又如王之渙詩“羌笛何須怨楊柳,春風不度玉門關”(《涼州詞》),如果不能事先斷定這是七言詩的話,也可能斷成“羌笛何須怨,楊柳春風,不度玉門關”。所以,在設計這類程序時,充分考慮各種文體的特點并做出有針對性的處理是非常必要的。另外需要注意的是,不同時代的文章在行文風格、句法、所用詞匯方面也頗有不同,計算機在處理文獻時固然無需判斷文本的風格,但是不同時代文章的句法差別很大。所幸六朝以前的文章大都已有人工標點本,屬于計算機建立知識庫時的學習對象,需要計算機大規(guī)模標點的是唐宋以后的文獻,在句法方面的差異不是很懸殊,但是,像清人的文章中時常夾雜著西洋詞匯的音譯,而且各人譯法不同,這都是在設計程序時需要注意的。

  古籍整理的另外一項重要任務是?。這是一項十分細致、龐雜的工作,人工?庇捎趨⑿0姹居邢、視覺模糊等因素,難免出現(xiàn)異文不能出校,或在眾多版本具有若干異文的情況下難以確定最佳方案。如果設計合理科學,這同樣是計算機可以發(fā)揮其特長的項目。校勘的目的一是勘正錯別字,二是校出不同版本的相異之處。關于錯別字的甄別,利用計算機從事古籍整理時會涉及三種情況:第一,由于OCR軟件識別率不能達到100%正確導致的錯字;第二,底本本身的錯誤,包括因書寫或印刷造成的錯誤;第三,不符合現(xiàn)代漢語規(guī)范的異體字。如果不是將古籍整理成簡體文本,第三種情況按一般?币蠖,可以忽略,無需出校,需要處理的是第一和第二種情況造成的文字錯誤。以目前的技術和實際應用而言,基于現(xiàn)代漢語詞匯的文本糾錯技術已經比較成熟。在這方面,以北京某公司的產品“黑馬校對2004”較為突出,該軟件具有數(shù)量龐大的錯誤詞匯數(shù)據庫,查錯規(guī)則設置也比較合理,能夠輕易標出文本中不合規(guī)范的用詞。遺憾的是,該系統(tǒng)僅適用于作為現(xiàn)代漢語文字載體的報刊雜志的?惫ぷ鳎缬糜谛ζD深古奧的古漢語,尚難以勝任。但是,該軟件所使用的技術原理和設計思路應該同樣適用于古籍文本的校勘,只是詞匯庫的設置要求更具專業(yè)特點,如能有精于古漢語和古代文學方面的專家與IT人士攜手,在技術上是不難辦到的。當然,?惫偶荒軆H僅校正詞匯組合方面的錯誤,必然也涉及到語句中的單字,涉及到在不同語法狀態(tài)下單字的對錯。這就要求計算機在學習積累正確漢語語法結構的基礎上,正確判斷一個字詞在某句中的位置是否背離了古代漢語的語法規(guī)則,這方面的技術目前還不成熟,亟需加大研發(fā)力度,早日達到應用水平。所幸對古籍校勘而言,如果底本十分清晰,OCR軟件識別率很高,那么由于識別問題造成的差錯基本不存在。如果選用底本精良,也基本上不存在原書作者或印刷造成的錯誤。剩下的問題就是拿底本與他本互校,比較其異同,標出參校本與底本的相異之處,而這正是計算機的長項。微軟WORD“工具”菜單中有一個不常為人所用的工具—“比較并合并文檔”,即可用于比較兩篇文檔的異同。當然,微軟開發(fā)的這一工具如用于中國傳統(tǒng)古籍校勘,尚嫌簡略,不夠專業(yè)。從程序設計角度而言,在技術上讓計算機比較底本與參校本的異同,并自動生成校記是完全可以實現(xiàn)的。

  至于用計算機從事古籍的箋注工作,似乎比用于標點艱深古奧的文本更具可行性。為達到這一目的,我們首先需要建立一個龐大的冷僻字詞和典故數(shù)據庫。計算機在掃描文本時,每當發(fā)現(xiàn)有與數(shù)據庫中的字詞相似或相同的情況,則即刻調用該字詞的解釋并寫到程序設定的位置,如該冷僻字詞之后或章節(jié)、段落之后。設想我們在讀到某篇比較難以理解的文章時,鼠標一點,相關注釋即刻添加到文本之中,即使不能保證100%正確,至少讀懂該文章應該沒有問題。當然,鑒于漢語言的構詞特點和文學修辭的豐富多彩,同一個典故會有多種表述方法,曹操《短歌行》:“月明星稀,烏鵲南飛。繞樹三匝,何枝可依”,后人常借用其意寄托羈旅漂泊之感,如駱賓王《望鄉(xiāng)夕泛》:“今夜南枝鵲,應無繞樹難!崩钊A《海上生明月》:“素娥嘗藥去,烏鵲繞枝驚。”同樣的典故,駱賓王和李華的用法并不一樣,此外還有“繞樹枝”、“三繞枝”、“繞鵲”等等不同用法。所以在設計這樣一個程序時,一要保證冷僻字詞和典故數(shù)據庫盡可能全面,應具有開放性和可擴充性,其次應使用模糊查詢方法,遇到非典型性用法,應能夠自動判斷是否應該予以箋注及調用哪一條數(shù)據做出解釋。當然,計算機最為人熟知的長項是可以窮盡所有可以搜索到的字詞出處,這在從事箋注這類工作中更是必不可少的。根據同樣的機理,利用數(shù)據庫的排序、篩選功能輔以必要的人工也可以快速編制作家年譜、歷史年表;借鑒計算機不同語種的相互翻譯功能可以嘗試將其運用于大型古籍文獻的白話文翻譯。總之,以數(shù)字化古籍為依托,大力挖掘、開發(fā)計算機的智能化應用,在古籍整理以及古籍整理的延伸如編制作家年譜和歷史年表方面的前景是無限廣闊的。

三、智能化計算機在古典文學研究領域的應用

  計算機智能化在古籍整理中的應用既略如上述,那么,如果進入到古典文學研究這樣一個需要人的高智商和個體情感的高度投入才能從事的創(chuàng)造性領域,其前景又當如何?

  李鐸、王毅先生在其《對話》中,談到了“人機互動關系及人機各自的‘權界'問題”,對人的心智和情感作為文學研究靈魂的重要性,以及電子公共信息平臺對文學研究的拓展作了精彩的闡述,筆者深有同感,因而不打算重復他們二位的觀點,僅就高度智能化的計算機與未來的古典文學研究之關系及可能性作一個展望和預期性的推測。

  筆者以為,我們不能把計算機與人之間的“權界”絕對化和擴大化。誠如李鐸先生所言,計算機可能永遠也無法完全替代人來“思考”,并且用計算機充當人來思考,解決人能夠輕易解決的問題在成本方面也不劃算。所以,計算機不必模擬人腦,人也沒必要依照計算機的方式思考問題。筆者在對此深表贊同的同時也想補充一點,即從信息科學的總體發(fā)展而言,計算機將愈來愈人性化和具備一定程度的思維能力是一個必然的發(fā)展趨勢,這其中的關鍵在于計算機程序是人設計和編寫的,人的思維控制著計算機的思維,計算機的思維是人腦思維的延伸而并非人腦思維的異化。伴隨人工智能科學的成熟,計算機具備一定的人腦思維能力并非天方夜譚,這種摹擬的人腦思維能力即使還處于非常幼稚、膚淺的階段,如與計算機本身所固有的優(yōu)勢,計算機的思維方式相結合,也很可能結出某些令人驚嘆的碩果。假定某些需要人工解決的問題相對比較簡單且數(shù)量龐大,那么,伴隨計算機軟硬件的飛速發(fā)展,計算速度的幾何級增長,以及智能化程度的逐步提高,利用計算機進行預處理仍然是可行的,富有成果的。例如,關于唐宋詩優(yōu)劣問題這樣一個持續(xù)爭論了近千年的命題,錢鍾書先生說:“唐詩多以豐神情韻擅長,宋詩多以筋骨思理見勝”⑤,繆鉞先生則說:“唐詩以韻勝,故渾雅,而貴蘊藉空靈;宋詩以意勝,故精能,而貴深折透辟。唐詩之美在情辭,故豐腴;宋詩之美在氣骨,故瘦勁。唐詩如芍藥海棠,秾華繁彩;宋詩如寒梅秋菊,幽韻冷香!雹捱@是上個世紀有關唐宋詩之別最經典的論述。那么,這樣一種論述能否使用計算機對此進行更精確的闡釋呢?答案是在一定范圍內可以做到。我們可以依據現(xiàn)有技術設計程序根據題材、用韻、格律、字頻、詞頻、用典等數(shù)據來對唐宋詩的異同予以比較,根據計算機產生的數(shù)據和所描繪的曲線對唐宋詩的區(qū)別做出一個比較精確的判斷,從而為錢、繆二先生的論述提供有力的佐證。但是這樣一個研究還不能說很到位,因為宋詩中的某些作品在風格上與唐詩非常相似,難分彼此,從而為錢、繆二先生的論述提供有力的佐證。但是這樣一個研究還不能說很到位,因為宋詩中的某些作品在風格上與唐詩非常相似,難分彼此,正如錢鍾書先生在《談藝錄》中所說:“唐詩、宋詩,亦非僅朝代之別,乃體格性分之殊。天下有兩種人,斯分兩種詩!笨娿X先生在《論宋詩》中也說:“雖唐詩之中,亦有下開宋派者,宋詩之中,亦有酷肖唐人者!蹦暇┐髮W莫礪鋒先生通過證明《唐詩三百首》所收唐人張旭之詩《桃花溪》實為宋人蔡襄之作《渡南澗》,推論出唐宋詩之間的差別沒有想象的那樣大。⑦既然如此,計算機在掃描分析《全唐詩〉》、《全宋詩》各自的用韻、格律、字頻等要素之后,雖然可以從整體上,從比較宏觀的角度比較出唐宋詩之間在某些方面的異同,卻還并不能從微觀角度判斷宋詩中哪些詩作是典型的宋詩,哪些詩作酷肖唐詩,近二十五萬首宋詩中有多少作品可以劃歸“唐詩”范疇,多少作品屬于典型的“宋詩”范疇。要解決這個問題,就需要計算機作出進一步分析。首先我們需要在上述唐宋詩數(shù)據比較所產生曲線的基礎上,確定一個適當?shù)淖鴺俗鳛樘扑卧姷姆纸琰c,由于這個分界點是建立在對全部《全唐詩》和《全宋詩》的有關數(shù)據進行窮盡分析的基礎之上,應該能夠確切地劃分出唐宋詩各自在題材、體裁、用韻、格律、字頻、詞頻等方面的不同特征。用這些數(shù)據為唐宋詩各自制作一個虛擬模型,而后再依照這個模型去比照每一首唐宋詩作,即可區(qū)分出哪些作品屬于“唐詩”,哪些作品屬于“宋詩”,以及各自所占比例如何?這里所謂“唐詩”或“宋詩”是指風格意義上的區(qū)分,并非唐人或宋人所作的詩篇。

  在這個事例中,計算機按照事先設計的程序,掃描分析唐宋詩歌的字頻、詞頻等,顯然是在發(fā)揮計算機的長處,屬于運用計算機的“思維方式”;而在確定哪首作品屬于“唐詩”或“宋詩”的過程中,是判斷每首詩的格律、用韻、題材等方面的特征是否與“唐詩”或“宋詩”相符合,這顯然是在運用人的邏輯,只不過計算機做得更快而已。當然,無論是計算機還是唐宋詩歌研究方面非常有素養(yǎng)的專家,在這一問題上都很難做到百分之百的正確無誤。因為這個命題包含著審美判斷,并非純數(shù)理的結構化問題,并不能單純依靠數(shù)字比例的大小來確定是或否。命題本身的性質導致學術界很難就“唐詩”或“宋詩”的特征問題達成一個沒有疑義的定論,而計算機程序設計者根據這些還不屬于定論的指導意見去設計程序,必然會把這種不確定性帶入計算機的思維中。但問題的另一面卻足以使我們大受鼓舞,盡管計算機是在按照人所發(fā)出的一些還不十分完善的指令去執(zhí)行任務,但因為計算機能夠對整個唐宋詩數(shù)據進行窮盡式掃描分析,必然能夠得出雖不全面但卻很準確的一些數(shù)據。亦即我們雖然無法全部理清“唐詩”或“宋詩”在美學特質、創(chuàng)作手法、作品風格、章法句法、字頻詞頻等方面的異同,至少我們無法用數(shù)字表示這些異同。但是利用計算機我們卻可以就其中部分特征進行窮盡式掃描分析,而僅把需要審美判斷的那部分排除在外。計算機在掃描全部現(xiàn)存唐宋詩歌作品以后,盡管只是就其部分可統(tǒng)計排比的特征進行了分析,但由于這種分析是建立在全部唐宋詩歌作品之上,仍然具有極其廣泛的代表性,所以其結論仍然是相當可靠的。按照這個結論制作的虛擬模型用于比照每一首具體詩作,所得結論自然也相對更科學縝密一些。在這一個案中,既充分發(fā)揮了計算機的特長,也摻雜著人工智能因素,計算機并非僅僅承擔統(tǒng)計工作,它要在人的協(xié)助下,運用復合條件綜合作出自己的判斷。多年來我們對宋詩的特征、唐宋詩的優(yōu)劣、宋詩接受唐詩的影響等問題沒有一個十分明晰的結論,計算機顯然可以幫助我們將這一研究向前推進一大步。

  上述例證充分說明即使在比較復雜的研究中,在歷來只屬于人所從事的研究的范圍內,計算機也大有可為。推而廣之,在某種意義上而言,利用計算機治學與傳統(tǒng)治學方法其實并無本質不同。治學的一般步驟無非第一收集材料,第二論證推理,最后得出結論,這與計算機的工作流程幾乎沒有什么不同,而計算機只有做得更好。計算機的特長在于海量數(shù)據的存儲、運算,包括對數(shù)據的排序、篩選、統(tǒng)計和分類等,尤其善于窮盡文獻,發(fā)現(xiàn)知識,并推導出結論。這與人文研究工作的一般過程,即確立選題,閱讀文獻,篩選分類,統(tǒng)計分析,得出結論十分相似。因此,將計算機技術運用于人文科學研究領域是有其契合點的,作為人文科學的代表性學科古代文學研究當然也不例外。按照這一思路,除了美學鑒賞方面的工作計算機確實無能為力以外,伴隨計算機軟件技術的快速發(fā)展和人工智能理論的不斷完善,利用計算機從事古典文學研究的前景無疑是十分光明的。

四、面臨的問題與亟需克服的困難

  人類智能的本質特征和最高表現(xiàn)形式是創(chuàng)造。因此,計算機人工智能模擬人的智能,其難點不在于人腦所進行的各種必然性的演繹推理,而是最能體現(xiàn)人的智能特征的創(chuàng)造性思維,是那些具有某種不確定性的歸納、類比以及模糊推理等,包括學習、修正、推理、復雜條件下的判斷等,例如能夠選擇性地搜集相關的信息(文獻),在沒有獲得充分信息的基礎上作出嘗試性的判斷,并隨時根據反饋信息調整、修正自己的運行軌跡,最終推導出正確的結論。

  人工智能的前景雖然在本世紀前景廣闊,給人以無限遐想。但這并不表明在其運用于古典文學研究的進程中毫無阻礙,一片坦途。李鐸先生在《對話》一文中談到了文獻信息化過程中面臨的一些亟待解決的問題,筆者亦深表贊同,并不揣谫陋,對此稍加補充。

  第一,版本意識淡薄。大凡從事古典文學研究的學者都不會輕視版本在學術研究中的基礎作用,根據不同版本的文獻所作的學術研究完全可能得出相反的結論,這在古典文學研究中屬于常識問題。但在近年來古籍文獻的數(shù)字化過程中這一問題卻被嚴重忽略。除了電子版《四部叢刊》、《景印文淵閣四庫全書》這些按照特定版本所作的數(shù)字化文獻以外,多數(shù)網站和光盤提供的電子版古籍只追求數(shù)據量的龐大而極少注意文獻的版本。而眾多的用戶也滿足于從這些電子文本中查詢到所需文獻后再去核對印刷版書籍。如果僅僅滿足于電子版書籍的查詢功能,則此種狀況長期延續(xù)下去本無不可,但若想在此基礎上開發(fā)更深層次的功能,尤其是以此為研究平臺,從事一些帶有研究性質的開發(fā),則不講版本的現(xiàn)狀殊堪憂慮。

  第二,字庫設計不規(guī)范。為使計算機能夠處理中文文獻,國家有關機構和國際標準化組織先后制訂了GB2312,GB18030以及Unicode3.0等中國大陸和臺灣地區(qū)以及韓國等字符規(guī)范標準。微軟Windows2000以上版本支持的“方正超大字符集”即含有65531個字符,數(shù)量不可謂不大,但若用于古籍整理仍嫌不夠專業(yè),仍有很多冷僻字不能輸入。因而如何進一步規(guī)范古籍數(shù)字化過程中的字庫問題,包括簡繁字處理、異體字處理、冷僻字輸入等仍然是IT業(yè)者和廣大文史研究者需要共同面對的事項。

  第三,缺乏合適的程序設計語言。數(shù)據庫技術發(fā)展到現(xiàn)在已經是一門十分成熟的技術,功能強大的數(shù)據庫程序設計語言也有多種。但是這些語言若移植到古典文獻處理方面,便難免有削足適履之感。況且某些優(yōu)秀的語言掌握人數(shù)太少,尚未能運用于古籍整理和古文獻的分析。如1970年由英國愛丁堡大學柯瓦斯基(R.Kowalski)首先提出的以邏輯為基礎的程序設計語言Prolog(ProgramminginLogic),非常適合于自然語言理解,關系數(shù)據庫以及邏輯推理等人工智能研究領域,在此基礎上建立的可視化邏輯程序設計語言Visual Prolog是基于Windows的智能化編程工具,更加擅長表達人的思維和推理規(guī)則。這類語言目前尚未在國內流行,運用于古籍文獻的分析處理更可能遙遙無期。

  此外,將計算機運用于古籍整理和古典文學研究還面臨著其他一系列困難,如由于資金匱乏,很難吸引到高水平的程序員投身于此;從事古典文學研究者對計算機了解不深,制約了計算機在古典文學研究方面的應用;亟待數(shù)字化的古籍數(shù)量太多,大量古籍屬于善本、孤本、鈔本,字跡不清晰,OCR技術難以識別,人工錄入成本太高;商業(yè)因素的介入,各公司推出的電子文本格式混亂,沒有統(tǒng)一的標準,難以兼容等等。

  總之,加快古籍文獻的數(shù)字化進程,建立完善的古文獻數(shù)字化平臺,對于古典文學研究的未來有著極其重要的意義。只要我們對其中可能遇到的困難有充分的準備和行之有效的應對辦法,就一定能夠使古典文學研究得到跨越式發(fā)展。

注釋:

①《文學遺產》2005年第1期。

②人工智能英文名稱為Artificial Intelligence,簡稱AI,另外兩項尖端技術為“基因工程”和“納米科學”。

③按,1TB等于1024GB,1GB等于1024MB,1MB等于1024KB,1KB等于1024字節(jié),可存儲512個漢字。因此,如以純文本格式存儲數(shù)據,則1TB的盤片可存儲549,755,813,888個漢字。

④“宏”是一系列WORD命令和指令的組合,這些組合構成一個單獨的命令,可以用來快速完成經常重復的編輯任務。

⑤《談藝錄》)第2頁,中華書局1984年9月出版。

⑥《論宋詩》,見《詩詞散論》,上海古籍出版社1982年11月出版。

⑦《〈唐詩三百首〉中有宋詩嗎?》,《文學遺產》2001年第5期。

原刊《文學遺產》2005年05期

 
主站蜘蛛池模板: 福安市| 饶河县| 靖江市| 宁夏| 松原市| 太仓市| 崇义县| 沧源| 奉新县| 藁城市| 宜丰县| 凤台县| 濮阳市| 中阳县| 遵义县| 汉寿县| 萍乡市| 宝清县| 肃宁县| 文登市| 宕昌县| 永昌县| 阳新县| 云龙县| 绿春县| 禄丰县| 汪清县| 垫江县| 安义县| 西和县| 天台县| 三河市| 水城县| 赞皇县| 九龙坡区| 长子县| 吉木萨尔县| 鄱阳县| 尤溪县| 岱山县| 连云港市|