在《中華傳世藏書》首發儀式暨出版座談會上的講話
尊敬的各位領導、各位來賓:
上午好!
今天,看著煌煌166冊的《中華傳世藏書》齊齊整整地排列在人民大會堂浙江廳,心情非常激動。首先要感謝全國一百多位參與這套叢書的專家學者,2億字的傳世經典,每一字每一句都經過他們精心點勘,其中部分學者今天來到了大會堂,共同見證全書面世這一重要時刻;其次,要感謝浙江出版聯合集團,他們以敢為天下先的勇氣和膽識,投入大量物力人力,做出了出版這套宏篇巨制的決定;感謝浙江人民出版社的領導和編輯人員,他們不畏艱辛,熬了無數個日日夜夜,精推細敲,嚴守每一個出版細節,保證全書總體質量;最后,要感謝尊敬的許嘉璐副委員長多年來對我所做的古籍數據庫工作給予的多方指導和大力支持,感謝劉夢溪先生、白化文先生對我的關心和幫助,感謝單霽翔先生、吳杰民先生對出版工程的充分肯定和支持。當然,我還要特別感謝今天到會的各界同仁和媒體朋友,正是你們的積極參與,才使《中華傳世藏書》出版工程更加光彩奪目。
一、《中華傳世藏書》是對傳統經典的一次大規模集結,也是對中華文化的一次全方位整理。
中華文化歷史悠久,底蘊深厚,從統一中國的方塊漢字,到改變世界的四大發明,從燦若群星的諸子百家,到美不勝收的唐詩宋詞,無不彰顯出中華文化獨一無二的氣質。中華民族之所以能綿延五千年而不衰,正是源于中華文化無比強大無比堅韌的生命力。
這種生命力,來自《周易》“自強不息,厚德載物”的天地啟示,來自《尚書》“民惟邦本,本固邦寧”的祖先訓誡,來自《論語》“己所不欲,勿施于人”的圣賢教誨,來自《詩經》“昔我往矣,楊柳依依;今我來思,雨雪霏霏”的那一縷永恒鄉愁。若要給這種生命力尋找依托,無論如何都繞不開這些傳統經典。
所謂傳統經典,就是從古流傳至今具有普遍價值和持久影響的著作,是先賢們仰觀俯察的體悟,哲思靈性的結晶。它們歷經時間的考驗,常讀常新,不因歲月更迭而褪色,不因世事變遷而磨滅。它們不是泛黃的故紙堆,不是陳舊的老古董,對于每一個時代來說,它們都是鮮活的。
傳統經典中所包涵的智慧,不但可以使我們看清來路,更可以為我們照亮去路,心有明燈,便不會迷失方向。尤其在當前的中國,經濟面臨轉型,亟需政治的深度改革,而政治改革又亟需文化的強力支撐。這個支撐不能憑借外勢,只能反求己身,從傳統經典中去汲取源源不斷的內生動能。
二、《中華傳世藏書》是國學大數據和人工智能在古籍出版界的一次成功應用。
自上個世紀90年代以來,隨著信息技術的發展,掀起了古籍數字化的浪潮,令傳統經典得以擺脫竹帛紙卷的束縛,以數據庫這樣一種全新的面貌進入我們的生活,真正為大眾所共享,這無疑是一場劃時代的革命。如今,建立超大規模古籍數據庫已成為社會共識,無論從國家文化戰略層面,還是從大眾文化自信層面,對于傳統經典的需求都從未像如今這般迫切。
我大學一畢業就在部隊服役,有幸在32年前就開始接觸計算機,又因為喜歡國學,便在工作之余,嘗試應用自己所學的編程技術,于1997年獨自研發了《全唐詩》檢索系統,1999年又創建了《國學寶典》數據庫,由此打開了古籍數字化的大門。2002年轉業后,我做的第一件事,就是用轉業費作為啟動資金,成立了專門致力于古籍數字化的國學公司。而今十六年過去,《國學寶典》也已從當初的幾千萬字擴充到現在的20億字。
有了這樣的大數據庫作為基礎,將人工智能引入古籍數字化領域,就成為順理成章的事。近些年,我們通過對《國學寶典》進行人工智能分析運算,先后研發出“自動比對”、“自動標點”、“自動排版”三大核心技術。《新華每日電訊》曾以《跨越歷史天塹,攻克古籍數字化瓶頸》為標題報道了這三大核心技術。
自動比對技術能自動進行多種版本古籍的逐字比對,標示出文字和符號的任何差異,并直接輸出精確的??庇涗?。
自動標點技術是基于對大規模帶標點文本的分析統計,以句型為基礎,輔以語法分析和字詞切分技術,通過模糊查找和分段比對,能對無標點的古籍文獻自動加上合適的標點符號,理想狀態下準確率可達90%以上。
自動排印技術能將數據庫文件迅速轉換為方正排版文件,實現設計、排版、出片、打樣、印刷“一條龍”,并較好地解決了古籍生僻字造字、簡繁體轉換、橫豎版式等多項技術難點。
借助此三大核心技術,得以免除許多繁瑣的重復勞動,將古籍整理出版的效率和質量提升數倍,既節省了寶貴的人力,又極大降低了成本,從而使大規模古籍的整理和出版成為可能。而且越是規范的數據庫,優勢就越明顯,差不多一臺計算機可以代替100名校對人員或排版人員的工作量,其應用價值不言而喻。
這種應用的最直接成果,就是我們今天的主角《中華傳世藏書》??梢哉f,如果沒有三大核心技術,就不可能有《中華傳世藏書》的誕生?!吨腥A傳世藏書》是對我們此前二十年古籍數字化工作的大考驗和大總結,為此我們進行了多種嘗試,攻克了多道難關,造就了《中華傳世藏書》四個特點:
一是編目合理。大型叢書選目和排序最能體現選編者的格局和眼光,也是評判其水平高下的主要標準。
二是底本權威。近二十年來,影印古籍大量出版,以及大型公共圖書館陸續發布了許多優質古籍的掃描圖片,從根本上保證了叢書的質量。
三是內容完整。所選690種經典均為全本,這是與此前出版的同類圖書明顯差異。
四是版式規范。我們投入了很大物力人力,從歷代精刻底本中選取了兩千余幅版刻插圖,重新繪制了許多與科技、中醫、農學等有關的矢量圖,力求圖文并茂,方便閱讀。為保證版式的美觀整潔,我們專門升級了打印字庫,使得數以萬計的各種特殊符號和生僻疑難字形,均可以在同一平臺下順利顯示。
三、《中華傳世藏書》傳承和弘揚優秀傳統文化的一個新起點。
人工智能經過數十年的沉淀,已經發展到了具有自我學習和修復能力的新高度。古籍整理本身學術含量很高,人工智能雖然不能替代專家的工作,但已經可以解決許多復雜問題。這次編纂《中華傳世藏書》,我們組織了全國數十所高校及科研單位的古籍專家參與審定,并汲取了現有可資借鑒的古籍整理成果,最終了實現人工和機器的完美合作。
《中華傳世藏書》是古籍數字化背景下大數據庫和人工智能結合的產物,標志著傳統經典在現代社會的傳播跨入了一個嶄新的階段,從量的積累到質的飛躍。在可以預見的將來,人工智能必將促進古籍數字化取得更大突破,除了比對、標點、排版之外,甚至??薄⒎g、考證、分析、研究等等,都有可能被機器實現。
在以移動終端為主流的今天,多種數據格式、多種顯示平臺的共生共享,個性化輸出、網絡化閱讀、智能化出版,古籍全數字化等一個個新的目標等著我們去攻克?!吨腥A傳世藏書》的出版,為我們打造了一個更高更新的平臺,必將激發出中華文化新的活力。
前方風景無限,國學大有可為!
二〇一八年十月二十二日