午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

gx.gif (2967 bytes) ....
 

 

 


學術研究專題



學術研究機構


相關站點




 
數字化進程中的中華文明

《中華讀書報》2000年10月25日 


□本報記者 楊競
  我國具有五千年悠久的文明史,擁有燦爛豐富的歷史文化寶庫。
如何使文化歷史巨著走下神壇,讓一般人能領略其博大精深;如何弘
揚中華文化,讓全世界的華人、漢學家方便了解研究中國的文學作品
以及歷史、軍事和哲學;如何使文史研究工作者能夠快速找到所需資
料,提高他們的研究效率……在今天,時代已經提出了這一新的課題。

  信息資源數字化是進入信息社會的重要標志,近年我國的文化資
源電子化正在從零星制作發展成規模開發;從初期的圖形掃描發展為
字符數碼化;從做目錄、文摘發展為做全文;從制作單機版CD發展為
制作或網絡版、Internet版數據庫,并出現了一批卓有成效的成果。
如剛剛榮獲首屆國家電子出版物獎、由北京書同文電腦技術有限公司
開發的《文淵閣四庫全書》電子版;由北京大學中文系開發的“網上
全唐詩電子檢索系統”;致力于融合中國傳統文化與現代社會的“國
學網”等。隨著認識深化、技術發展,必將有更多的有識之士加入此
行列,共同建鑄信息時代中華文化的“書同文”之路。

   文獻數字化:理論與實踐

  博大精深的中國文化,有許多在以漢字為載體的古籍中保存著,
而漢字信息的處理是計算機系統的基本功能。計算機也正是借此進入
了中國的社會生活,傳統的中華文化已經接受了計算機這一當代的高
技術并與之融合,為中華民族的發展、中華文化的振興迎來了新的契
機。漢字信息處理包括諸如漢字集、編碼、字形描述與生成、存儲、
輸入、輸出、編輯、排版、字頻統計及漢字屬性庫等課題。

  文字在電腦和網絡上能否正確地表達和顯現,是古籍電子化的關
鍵。而漢字的數目非常龐大,收入《中華字!芬粫械臐h字有八萬
多。每一個文科研究者(尤其是古代文化方面的學者)在電腦輸入時
都會遇到有漢字無法打出的情況,之所以會出現這種現象,是由計算
機軟件的底層結構決定的。

  盡管任何一部科學史著作都會提到中國發明了古老的計算工具,
如算籌、算盤等,但第一臺電子計算機卻于1946年誕生于美國。因此,
計算機界的“話語霸權”由來已久。在英語國家,人們習慣使用的字
符系統只包含26個大小寫字母、10個阿拉伯數字以及一些標點、符號,
字符總數不過100多個。為提高運算速度,科學家選擇了二進制作為計
算機運算的基礎,它只有兩個符號“0”和“1”。這種信息編碼的簡
單性正是計算機成功的基礎:實現了高速運算與高度穩定的完美結合。
在計算機的各個部件之間、在計算機與外圍設備(鍵盤、顯示器、打
印機、磁盤、光盤等)之間、在形成網絡的計算機與計算機之間交換
信息的單位一般是由8個字位(bit)組成的字節(Byte)。當人與計
算機打交道時,字節(Byte)和這100多個字符之間可以很方便地實現
轉換。計算機與英語文化的這種適應性為計算機在英語國家的迅速普
及、廣泛應用提供了最大的方便。

  當計算機引入中國之后,漢字文化與這種先進的信息處理工具不
適應的矛盾便凸現出來了。讓我們做一個簡單的計算,一個字節(
Byte)也就是8個字位(bit)所能代表的字符數是2的8次方,共256個。
而漢字的數量(國標碼就有六千多漢字)遠遠超過了一個字節可以表
示的范圍。計算機內部至少要用2個字節長度的編碼才能代表千千萬萬
的漢字。僅這一個問題,便給計算機的內部運作和計算機之間的通訊
帶來很多麻煩。

  好在20世紀的最后十年,人類完成了一項連接計算機世界與真實
世界的基礎工作:把迄今為止尚存的語言(LivingLanguages)按照其
文字(Script)統一編碼,制定出全球通用的編碼符集標準即“
Unicode”。2000年伊始,這個標準的文本便正式印刷面世。在這樣廣
闊的代碼空間、在世界范圍內統一代碼,其意義遠遠超過了幾千年前
的“書同文”,有人將它稱作計算機時代的書同文、字同碼。

  Unicode擁有充足的漢字編碼,它的碼位所容納的漢字囊括《康熙
字典》、《漢語大字典》,擁有如此多的標準漢字,進行古籍電子化
就再無外字困擾。同時,它能夠處理多國文字,它包含的少數民族文
字,以及其它多國文字,對于包含多種少數民族文字的古籍數字化非
常重要。而且,由于這種統一編碼的架構,使得正—異、中—日、繁—
簡、正—訛以及古今字同平臺相見,實現這種關聯的全文檢索系統,
極大的方便了使用不同語種用戶的檢索。

  使用Unicode技術可以構造跨語境的應用,使數字化的古籍可在中
文簡體、中文繁體、日文、韓文、英文等視窗平臺上運行,為全球關
心漢學的學者共享,并且可以構造Internet應用,使古籍數字化的訪
問更加簡便。

  Unicode解決了“文字顯現”的問題,它也因此成為今后我們關注
古籍數字化時常常會碰到的一個字眼。但除“文字顯現”問題之外,
字型的表示以及存儲、漢字的輸入以及輸出等多方面,都有一系列在
英語處理時不會發生的難題。計算機技術幾乎用了30多年的時間,才
完成了字符編碼從5bit、7bit、8bit直到16bit的轉換,目前以
Unicode為起點開始了向16bit、32bit的過渡。對Unicode的重點介紹,
相信可以令我們看到漢字文化的數字過程中所經歷的艱難。

   管窺數字化工程

  當我們安裝許多國外軟件或是驅動程序,在語言選擇的時刻,往
往會出現如下的選項,“English”、“SimplifiedChinese”、“
TraditionalChinese”,中英文之分倒是一目了然,但選擇哪一種中
文,很多人在第一次遇到這種情況時都不知所措。如果你選中的是
“TraditionalChinese”,看見的大多是一堆亂碼。因為它對應的是
臺灣的BIG5系統。

  “TraditionalChinese”對應BIG5碼,那么,臺灣的文獻數字化
是否能代表“傳統中文”呢?也許“代表”一詞并不確切,不過臺灣
的文獻數字工程無論在數據量、技術含量、運作方式等方面均領先一
步卻是一不爭的事實。已經“觸網”的人文學者中,大多數都曾訪問
過以“瀚典”為代表的臺灣網上典籍!板洹庇膳_灣的最高學術機
構中央研究院(http://www.sinica.edu.tw)主辦,收錄了以
十三經、二十五史為代表的中華典籍精華。除此之外,入庫資料還有
上古漢語語料庫摘要、臺灣方志與文獻、清代經世文編及續編、中華
民國史事日志等專業研究資料。雖然部分資料需付費使用,而且在檢
索后僅給出一段,但對于苦于海量數據的研究者來說,不啻是一種非
常方便的手段。

  在書目資料庫、全文資料庫、影音資料庫的工作已經基本展開之
后,1999年7月,臺灣第九次“電子、通訊、信息策略會議”更是通過
了“典藏數字化計劃”。此計劃要實現將重要的文物典藏全部數字化
的目標,建立起一個和諧的數字典藏,以促進人文與社會,以及產業
與經濟的發展。臺灣中央研究院負責籌備及協調事宜,總計投資近6億
臺幣,于2000年1月已正式展開?匆豢磪⑴c此計劃機構的七個單位:
故宮博物院、臺灣圖書館、歷史博物館、自然科學博物館、臺灣省文
獻委員會、臺灣大學、中央研究院,就能夠知道臺灣對此計劃的重視
程度。

  此外,香港中文大學的中國文化研究所(http://www.
chant.org)亦是專業研究者上網的一個好去處。此網站下屬的“古
文獻數據庫中心”目標在于將中國古代全部傳世及出土文獻加以校訂、
整理,并收入計算機數據庫,然后通過各種媒體(包括書刊、計算機
軟件及互聯網)出版。此項計劃進行已逾十載,獲得了大學研究資助
局撥款超過一千一百萬元。不過實際上,網站發布資料并不多,目前
實現逐字索引檢索的僅謝靈運集、謝月兆集、齊竟陵王蕭子良集、沈
約集等幾部。

  國內完成的《文淵閣四庫全書》電子版相比而言毫不遜色。共有
1500余冊、240萬頁、7億多漢字的《四庫全書》是中華第一大巨著,
是中華古文化的萬里長城。而電子版(及網絡版)的誕生,則使這部
皇家圖書走入民間、走入每一個網上讀者的家中。每個文字的數碼化
與豐富而又實用的全文檢索、擇要筆記、紀元換算以及簡體、繁體、
異體漢字相互關聯的查詢功能,使《四部全書》電子版成為名副其實
的中華文化信息寶庫和有效的研究工具。

  《文淵閣四庫全書》電子版工程的問世在許多方面積累了可供借
鑒的經驗:投資者、高科技企業、出版單位三者相結合,走社會化合
作之路,走資源與收益分享之路,為加快我國信息資源開發、促進中
文信息產業建設作了開創性的成功嘗試。

  在中華文化的建設方面,血濃于水,每一位炎黃子孫都有著共同
的心愿。

   深入淺出:數字“國學”

  在瀏覽器中鍵入“www.guoexue.com”,一個樸雅的頁面就會呈
現在眼前。這就是“國學網”的首頁。與前述大型的項目工程相比,
“國學網”也許不足為道,但它絕對是溝通專業學者與一般讀者間的
橋梁。它的創辦者尹小林先生如此給這個網下定義:文史工作者的信
息驛站,一個以中國傳統文化為主要內容的綜合網站。

  “國學網”以傳播我國優秀的傳統文化為宗旨,以促進傳統文化
走向現代化為目標,集普及、交流、提高等多種功能于一體,既是專
家進行學術研究的園地,也是值得文史愛好者經常光顧的樂園。這從
它的欄目設置上就能看的出來:古籍原典、學人采風、研究機構、學
術著作、期刊論文、國學動態、海外漢學、專業網站、國學入門。

  “國學網”最吸引人的,是它的“古籍原典”欄目。按照傳統的
經、史、子、集分類,以GBK大字符集為平臺,此欄目下十三經、二十
四史、資治通鑒、續資治通鑒、全唐詩、全宋詞、全元散曲、明清小
說等數百部上億字的古籍資料都被送上了互聯網,充分體現了信息社
會共享、開放的時代特征。全部資料均采用簡體新式標點,數據量相
當可觀。

  其它各欄目也是非常有價值的信息,其中“學人采風”、“研究
機構”兩欄分別介紹了國學研究人員的基本情況、學術成果以及國內
外重要的專業學術機構和研究團體,是不可多得的資源。專業刊物種
類繁多,想知道哪一個的具體情況,“期刊論文”可以滿足這一愿望,
它收錄了數十種學術研究期刊目錄和若干現當代學者的學術論文;
“國學動態”與“海外漢學”則收集和發布國內外最新學術活動和階
段性的研究成果;“專業網站”為網上“沖浪”者列出了全球重要的
國學網站;“國學入門”中的國學基本知識介紹所設名著導讀、名篇
賞析、專家治學心得、成語典故、對聯史話等,是文史愛好者的絕佳
去處。另外還有一些實用性強的附錄,如中國歷史大事年表,名人年
譜,它們既是專業研究者又是一般讀者的工具。

  與又是掛燈箱又是拍廣告的很多“.com”相比,“國學網”很不
起眼,它的“員工”很少,只有兩三個,更沒有風險投資。但它在這
種狀況下卻做到了每天補充和更新數據,并免費為研究者制作網頁,
發布最新研究成果的學術觀點。因此,目前它在文史研究界的影響越
來越大。北京大學教授、中國文化書院院長湯一介先生這樣評價道:
“國學網站”對研究中國文化的學者有非常大的幫助。它不僅大大縮
短了我們查找文獻的時間,而且還能幫助我們對所研究的課題提出若
干深化的角度和可以作為強有力的佐證的統計數字。這些數字是在別
的地方很難找到的。

  由于資金等的限制,“國學網”象是冬天里的臘梅,偏安一角,
幽香獨放。比起大的門戶網站一天動輒上百萬的pageview來說,“國
學網”開通半年以來的總瀏覽量不過四萬多人次,但遍覽整個中文網
站的概況:有一定知識深度和文化品位的寥寥無幾,大家似乎更熱衷
于各種熱點消息的炒作以及一些缺乏文化內涵的報道。相信任何一個
有眼光的人都會發現“國學網”獨特價值之所在。

   術業專攻:網上“全唐詩”

  由北京大學中文系歷時一年開發的全唐詩網上電子檢索系統(
http://chinese.pku.edu.cn/tang)被一些使用者稱為目前
世界上最優秀的古典文獻專業檢索系統,說它專業,不僅僅是從此項
目名稱上體現出的極強的專業性,即使是在技術的運用上,北大中文
系這次也照樣占了世界一流。

  據項目組主持人,語音實驗室李鐸先生介紹說,提出開發《全唐
詩電子檢索系統》,是基于如下幾個方面的考慮:

  1、中國古代文學的主流是詩歌,中國古典詩歌發展至唐代達到鼎
盛,因此選擇《全唐詩》作為中國古典詩歌大系電子檢索系統的開發
起點,起點高,影響面廣,對中國古代文學、語言、歷史、文化學科
領域的研究都是一項具有較高學術價值的工作;同時唐詩歷來是深受
人民喜愛的文學珍品,是全社會提高文學、文明修養的文化寶藏,因
而這項開發工作也必將對精神文明的建設起到積極的促進作用。

  2、開發最精良的數據庫:互聯網上的中國古代文獻網站亦有不少,
但錯誤太多,產生了極不良的負面影響。為了起到規范全球中文網站
的作用,項目組對所要建設的文獻提出了高于國家標準的要求。全部
文獻錯誤率控制在三萬分之一以下(共五校),《全唐詩》文本控制
在五萬分之一以下(共六校)。

  3、使用世界上最先進的工具:所有文獻均使用Unicode內碼,在
建設之初即已為下一個操作系統Windows2000做好了準備,在Win
dows2000平臺上,不需要任何轉碼工具,港澳臺操作系統可以直接讀
取信息,全球任何語言的操作系統均可在網上直接檢索《全唐詩》及
相關資料,并且兼容Windows9x,WindowsNT,Unix,Linux等平臺。檢
索系統工具使用了新西蘭國家圖書館開發的基于MG內核基礎上的CGI程
序,它提供了目前世界上最高速的文獻檢索引擎。

  為了更方便學者的應用,項目組盡可能建設較多的重要文獻數據,
項目組共錄入校對了一千七百萬余字,百余冊紙版書。該項目主體部
分由《全唐詩》及《全唐詩補編》組成,輔助項由《樂府詩集》、
《玉臺新詠》、《文選》等組成。參考類則由重要唐代史料《新唐書》、
《舊唐書》、《唐才子傳》、《歷代詩話》、《唐詩紀事》等資料組
成,共1700萬字。入庫資料中的任何一部都是研究詩歌流變不可或缺
的參考。

  檢索系統由兩個版面組成,一是瀏覽界面,它提供以原書為序瀏
覽,瀏覽內容只限于《全唐詩》。讀者可以方便地一首一首地閱讀
《全唐詩》。另一界面是檢索界面,此界面是本系統的核心,可以檢
索全部資料。主體部分除全文檢索功能外,另有“詩題檢索”、“作
者檢索”、“體裁檢索”、“音韻檢索”等五大功能,為使用者留下
多種渠道進入。檢索結果顯示詩歌全文(以首為單位)、作者小傳、
詩文校注、詩歌體裁、原書頁碼、冊卷等。

  從使用中來看,檢索結果的排序方法是非?茖W的。它依據兩種
算法,一是以原書為序,如果讀者以“完全匹配”模式檢索任意字詞,
凡含有此字詞的詩文均以原書為序排列。如果讀者以“部分匹配”模
式檢索字詞,則由檢索系統以人工智能的方法做優先條件排序。例如,
檢索“酒”,先出現的即是含有“酒”字最多的詩,此項功能為學者
的研究提供了極大的便利。

  項目開發不僅僅是錄入數據,而且要融入學科研究,要有電子版
文獻開發的科研成果,項目組在總顧問、古典文學專家袁行霈先生的
指導下,給全部五萬首詩做了“體裁檢索”標引,大大擴展了《全唐
詩電子檢索系統》的檢索功能;在蔣紹愚先生的指導下,建設了“音
韻數據庫”,為唐詩研究,文科教學,古代優秀文化的傳播提供了有
效的工具。

  香港中文大學的同行、挪威漢學家、美國的同行、國內一些專家
對這項使用不到50萬元的經費開發的如此強大功能、如此浩大數據的
檢索系統評價很高。高校古籍整理委員會安平秋先生帶領部分成員使
用后,便鼓勵申報古籍整理委員會的項目,他評價說:這是經費少、
見效快、功能強大的古籍整理項目。

   對未來的展望

  “國學網”與網上“全唐詩”可以稱得上目前國內網上中華文化
廣度與深度的代表,隨著時間推移,正在啟動中的的數字工程有許多
將顯露頭角。其中最引入注目的有“故宮文化資產數字化應用研究”、
“國家數字圖書館”等!皵底止蕦m”在故宮博物院與與日本凸版印
刷株式會社的共同推動下漸成事實。雙方已經簽訂了意向書,將項目
采用三維成像和虛擬現實技術來實現。據介紹,首先進行的是逐步把
博物院中的建筑和文物通過影像采集、數字處理、壓縮技術等制成三
維形象,同時,在故宮中建立虛擬現實劇院,集合高清晰、超寬屏幕
和環繞立體聲數字音響,使人們能夠隨意從各種角度觀看和欣賞建筑、
文物。觀眾不用戴特殊的眼鏡或傳感手套,只要通過手中控制器就能
走遍故宮的角角落落。

  可以看出,數字化不僅以“0101”的方式保存文字,甚至給我們
打造出一個虛擬的空間。也許,今后如何在高速變化的數碼環境中培
養人的性情、氣質、風度將成為發展中的難題……但不可否認,技術
正在向我們展示另一種可能。相信源遠流長的中華文化通過與科技的
結合必將煥發出新的魅力。

 
 

 



網站簡介 | 網站導航 | 廣告服務 | 聯系方式 | 招聘專才 | 幫助信息

版權所有 北京國學時代文化傳播有限公司 Copyright© 2000
web@guoxue.com

主站蜘蛛池模板: 务川| 南江县| 昂仁县| 密山市| 长沙县| 西乌| 武夷山市| 惠来县| 台南市| 红安县| 阿坝县| 沁源县| 章丘市| 仙桃市| 天等县| 青铜峡市| 罗山县| 和林格尔县| 灵璧县| 姜堰市| 永嘉县| 崇左市| 晋州市| 寻乌县| 虹口区| 晋宁县| 赞皇县| 雷波县| 当雄县| 余干县| 涪陵区| 南皮县| 彭州市| 华亭县| 白玉县| 上饶市| 夏河县| 睢宁县| 益阳市| 林甸县| 来凤县|