午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

顧青:真正的古籍數字化是建立一套綜合的知識服務體系

  【編按】2013年中文數字出版與數字圖書館國際研討會上,中華書局副總編輯顧青指出:理所當然的文物性善本不一定是文本性的善本。古籍數字化,依據的主要是文字,而不是文物。設想中的真正的古籍數字化,應該是將古籍文獻和出土文獻以及學術研究成果有機關聯而建立的一套綜合知識服務體系,能夠提供檢索、類聚、信息鏈接、知識提示、乃至跨學科跨領域的知識比對的服務功能。

  中文古籍數字化建設,自上個世紀80年代開始,至今超過了30年,業界經過多年的努力,有不少產品面世并進入商業化應用,有許多機構和企業準備投入其中,成績顯而易見。但也存在不少問題,比如內容重復建設嚴重,知識產權侵權多見,數字化產品內容錯誤很多,質量明顯低于紙質產品,技術更新緩慢等等。

  中華書局從事古籍整理工作持續了近百年。1958年成為古籍整理專業出版社。2003年起,開始進行中文古籍數字化工作,至今也已經10年了,期間實施了一系列實驗性的數字化工程:“中華古籍語料庫”,“二十四史分析系統”,“國家數字圖書館漢字信息標準”等,目前正參與“中華字庫”工程。由此,我們積累了較為豐富的中文古籍數字化建設的經驗教訓,也逐步形成了中華書局對中文古籍數字化建設的一些基本理念。

  一、中文古籍數字化必須以古籍整理為基礎。

  目前不少古籍數字化產品,致力于數據量的累積,或所謂技術的更新,但往往都存在一個致命傷:質量。學者用來檢索可以,但不敢直接引用,寫論文時,還需要直接核對紙質整理本,出處也只能依據紙質整理本。原因就是錯誤太多。

  這就涉及到幾個久為業界和學界忽略的常識:

  常識一:幾千年流傳下來的古籍造成大量遺失、訛誤、錯亂,時代和語言的變化,使得古籍未經認真整理,當代人是很難直接閱讀使用的。

  比如善本問題。

  現在很多人迷信善本。似乎善本就一定好,未必!

  善本有兩個概念:一個是文物性的“善”,越早(宋元本),越稀見(孤本稿本)、越值錢(拍賣),就越“善”。現在普遍通行的使用的是這個概念。

  另一個概念是文本性的“善”,內容完整準確,精校精刻,經過認真的整理。比如“二十四史”整理本,就比百衲本、殿本要“善”得多。

  越早的版本未必是內容最好的本子。一個宋元的殘本,是理所當然的文物性善本,但一定不是文本性的善本。古籍數字化,依據的主要是文字,而不是文物。除非我們是為文獻學家提供版本影像。

  常識二:近百年來的古籍整理實踐,整理了數千種古籍,數百種精品,其內容質量遠超前代;并且形成了一系列成熟的古籍整理規范。

  這套古籍整理規范,總結幾千年文獻學、傳統小學的成果,符合當代學術的需求,從選擇版本、標點、校勘、定字,到輯佚、匯編、影印等,包括古籍整理的完整程序和各個細節,涵蓋從出土文獻到抄本時代和刻本時代的各種文獻,涉及古代文化的各個學術領域和學科。符合古籍整理規范進行整理,質量就有基本保證。否則,必然錯誤百出。

  常識三:古籍整理作品是有知識產權的,是受到著作權法的確認和保護的,也是被司法實踐所證明的。

  所謂古籍整理作品沒有著作權的觀點,是錯誤的。

  基于以上的常識,我們可以說,古籍數字化建設,必須以古籍整理為基礎,需要有懂得古籍整理的專業人士來參與,必須充分利用已有的古籍整理的成果,必須尊重整理者的著作權,獲得法律的保護。離開了古籍整理基礎的古籍數字化,必然是先天不足,難以健康地成長。

  二、中文古籍數字化建設必須依托一系列符合古代漢語文字特點和傳統知識體系的行業標準。

  當我們把大量的文本數據匯集之后,如果簡單地進行字符串的檢索,一方面會出現大量的冗余數據,另一方面又會丟失大量的有效數據,其原因就在于沒有建立健全的數據處理標準。沒有經過處理(清洗,標注,關聯等)的數據是不合格的。這些標準,包括古籍及傳統文獻數字化用字標準(規范漢字字表),整理本古籍元數據標準及標注標準,整理本古籍主題詞標準(規范主題詞詞表)等等。

  比如,目前業界普遍使用的七萬多字的Unicode字符集,在古籍數字化中顯然不夠用。在我們的古籍整理實踐中,還涉及大量漢字的本字未收入,大量的異體字、通假字、避諱字,也包括繁簡字和日、韓的漢字,都需要做清晰準確的規范。沒有一個符合古代漢字使用規范的漢字字表,顯然不行。

  又比如,人名曹操,還有很多稱謂:孟德、吉利、阿瞞、曹東郡、曹使君、武平侯、魏王、魏武帝、魏太祖等等,僅《三國志》一書中就另有25個,更不要說歷代文獻的各種稱謂了,會更多。最熟悉曹操的專家在檢索“曹操”時,大概也不會把幾十個不同稱謂都輸入一次。如果有了主題詞表,輸入一次“曹操”,不僅讀者所有不同的稱謂所在的文獻都檢索出來,而且系統還能提示和曹操有關聯的主題。主題詞表的建設具有很強的專業性,應該包括時間、地點、人物、書目、職官、名物、語詞等等各類專題詞匯,并且有規范準確的歸類。

  建立標準,需要對這個行業的深刻理解,需要經歷古籍整理和學術研究的長期積累,需要經過古籍數字化產品的檢驗校正,并在使用中不斷完善。這是一項基于現代信息技術的、嚴謹而艱苦的學術工作。

  三、真正的古籍數字化產品,不僅僅是古籍文本的數字化,更應該是中華文化知識貢獻的數字化,其本質是基于現代信息技術的對各類不同用戶的服務。

  目前很多古籍數字化產品,還僅僅停留在數據倉庫和字符串檢索的層面,既沒有充分利用現代古籍整理成果和研究成果,也沒有充分發揮當代信息技術的優勢,應該說,還處于探索階段。

  我們設想中的真正的古籍數字化,應該是將古籍文獻和出土文獻以及學術研究成果有機關聯而建立的一套綜合知識服務體系,能夠提供檢索、類聚、信息鏈接、知識提示、乃至跨學科跨領域的知識比對的服務功能,讓專家學者和普通大眾都能夠共享中華文化的偉大貢獻。

  中華書局目前正在做的古籍數字化工作:一方面,基于和紙質圖書同步開發的電子書,我們采取與各個優質平臺和渠道合作的方式,即將推出。另一方面,我們正在做的,有兩個數據庫產品:

  一是“中華經典古籍庫”,精選近300種中國文化基本典籍,包括十二五史、通鑒系列、諸子集成、史料筆記叢刊等諸多經典系列,全部解決版權問題,全都經過高水平的古籍整理,質量與中華版紙質版本一樣,是可供征引的,質量是可以信任的。數據進行了文本標引處理,對書中的正文、注釋、校勘、專名、書名等都做了標注,可以分類檢索。同時,還附加原書的版面圖像,并將文字與圖像按頁碼一一對應,為核查和引用提供了方便。在收錄數據的基礎上,該產品還添加了電子字典、歷史年表、箋注書簽等工具,極大地增強了古籍閱讀服務。

  二是“中華基本史籍知識庫”,是利用先進的信息技術手段,通過傳統文化知識元的關聯,將古籍文獻、學術著作、知識條目有機結合而建立的立體化知識系統。作為知識分析的先導性成果,中華書局已經在“二十四史”上建立了基于本體的知識檢索模型,不僅能夠實現時間、地點、人物的知識關聯檢索,還可以通過可視化的形式展示,反映人物、時間、地點和事件之間的語義關系。“中華基本史籍知識庫”能夠提供傳統紙質圖書無法實現的知識檢索、類聚、鏈接以及知識提示等服務功能,比目前已有的古籍數字化系統有進一步的加強和創新,呈現了古籍文獻知識線索,破除了信息孤島現象,打通了書的界限,建立了圖書之間的聯系。同時“中華基本史籍知識庫”打破專家與廣大讀者之間的知識與信息壁壘,讀者不再是單純的使用者,他們與系統能夠形成互動,貢獻自己的知識。

  這是中華書局同仁的一個理想,是中華書局從事古籍數字化的夢想,需要大家的共同努力。

來源:百道網

  

Comments are closed.

主站蜘蛛池模板: 多伦县| 稷山县| 余庆县| 揭西县| 浮山县| 封开县| 桃园县| 广州市| 平山县| 土默特左旗| 贵州省| 平安县| 丹巴县| 瑞金市| 龙里县| 华容县| 昭苏县| 中卫市| 四子王旗| 石阡县| 云林县| 中西区| 贡山| 万山特区| 长治县| 平利县| 宁南县| 富民县| 寻乌县| 四平市| 阿图什市| 吴堡县| 鹤壁市| 凤台县| 九寨沟县| 崇明县| 新津县| 和平区| 于都县| 莆田市| 垫江县|