付艷
(北京師范大學信息科學與技術學院)
古籍數字化是伴隨信息技術的進步發展起來的一個新領域,與古籍整理、文獻保護、文化傳承緊密相關,對古籍的數字化是文化產業與信息產業結合的核心內容。古籍數字化是指采用現代化技術,對古籍文獻進行加工處理。具體而言就是借助計算機對古籍進行保護、整理、加工和傳播,將古籍通過數字代碼的形式存放。
隨著信息技術特別是網絡技術的發展,用數字化手段對現存的古籍進行數字化加工處理,給傳統的古籍研究帶來了生機和新的機遇,對于實現古籍資源共享,保護珍貴的古籍資源具有極其重要的意義。它會使以往繁重的古籍保護工作變得更加便利、快捷,利用信息技術、網絡技術,也能使我們的古籍保護、展示和研究手段達到一個新的層次。
古籍檢索是古籍數字化研究為古籍使用者提供的一種古籍使用方式,就是對海量的數字化古籍進行快捷、精確、多維特征的查詢、展示等,從而大大提高古籍使用的效率,是一種直接面向用戶的古籍數字化服務。
在接下來的內容中,本文將就古籍檢索技術研究的現狀、技術探索及制約檢索質量的幾個因素進行探討。
一、古籍檢索技術現狀
我國的古籍數字化經歷了數據庫版、光盤版、網絡版三個建設階段。數據庫版古籍包括書目數據庫和全文數據庫兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網絡版古籍主要是將數字化的古籍資源在網絡上有償或無償發布,供互聯網用戶使用,這是目前古籍數字化的主要目標。
目前,數字化古籍檢索的核心技術仍然是傳統的全文檢索方法。全文數據庫檢索系統主要采用逐字標引形式,基于讀者輸入的檢索字或詞,在數據庫中查找完全匹配的結果以返回給用戶。但這種檢索技術只是單純基于關鍵詞的檢索,不論是單詞檢索,還是組合檢索,都只能檢索到與輸入的詞語嚴格匹配的資料,一是不可避免地帶來檢索效率低的問題,二是忽視了古籍文獻中具有不同形式的內容間潛在的語義關聯。
由于古籍文獻對歷史研究、文化探討領域是非常珍貴的資源,有的甚至屬孤本,大都具有非常重要的保存和利用價值,因此對這些古籍實施信息化的管理和網絡共享,有利于對古籍知識的有效積累和應用,從長遠來說,也是古籍研究發展的重要推動力。但目前,數字化古籍的檢索領域仍然存在一些技術問題:
1.古籍數字化工作缺乏統一標準,制作時使用不同的格式和分辨率等,獲得的古籍數字化文件格式多樣,閱讀器不同且不兼容,造成多數據來源下數字化古籍信息集成、數據交換困難;
2.未充分考慮古籍數字化的領域特點,對異形同義、異形近義、同形異義等問題未做深入探討,其根本是未解決古籍檢索技術中的關鍵性技術——古漢語詞典切分技術,影響了古籍自動標引、名稱主題檢索及專有名詞檢索等的實現;
3.古籍數字化的工作仍局限將古典文獻掃描形成電子出版物,并非建立在正確理解原文基礎上的文字轉化,這樣的數字化方式只適用于保存,既不利于學者檢索,也不利于傳統文化的傳播,但掃描只是數字化工作的預處理部分,并不能代替面向古籍保護領域的前期考證、標引以及字體轉換、排版等;
4.僅提供基于關鍵詞檢索的查詢、展示方式,缺乏智能化的、個性化的、多元化的關聯檢索方式。
基于上述介紹,我們認為古籍數字化在檢索方面的技術處理同用戶的使用需求之間仍然存在很大距離。
二、基于內容的古籍檢索技術探索
通過古籍數字化及檢索系統建設,可以將多數據來源下的海量古籍文獻資料(如文本、圖片、報表等)在統一的管理平臺上進行科學的組織、分類和管理,并通過有效的手段發布分享,使之成為群體知識和共享成果,提供古籍研究互動交流的平臺,實現古籍資料收藏數字化、操作電腦化、傳遞網絡化、信息存貯自由化和資源共享化。
通過多種信息采集手段得到的海量古籍數字化信息存儲在古籍數據庫中,除了通過各種手段展現給用戶外,提供高效、方便的檢索功能也是十分重要和必不可少的。對于古籍的檢索,除了普通的關鍵字檢索、分類檢索外,還應該提供具有特色的檢索方式----基于內容的檢索。
基于內容的檢索基本思路是:先通過對古籍內容的分析,自動或半自動的從中抽取古籍文獻的特征,并利用基于這些特征定義的相似度量函數計算特征之間的相似性,從而將最相似的古籍文獻作為檢索結果返回給用戶。
基于內容檢索的目的不是去理解或識別古籍文獻目標,它所關注的是能否基于內容快速發現信息,并在一定的響應時間內從古籍數據庫中查詢到符合要求的文獻。
基于內容的古籍檢索,由于內容表達的不精確性,必然是一種近似的檢索,結果中往往出現誤檢和遺漏,同時還需要注意以下兩點:
1.大型數據庫的快速檢索。在實際的古籍數據庫中,不僅數據量巨大,而且種類和數量繁多,因此要求檢索技術能夠快速、準確的完成對古籍文獻信息的檢索。
2.作為一種檢索技術,它具有很強的交互性,以相關反饋作為檢索的有效手段。通過用戶的相關反饋,檢索系統學習用戶的意圖和準則來指導古籍檢索過程,能夠有效提高古籍檢索的效率。
完整有效的古籍信息檢索系統應該包括常規的基于客觀屬性(關鍵字等)的檢索、基于內容的檢索、對象關聯檢索及在這些檢索之上的概念查詢。對象關聯檢索以古籍對象之間的潛在關系和古籍對象之間的語義關聯為線索進行檢索,檢索結果可能是滿足查詢要求的關聯所構成的語義網絡。概念查詢以這些檢索技術為基礎,針對用戶提出的查詢概念要求,對古籍數據庫(集)進行檢索。上述描述及典型用戶的需求表明,基于內容的古籍檢索技術研究涉及以下幾個方面:
·基于內容的智能化檢索
要實現智能化的檢索,數字化古籍檢索系統必須能自動識別出我們所需要的、與關鍵詞相關的資料。簡言之,即將傳統的數字化古籍檢索由單一檢索轉換為多元檢索、由定向檢索轉換為關聯檢索、由靜態檢索轉換為動態檢索。
建立智能化古籍檢索系統的基礎是多維、多屬性的古籍數據庫建設,即將古籍數字化、信息化的同時,在古籍數據庫建設初期就抽取出古籍資料的眾多特征,將簡單的古籍存儲形式擴展為多維的、多屬性的古籍--特征模式,為后來的關聯檢索提供接口。這樣,在進行古籍檢索時,輸入一個關鍵詞后,不僅能檢索到與關鍵詞匹配的資料,也能檢索到與關鍵詞語義或語用關聯的資料,還可以動態地生成相關資料和數據。
目前,大量古籍資料的數字化過程是將其進行掃描,同時以圖片及文本形式存儲。考慮到圖像數據庫的索引方式區別于傳統的文本數據庫,可以將二者分開進行存儲、管理,但保持兩個數據庫中存儲內容在語義、語用等方面的關聯,以此為基礎進行多維信息上的深度挖掘,獲得多個古籍資料在屬性或特征上的潛在相關性,從而為用戶提供更全面的、更準確的檢索結果。
·個性化檢索
根據用戶自己的個性化需求,支持檢索條件、展示方式等的自主訂制。
由于古籍檢索系統用戶的研究目的、方向、領域等各不相同,因此即使利用相同的數據庫,用戶需要的信息或希望了解的內容也不盡相同。古籍檢索系統提供的個性化檢索功能支持用戶訪問數據的個性化設置,提供個性化的信息挖掘及個性化輸出等,從而更好地滿足不同用戶的研究需求。
·自動化的統計及對比功能
古籍檢索系統在提供基本檢索功能的同時,還需支持對古籍資料的深入分析及信息挖掘,最典型的手段是資料的統計及對比功能。
通過對古籍資料某些屬性或特征的定量分析,由檢索系統自動統計并生成用戶需要的統計數據,從數字的角度說明古籍資料在時間、空間等維度上的描述一致性、連續性等。
基于古籍特征的比較及相關統計數據的比較,可以發現古籍資料間的內在聯系,也可以減少人工完成的繁復勞動,降低人工統計的錯誤可能。
完整的古籍檢索系統在為用戶提供更多的名稱主題及專題檢索等研究支持功能以外,也需要在格式轉換工具、版本轉換工具等方面得到進一步拓展。
基于內容的古籍檢索系統由兩個子系統構成,即數據庫生成子系統和查詢子系統,每個子系統均由相應的功能模塊和部件組成。
1.對象標識
為用戶提供一種工具,以全自動或半自動(需用戶部分干預)的方式對數字化古籍文獻中用戶關注的屬性及特征進行標識,以便針對古籍對象進行特征提取、描述和查詢。如果檢索是針對整體數據庫內容進行的,則檢索可以利用全局的內容特征,而不采用對象標識功能,也就是說,對象標識是可選的。
2.特征提取
針對數字化古籍數據,自動或半自動地提取用戶感興趣的、適于檢索的特征或屬性。特征提取可以是全局性的,如針對整篇古籍文獻的,也可以是針對文獻當中某個具體研究對象的,如古籍的作者、古籍的年代等。
3.數據庫
數據庫由古籍庫、特征庫和知識庫組成。古籍庫包含多數據來源下的數字化古籍數據,并且這些古籍數據可能包括多種存儲形式,如文本、圖像、視頻、音頻等;特征庫包含用戶輸入的客觀特征和預處理自動提取的內容特征;知識庫包含古籍研究的領域知識和通用知識,其中的知識表達可以隨用戶需求進行更換,以適應不同領域的應用要求。
4.用戶查詢和瀏覽接口
主要以示例查詢和模糊描述等可視查詢形式向用戶提供查詢接口。查詢允許針對古籍數據、完整的古籍數據庫、古籍數據屬性以及任意屬性或特征的組合形式進行。由于古籍數據的視覺特性,不僅查詢時需要通過瀏覽掃描的數字版本確定查詢要求,在查詢后返回結果時也需要提供古籍瀏覽的功能。
5.檢索(匹配)引擎
檢索是利用特征之間的距離函數來進行相似性匹配,模仿人類的認知過程,近似得到數據庫的認知排序。對于不同來源、不同領域的數字化古籍,需采用不同的相似性測度算法,即在檢索(匹配)引擎中包括一個較為有效、可靠的相似性測度函數集。
盡管用戶向系統提供了自己認為很重要或很有代表性的古籍資料,系統也有可能無法精確地滿足用戶所希望的相似性需要。“相似性”對系統而言是一些特征值的相似,雖然系統盡可能地用特征值相似來模擬語義或語用上的相似性,但這兩者之間總不可避免地存在一些差異。
6.索引/過濾器
檢索引擎通過索引/過濾機制來達到快速搜索的目的,從而可以應用于大型古籍數據集。過濾器作用于全部數據,過濾出的數據集合再用高維特征匹配來檢索。索引用于低維特征,可以利用R*樹以加快檢索速度。古籍的基本索引信息至少包括:古籍名稱、創作時間、作者、資料類型、全文文本、全文圖片等。
上述系統不能僅實現對古籍資料的目錄查詢和檢索,還必須提供古籍資料的全文瀏覽功能,因此系統開發過程中應添加全文瀏覽、下載、批注等功能,實現通過網絡進行古籍文本資料、圖片資料及其它文件等資料的全文瀏覽、下載及共享等功能。
基于內容的查詢和檢索是一個逐步求精的過程,即一個不斷進行特征調整、重新匹配的循環過程:
1.初始查詢說明。用戶查找一個對象時,最初可以用QBE或查詢語言形成一個查詢。系統提取該示例的特征或把查詢描述映射為具體的特征矢量。
2.相似性匹配。將查詢特征與特征庫中的特征按照一定的匹配算法進行相似匹配。
3.滿足一定相似性條件的一組候選結果,按相似度大小排列后返回給用戶。
4.特征調整。對系統返回的查詢結果,用戶可以通過遍歷(瀏覽)來挑選,直至得到滿意的結果,或者從候選結果中選擇一個示例,經過特征調整后,形成一個新的查詢。
5.利用上述過程逐步縮小查詢的范圍,直到用戶對查詢結果滿意為止。
三、古籍檢索技術發展的前提
古籍數字化工作中目前仍然存在不少問題,制約了古籍檢索系統的發展,嚴重影響古籍檢索的性能,如生僻字的錄入、顯示問題,數字化古籍的不規范性,瀏覽軟件不通用等等。因此,要提高古籍檢索的效果及效率,首先要從數字化階段的工作入手,規范古籍加工整理的電子數據格式及瀏覽手段,研究簡、繁體轉換及古籍切詞問題,運用現有成果解決古籍數字庫中的字形處理等。
要保證古籍檢索的性能,追本溯源應著重研究古籍資料的全息無損清晰掃描。由于所有的古籍資料都是歷史上遺留下來寶貴的檔案,所以數字化工作不能對原始文檔實行拆訂掃描整理,只能采用全息無損清晰掃描。紙質文檔資料無損掃描最關鍵的問題是遇到一些頁數較多的資料時,會出現書頁的裝訂線一側無法清晰掃描或出現孤度的問題。為保證掃描圖像的平整,確保頁數較厚的資料裝訂線一側能夠掃描清楚、平整,必須使用全息書刊掃描技術及設備,實現零邊距掃描。
之后,還需進行掃描成果去噪。掃描的圖片歪斜,不清晰以及污點、折痕、噪點等,對以后OCR識別的影響都會很大,所以在掃描識別后要使用專業的圖象處理軟件對圖片進行糾偏和清晰度調整,包括圖文糾編、去黑邊、去噪聲、任意旋轉、影像增強等,以確保較高的識別率。
三是古籍圖像的壓縮存儲。通常一頁文檔按300dpi分辨率掃描后的圖像大小是900多K約1M,相對來說體積比較大。采用高倍的圖像壓縮比,以及二值化處理可對圖文對象進行有效消腫,減小圖文對象的存儲空間,大大提高在線閱覽和下載的速度。
發布日期:2009-08-18