基于內(nèi)容的古籍檢索技術(shù)研究
(北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院)
古籍?dāng)?shù)字化是伴隨信息技術(shù)的進步發(fā)展起來的一個新領(lǐng)域,與古籍整理、文獻保護、文化傳承緊密相關(guān),對古籍的數(shù)字化是文化產(chǎn)業(yè)與信息產(chǎn)業(yè)結(jié)合的核心內(nèi)容。古籍?dāng)?shù)字化是指采用現(xiàn)代化技術(shù),對古籍文獻進行加工處理。具體而言就是借助計算機對古籍進行保護、整理、加工和傳播,將古籍通過數(shù)字代碼的形式存放。
隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,用數(shù)字化手段對現(xiàn)存的古籍進行數(shù)字化加工處理,給傳統(tǒng)的古籍研究帶來了生機和新的機遇,對于實現(xiàn)古籍資源共享,保護珍貴的古籍資源具有極其重要的意義。它會使以往繁重的古籍保護工作變得更加便利、快捷,利用信息技術(shù)、網(wǎng)絡(luò)技術(shù),也能使我們的古籍保護、展示和研究手段達(dá)到一個新的層次。
古籍檢索是古籍?dāng)?shù)字化研究為古籍使用者提供的一種古籍使用方式,就是對海量的數(shù)字化古籍進行快捷、精確、多維特征的查詢、展示等,從而大大提高古籍使用的效率,是一種直接面向用戶的古籍?dāng)?shù)字化服務(wù)。
在接下來的內(nèi)容中,本文將就古籍檢索技術(shù)研究的現(xiàn)狀、技術(shù)探索及制約檢索質(zhì)量的幾個因素進行探討。
一、古籍檢索技術(shù)現(xiàn)狀
我國的古籍?dāng)?shù)字化經(jīng)歷了數(shù)據(jù)庫版、光盤版、網(wǎng)絡(luò)版三個建設(shè)階段。數(shù)據(jù)庫版古籍包括書目數(shù)據(jù)庫和全文數(shù)據(jù)庫兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網(wǎng)絡(luò)版古籍主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無償發(fā)布,供互聯(lián)網(wǎng)用戶使用,這是目前古籍?dāng)?shù)字化的主要目標(biāo)。
目前,數(shù)字化古籍檢索的核心技術(shù)仍然是傳統(tǒng)的全文檢索方法。全文數(shù)據(jù)庫檢索系統(tǒng)主要采用逐字標(biāo)引形式,基于讀者輸入的檢索字或詞,在數(shù)據(jù)庫中查找完全匹配的結(jié)果以返回給用戶。但這種檢索技術(shù)只是單純基于關(guān)鍵詞的檢索,不論是單詞檢索,還是組合檢索,都只能檢索到與輸入的詞語嚴(yán)格匹配的資料,一是不可避免地帶來檢索效率低的問題,二是忽視了古籍文獻中具有不同形式的內(nèi)容間潛在的語義關(guān)聯(lián)。
由于古籍文獻對歷史研究、文化探討領(lǐng)域是非常珍貴的資源,有的甚至屬孤本,大都具有非常重要的保存和利用價值,因此對這些古籍實施信息化的管理和網(wǎng)絡(luò)共享,有利于對古籍知識的有效積累和應(yīng)用,從長遠(yuǎn)來說,也是古籍研究發(fā)展的重要推動力。但目前,數(shù)字化古籍的檢索領(lǐng)域仍然存在一些技術(shù)問題:
1.古籍?dāng)?shù)字化工作缺乏統(tǒng)一標(biāo)準(zhǔn),制作時使用不同的格式和分辨率等,獲得的古籍?dāng)?shù)字化文件格式多樣,閱讀器不同且不兼容,造成多數(shù)據(jù)來源下數(shù)字化古籍信息集成、數(shù)據(jù)交換困難;
2.未充分考慮古籍?dāng)?shù)字化的領(lǐng)域特點,對異形同義、異形近義、同形異義等問題未做深入探討,其根本是未解決古籍檢索技術(shù)中的關(guān)鍵性技術(shù)——古漢語詞典切分技術(shù),影響了古籍自動標(biāo)引、名稱主題檢索及專有名詞檢索等的實現(xiàn);
3.古籍?dāng)?shù)字化的工作仍局限將古典文獻掃描形成電子出版物,并非建立在正確理解原文基礎(chǔ)上的文字轉(zhuǎn)化,這樣的數(shù)字化方式只適用于保存,既不利于學(xué)者檢索,也不利于傳統(tǒng)文化的傳播,但掃描只是數(shù)字化工作的預(yù)處理部分,并不能代替面向古籍保護領(lǐng)域的前期考證、標(biāo)引以及字體轉(zhuǎn)換、排版等;
4.僅提供基于關(guān)鍵詞檢索的查詢、展示方式,缺乏智能化的、個性化的、多元化的關(guān)聯(lián)檢索方式。
基于上述介紹,我們認(rèn)為古籍?dāng)?shù)字化在檢索方面的技術(shù)處理同用戶的使用需求之間仍然存在很大距離。
二、基于內(nèi)容的古籍檢索技術(shù)探索
通過古籍?dāng)?shù)字化及檢索系統(tǒng)建設(shè),可以將多數(shù)據(jù)來源下的海量古籍文獻資料(如文本、圖片、報表等)在統(tǒng)一的管理平臺上進行科學(xué)的組織、分類和管理,并通過有效的手段發(fā)布分享,使之成為群體知識和共享成果,提供古籍研究互動交流的平臺,實現(xiàn)古籍資料收藏數(shù)字化、操作電腦化、傳遞網(wǎng)絡(luò)化、信息存貯自由化和資源共享化。
通過多種信息采集手段得到的海量古籍?dāng)?shù)字化信息存儲在古籍?dāng)?shù)據(jù)庫中,除了通過各種手段展現(xiàn)給用戶外,提供高效、方便的檢索功能也是十分重要和必不可少的。對于古籍的檢索,除了普通的關(guān)鍵字檢索、分類檢索外,還應(yīng)該提供具有特色的檢索方式—-基于內(nèi)容的檢索。
基于內(nèi)容的檢索基本思路是:先通過對古籍內(nèi)容的分析,自動或半自動的從中抽取古籍文獻的特征,并利用基于這些特征定義的相似度量函數(shù)計算特征之間的相似性,從而將最相似的古籍文獻作為檢索結(jié)果返回給用戶。
基于內(nèi)容檢索的目的不是去理解或識別古籍文獻目標(biāo),它所關(guān)注的是能否基于內(nèi)容快速發(fā)現(xiàn)信息,并在一定的響應(yīng)時間內(nèi)從古籍?dāng)?shù)據(jù)庫中查詢到符合要求的文獻。
基于內(nèi)容的古籍檢索,由于內(nèi)容表達(dá)的不精確性,必然是一種近似的檢索,結(jié)果中往往出現(xiàn)誤檢和遺漏,同時還需要注意以下兩點:
1.大型數(shù)據(jù)庫的快速檢索。在實際的古籍?dāng)?shù)據(jù)庫中,不僅數(shù)據(jù)量巨大,而且種類和數(shù)量繁多,因此要求檢索技術(shù)能夠快速、準(zhǔn)確的完成對古籍文獻信息的檢索。
2.作為一種檢索技術(shù),它具有很強的交互性,以相關(guān)反饋作為檢索的有效手段。通過用戶的相關(guān)反饋,檢索系統(tǒng)學(xué)習(xí)用戶的意圖和準(zhǔn)則來指導(dǎo)古籍檢索過程,能夠有效提高古籍檢索的效率。
完整有效的古籍信息檢索系統(tǒng)應(yīng)該包括常規(guī)的基于客觀屬性(關(guān)鍵字等)的檢索、基于內(nèi)容的檢索、對象關(guān)聯(lián)檢索及在這些檢索之上的概念查詢。對象關(guān)聯(lián)檢索以古籍對象之間的潛在關(guān)系和古籍對象之間的語義關(guān)聯(lián)為線索進行檢索,檢索結(jié)果可能是滿足查詢要求的關(guān)聯(lián)所構(gòu)成的語義網(wǎng)絡(luò)。概念查詢以這些檢索技術(shù)為基礎(chǔ),針對用戶提出的查詢概念要求,對古籍?dāng)?shù)據(jù)庫(集)進行檢索。上述描述及典型用戶的需求表明,基于內(nèi)容的古籍檢索技術(shù)研究涉及以下幾個方面:
·基于內(nèi)容的智能化檢索
要實現(xiàn)智能化的檢索,數(shù)字化古籍檢索系統(tǒng)必須能自動識別出我們所需要的、與關(guān)鍵詞相關(guān)的資料。簡言之,即將傳統(tǒng)的數(shù)字化古籍檢索由單一檢索轉(zhuǎn)換為多元檢索、由定向檢索轉(zhuǎn)換為關(guān)聯(lián)檢索、由靜態(tài)檢索轉(zhuǎn)換為動態(tài)檢索。
建立智能化古籍檢索系統(tǒng)的基礎(chǔ)是多維、多屬性的古籍?dāng)?shù)據(jù)庫建設(shè),即將古籍?dāng)?shù)字化、信息化的同時,在古籍?dāng)?shù)據(jù)庫建設(shè)初期就抽取出古籍資料的眾多特征,將簡單的古籍存儲形式擴展為多維的、多屬性的古籍–特征模式,為后來的關(guān)聯(lián)檢索提供接口。這樣,在進行古籍檢索時,輸入一個關(guān)鍵詞后,不僅能檢索到與關(guān)鍵詞匹配的資料,也能檢索到與關(guān)鍵詞語義或語用關(guān)聯(lián)的資料,還可以動態(tài)地生成相關(guān)資料和數(shù)據(jù)。
目前,大量古籍資料的數(shù)字化過程是將其進行掃描,同時以圖片及文本形式存儲。考慮到圖像數(shù)據(jù)庫的索引方式區(qū)別于傳統(tǒng)的文本數(shù)據(jù)庫,可以將二者分開進行存儲、管理,但保持兩個數(shù)據(jù)庫中存儲內(nèi)容在語義、語用等方面的關(guān)聯(lián),以此為基礎(chǔ)進行多維信息上的深度挖掘,獲得多個古籍資料在屬性或特征上的潛在相關(guān)性,從而為用戶提供更全面的、更準(zhǔn)確的檢索結(jié)果。
·個性化檢索
根據(jù)用戶自己的個性化需求,支持檢索條件、展示方式等的自主訂制。
由于古籍檢索系統(tǒng)用戶的研究目的、方向、領(lǐng)域等各不相同,因此即使利用相同的數(shù)據(jù)庫,用戶需要的信息或希望了解的內(nèi)容也不盡相同。古籍檢索系統(tǒng)提供的個性化檢索功能支持用戶訪問數(shù)據(jù)的個性化設(shè)置,提供個性化的信息挖掘及個性化輸出等,從而更好地滿足不同用戶的研究需求。
·自動化的統(tǒng)計及對比功能
古籍檢索系統(tǒng)在提供基本檢索功能的同時,還需支持對古籍資料的深入分析及信息挖掘,最典型的手段是資料的統(tǒng)計及對比功能。
通過對古籍資料某些屬性或特征的定量分析,由檢索系統(tǒng)自動統(tǒng)計并生成用戶需要的統(tǒng)計數(shù)據(jù),從數(shù)字的角度說明古籍資料在時間、空間等維度上的描述一致性、連續(xù)性等。
基于古籍特征的比較及相關(guān)統(tǒng)計數(shù)據(jù)的比較,可以發(fā)現(xiàn)古籍資料間的內(nèi)在聯(lián)系,也可以減少人工完成的繁復(fù)勞動,降低人工統(tǒng)計的錯誤可能。
完整的古籍檢索系統(tǒng)在為用戶提供更多的名稱主題及專題檢索等研究支持功能以外,也需要在格式轉(zhuǎn)換工具、版本轉(zhuǎn)換工具等方面得到進一步拓展。
基于內(nèi)容的古籍檢索系統(tǒng)由兩個子系統(tǒng)構(gòu)成,即數(shù)據(jù)庫生成子系統(tǒng)和查詢子系統(tǒng),每個子系統(tǒng)均由相應(yīng)的功能模塊和部件組成。
1.對象標(biāo)識
為用戶提供一種工具,以全自動或半自動(需用戶部分干預(yù))的方式對數(shù)字化古籍文獻中用戶關(guān)注的屬性及特征進行標(biāo)識,以便針對古籍對象進行特征提取、描述和查詢。如果檢索是針對整體數(shù)據(jù)庫內(nèi)容進行的,則檢索可以利用全局的內(nèi)容特征,而不采用對象標(biāo)識功能,也就是說,對象標(biāo)識是可選的。
2.特征提取
針對數(shù)字化古籍?dāng)?shù)據(jù),自動或半自動地提取用戶感興趣的、適于檢索的特征或?qū)傩浴L卣魈崛】梢允侨中缘模玑槍φ偶墨I的,也可以是針對文獻當(dāng)中某個具體研究對象的,如古籍的作者、古籍的年代等。
3.數(shù)據(jù)庫
數(shù)據(jù)庫由古籍庫、特征庫和知識庫組成。古籍庫包含多數(shù)據(jù)來源下的數(shù)字化古籍?dāng)?shù)據(jù),并且這些古籍?dāng)?shù)據(jù)可能包括多種存儲形式,如文本、圖像、視頻、音頻等;特征庫包含用戶輸入的客觀特征和預(yù)處理自動提取的內(nèi)容特征;知識庫包含古籍研究的領(lǐng)域知識和通用知識,其中的知識表達(dá)可以隨用戶需求進行更換,以適應(yīng)不同領(lǐng)域的應(yīng)用要求。
4.用戶查詢和瀏覽接口
主要以示例查詢和模糊描述等可視查詢形式向用戶提供查詢接口。查詢允許針對古籍?dāng)?shù)據(jù)、完整的古籍?dāng)?shù)據(jù)庫、古籍?dāng)?shù)據(jù)屬性以及任意屬性或特征的組合形式進行。由于古籍?dāng)?shù)據(jù)的視覺特性,不僅查詢時需要通過瀏覽掃描的數(shù)字版本確定查詢要求,在查詢后返回結(jié)果時也需要提供古籍瀏覽的功能。
5.檢索(匹配)引擎
檢索是利用特征之間的距離函數(shù)來進行相似性匹配,模仿人類的認(rèn)知過程,近似得到數(shù)據(jù)庫的認(rèn)知排序。對于不同來源、不同領(lǐng)域的數(shù)字化古籍,需采用不同的相似性測度算法,即在檢索(匹配)引擎中包括一個較為有效、可靠的相似性測度函數(shù)集。
盡管用戶向系統(tǒng)提供了自己認(rèn)為很重要或很有代表性的古籍資料,系統(tǒng)也有可能無法精確地滿足用戶所希望的相似性需要。“相似性”對系統(tǒng)而言是一些特征值的相似,雖然系統(tǒng)盡可能地用特征值相似來模擬語義或語用上的相似性,但這兩者之間總不可避免地存在一些差異。
6.索引/過濾器
檢索引擎通過索引/過濾機制來達(dá)到快速搜索的目的,從而可以應(yīng)用于大型古籍?dāng)?shù)據(jù)集。過濾器作用于全部數(shù)據(jù),過濾出的數(shù)據(jù)集合再用高維特征匹配來檢索。索引用于低維特征,可以利用R*樹以加快檢索速度。古籍的基本索引信息至少包括:古籍名稱、創(chuàng)作時間、作者、資料類型、全文文本、全文圖片等。
上述系統(tǒng)不能僅實現(xiàn)對古籍資料的目錄查詢和檢索,還必須提供古籍資料的全文瀏覽功能,因此系統(tǒng)開發(fā)過程中應(yīng)添加全文瀏覽、下載、批注等功能,實現(xiàn)通過網(wǎng)絡(luò)進行古籍文本資料、圖片資料及其它文件等資料的全文瀏覽、下載及共享等功能。
基于內(nèi)容的查詢和檢索是一個逐步求精的過程,即一個不斷進行特征調(diào)整、重新匹配的循環(huán)過程:
1.初始查詢說明。用戶查找一個對象時,最初可以用QBE或查詢語言形成一個查詢。系統(tǒng)提取該示例的特征或把查詢描述映射為具體的特征矢量。
2.相似性匹配。將查詢特征與特征庫中的特征按照一定的匹配算法進行相似匹配。
3.滿足一定相似性條件的一組候選結(jié)果,按相似度大小排列后返回給用戶。
4.特征調(diào)整。對系統(tǒng)返回的查詢結(jié)果,用戶可以通過遍歷(瀏覽)來挑選,直至得到滿意的結(jié)果,或者從候選結(jié)果中選擇一個示例,經(jīng)過特征調(diào)整后,形成一個新的查詢。
5.利用上述過程逐步縮小查詢的范圍,直到用戶對查詢結(jié)果滿意為止。
三、古籍檢索技術(shù)發(fā)展的前提
古籍?dāng)?shù)字化工作中目前仍然存在不少問題,制約了古籍檢索系統(tǒng)的發(fā)展,嚴(yán)重影響古籍檢索的性能,如生僻字的錄入、顯示問題,數(shù)字化古籍的不規(guī)范性,瀏覽軟件不通用等等。因此,要提高古籍檢索的效果及效率,首先要從數(shù)字化階段的工作入手,規(guī)范古籍加工整理的電子數(shù)據(jù)格式及瀏覽手段,研究簡、繁體轉(zhuǎn)換及古籍切詞問題,運用現(xiàn)有成果解決古籍?dāng)?shù)字庫中的字形處理等。
要保證古籍檢索的性能,追本溯源應(yīng)著重研究古籍資料的全息無損清晰掃描。由于所有的古籍資料都是歷史上遺留下來寶貴的檔案,所以數(shù)字化工作不能對原始文檔實行拆訂掃描整理,只能采用全息無損清晰掃描。紙質(zhì)文檔資料無損掃描最關(guān)鍵的問題是遇到一些頁數(shù)較多的資料時,會出現(xiàn)書頁的裝訂線一側(cè)無法清晰掃描或出現(xiàn)孤度的問題。為保證掃描圖像的平整,確保頁數(shù)較厚的資料裝訂線一側(cè)能夠掃描清楚、平整,必須使用全息書刊掃描技術(shù)及設(shè)備,實現(xiàn)零邊距掃描。
之后,還需進行掃描成果去噪。掃描的圖片歪斜,不清晰以及污點、折痕、噪點等,對以后OCR識別的影響都會很大,所以在掃描識別后要使用專業(yè)的圖象處理軟件對圖片進行糾偏和清晰度調(diào)整,包括圖文糾編、去黑邊、去噪聲、任意旋轉(zhuǎn)、影像增強等,以確保較高的識別率。
三是古籍圖像的壓縮存儲。通常一頁文檔按300dpi分辨率掃描后的圖像大小是900多K約1M,相對來說體積比較大。采用高倍的圖像壓縮比,以及二值化處理可對圖文對象進行有效消腫,減小圖文對象的存儲空間,大大提高在線閱覽和下載的速度。