優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

從計算角度看大規(guī)模數(shù)據(jù)中的知識組織

作者:李旭暉/秦書倩/吳燕秋/馬費成來源:《圖書情報知識》日期:2020-04-10人氣:927

大數(shù)據(jù)時代的到來促使各種大規(guī)模數(shù)據(jù)集不斷涌現(xiàn),如何組織其中的知識信息以提供內容更加豐富、功能更加強大的知識服務成為當前的研究熱點。文章根據(jù)大規(guī)模數(shù)據(jù)中知識內容多元化、結構網(wǎng)絡化、源數(shù)據(jù)非結構化以及狀態(tài)頻繁演化等特性,從計算角度對其知識組織的重點問題進行了探討。文章認為,知識組織需要適應當前以知識復用、發(fā)現(xiàn)和增值為核心的知識計算服務的需求,其重點在于底層知識信息的組織管理并受到知識持續(xù)演化的重要影響。文章提出了以語義數(shù)據(jù)管理為基礎進行知識組織的觀點,并據(jù)此對大規(guī)模數(shù)據(jù)中知識組織的核心問題(包括語義數(shù)據(jù)模型、知識表示、知識計算等方面)進行了剖析,論述了各相關方向亟待解決的理論問題和未來可能出現(xiàn)的發(fā)展趨勢。

1 引言

知識組織是對知識及知識間的關聯(lián)進行揭示與組織,研究包括知識獲取、知識處理、知識表示和知識共享等在內的一系列知識組織的過程[1]。早期的知識組織一般被認為偏向于對文獻進行分類與編目,或是表示對信息的歸類與組織。隨著對文獻、信息與知識三個概念之間的進一步認識與區(qū)分,知識組織的內涵也逐步發(fā)生變化。在大數(shù)據(jù)時代海量數(shù)據(jù)不斷地產(chǎn)生并被保存下來,積淀下各種大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集繼承了大數(shù)據(jù)中的豐富語義內涵,同時相對于大數(shù)據(jù)的易變性而言其內容更加穩(wěn)定,所蘊含的知識信息也極為豐富。隨著計算機技術的飛速發(fā)展,將這些大規(guī)模數(shù)據(jù)集中的知識信息納入知識管理的范疇已經(jīng)成為業(yè)界共識,而如何有效組織和管理好這些知識信息則是當前計算機科學技術和信息管理等學科所共同關注的研究問題。

在大數(shù)據(jù)時代,知識組織的研究將更多關注揭示知識單元內涵語義、挖掘知識外延關聯(lián)以及提供豐富靈活的知識服務,而這些目標的實現(xiàn)亟待知識組織方法和計算機領域的知識工程相關技術的深度融合與優(yōu)化創(chuàng)新。

大規(guī)模數(shù)據(jù)中的知識信息具有密度低、關聯(lián)多的特點。與傳統(tǒng)知識庫中的先驗性分類知識不同,大規(guī)模數(shù)據(jù)中的知識大多是通過以數(shù)據(jù)挖掘為代表的計算手段發(fā)現(xiàn)得到的,其知識發(fā)現(xiàn)過程在本質上是一個數(shù)據(jù)集中所蘊含知識信息的自底向上的演化過程,因此,大規(guī)模數(shù)據(jù)中的知識管理需要有合適的知識組織方式與其知識演化的特點相適應。

數(shù)據(jù)中蘊含的知識被人們通過各種計算手段不斷地進行歸納、總結和演繹,從而不斷地產(chǎn)生內容上或結構形式上的演化。從內容上看,知識演化可以表現(xiàn)為隱性知識與顯性知識之間的相互演化(知識螺旋)或是按照自然規(guī)律的新老交替演化[2]。結構形式上則主要表現(xiàn)為由低級形式向高級形式的進化或是面向需求的知識呈現(xiàn)上的變化。無論是何種類型的演變,對于該特性的刻畫都需要保持從底層到頂層的一致性,考慮包括知識狀態(tài)演化的感知計算、演化在語義模式中的體現(xiàn)及演化過程表達等在內的一系列關鍵問題。然而傳統(tǒng)的先驗式知識組織方式主要關注呈現(xiàn)結果,無法滿足這一知識特性。因此對大規(guī)模數(shù)據(jù)中知識的刻畫與組織,尤其是針對知識演化方面的深層探究與重新審視成為當前知識組織方向迫切需要解決的問題。

文章將從計算角度出發(fā),以保證知識高效有序地收斂于以知識服務為最終目的研究大規(guī)模數(shù)據(jù)的知識組織與管理。首先梳理描述知識組織與語義建模的研究進程;其次剖析闡述大規(guī)模數(shù)據(jù)集下知識組織的主要情境背景,即主要特點與重點目的;最后探究包括數(shù)據(jù)建模、知識表示與知識計算在內的核心問題并總結全文。

2 相關研究

知識組織的概念最早由美國圖書館學家布利斯(H.E.Bliss)于1929年提出。早期關于知識組織的研究側重于利用新方法解決老問題,著重分類、主題詞表等傳統(tǒng)上的知識組織[3]。隨著數(shù)據(jù)量的急劇增長及愈發(fā)明顯的網(wǎng)絡依賴,同時鑒于計算的發(fā)展及互操作性的重視,知識組織的探討情境逐漸被轉移到大規(guī)模數(shù)據(jù)集及網(wǎng)絡環(huán)境中,知識組織開始進入后網(wǎng)絡時代[4]。一般認為數(shù)據(jù)的大量累積使得傳統(tǒng)的知識組織方式將不再完全適用。通過大數(shù)據(jù)的視角,特別是數(shù)據(jù)體積的尺寸、速度、多樣性及準確性查看知識組織過程成為近年來的熱點研究視角[5]。隨著Web2.0對知識及其聯(lián)系的復雜度的進一步深化,網(wǎng)絡環(huán)境中的新元素、規(guī)則、目標流程及互動方式開始成為知識組織過程中不可缺少的考慮因素[6]。

在上層的知識組織探究中,知識組織的理論探究問題仍然保持熱度,研究者從原則[7]、語義關系[8,9]或組織方式[10]等視角對知識組織進行重新審視,從經(jīng)濟學角度探究知識組織的重要性[11]。將知識組織劃分為認識論、理論和方法論三個研究領域進行設計與研究[12];以面向共享、面向知識服務等角度設計知識組織策略,改進優(yōu)化知識組織也具有一定意義[13]。在底層實踐構建上,計算機技術的進步與創(chuàng)新推進著知識組織的革新。利用本體、語義網(wǎng)、元數(shù)據(jù)、關聯(lián)數(shù)據(jù)、標簽[14-17]等概念與技術,對各領域知識設計知識組織模型成為研究熱點。

綜上可知,每個層次的知識組織研究都在向著契合新環(huán)境的方向優(yōu)化。然而大多數(shù)知識組織研究是基于對外部因素的視角,對于知識本身,如知識演變等則相對較少。因此如何將知識本身的特性深度融合到知識組織中成為重要的研究課題。隨著計算機科學與技術在知識管理工作中的全面滲透,從計算的角度對知識組織進行審視將更為全面且深入。從計算的角度上來看,大規(guī)模數(shù)據(jù)集下知識組織的基礎主要體現(xiàn)為對表達知識的各種語義信息的組織。因此,我們認為在該層次上知識組織關鍵在于語義數(shù)據(jù)建模方法及基于語義模型的知識信息結構演化的表達。

關于語義數(shù)據(jù)建模方面的研究可以大概分為專門的語義數(shù)據(jù)模型研究與語義數(shù)據(jù)標準的探討兩個方向。在語義數(shù)據(jù)模型上,早期的研究通常將語義信息包含在實體與聯(lián)系的屬性上。這種語義數(shù)據(jù)模型或重視顯式類型構造函數(shù)[18],或重視屬性的探究[19],雖簡單易懂,但對“聯(lián)系”的表達能力卻有限,尤其是在對復雜的聯(lián)系上。20世紀70年代后期開始,以面向對象數(shù)據(jù)建模的角度來考察語義數(shù)據(jù)模型的設計與計算的方法開始逐漸被研究優(yōu)化[20]。該類型的語義數(shù)據(jù)建模利用角色、關聯(lián)等概念后雖改進了無法反映事物多刻面語義信息的短板,卻仍存在難以簡便描述動態(tài)語義演化問題[21]。為解決語義信息演化難題,研究者們進行了不一樣的嘗試。一種是采用多分類的方法[22],將每一個對象描述成具有動態(tài)得失過程的實體。該方法在刻畫對象的動態(tài)性上具有優(yōu)勢,卻難以描述上下文聯(lián)系與類型的層次性。另外一種方式是目前較為流行的角色模型。角色模型利用對象與所扮演的角色來表示語義信息,雖解決了上下文聯(lián)系問題,但表現(xiàn)得并不自然,同時還存在角色內在關系難以描述的關鍵問題[23]。圖模型也是近年來被研究者所重視的語義模型之一。大多數(shù)的圖模型關注于節(jié)點、邊、甚至是子圖所包含的語義信息[24],試圖豐富模型的表達能力,但在后驗語義演化與動態(tài)的角色的表現(xiàn)上卻不盡如人意。

在語義數(shù)據(jù)標準的探究上,目前比較流行的是RDF、OWL等。RDF采用三元組形式描述數(shù)據(jù)原始信息,它在結構上極為簡單,實際上卻沒有語義表達能力[25]。RDF把語義表現(xiàn)問題都推給上層應用,這樣RDF數(shù)據(jù)集在處理上有優(yōu)勢,但在建模上卻作用微小。RDFS在RDF基礎上定義了術語、概念等,可以表示一些簡單的語義,但在復雜場景中,缺少很多常用特征,語義表達能力仍較弱。OWL是本體描述的標準,是典型的傳統(tǒng)知識表示形式。嚴格而言,ONL并不是數(shù)據(jù)模型,且沒有較好的類似于集合代數(shù)方面的計算描述機制與查詢表達優(yōu)化機制。現(xiàn)有的基于OWL的數(shù)據(jù)處理通常還是會將OWL知識轉換為RDF來進行處理,而這種消耗相對較大。同時,無論是RDF還是OWL仍然使用的是傳統(tǒng)的數(shù)據(jù)查詢進行知識復用的方式,無法體現(xiàn)出知識分析、演化方面的特點。

隨著大量語義數(shù)據(jù)的累積與知識服務要求的日漸提高,如何高效處理、實時查詢海量的語義數(shù)據(jù),對知識進行發(fā)現(xiàn)并實現(xiàn)知識增值,成為一個非常重要且具有挑戰(zhàn)性的科學問題,因此語義數(shù)據(jù)的建模、計算與表達都應被提升到這樣一個高度上?,F(xiàn)有語義建模的研究主要考慮已加工過的語義數(shù)據(jù),同時也存在部分模型對知識的演化提供了一定程度上的支持(角色模型等)。但這些模型并沒有真正考慮到如何直接處理以文本為代表的原始語義數(shù)據(jù)。同時在語義數(shù)據(jù)標準的探究上也存在著知識分析、演化方面的缺陷。鑒于這樣的一種狀態(tài),利用語義數(shù)據(jù)建模對知識組織進行重新的審視與探究也變得必要且有意義。

3 大規(guī)模數(shù)據(jù)中知識的特點

大規(guī)模數(shù)據(jù)集用傳統(tǒng)數(shù)據(jù)管理手段難以(也不必要)有效進行事務型數(shù)據(jù)管理。相較于早期知識組織方法和目前流行的知識庫形式而言,在大數(shù)據(jù)和Web2.0的雙重影響下,大規(guī)模數(shù)據(jù)集中的知識表示出以下幾個特征:

(1)種類多元化

與傳統(tǒng)的基于單一數(shù)據(jù)源的知識庫不同,大規(guī)模數(shù)據(jù)中的知識種類分散,且并無明確的主題。例如,由微博信息匯集的數(shù)據(jù)源,其包含的知識門類繁多且水平參差不齊。同時,知識在形式結構上呈現(xiàn)出數(shù)據(jù)模式的多樣化,數(shù)據(jù)集中的知識可以基于多種描述方法并通過多種數(shù)據(jù)模式呈現(xiàn),甚至會采用不同媒體格式,例如跨媒體信息源中的知識往往是由圖片、聲音、文字共同體現(xiàn)的。此外,知識粒度也存在著多樣化特點,不同抽象粒度的分類知識和規(guī)則知識與具體的實體-關系知識廣泛并存于數(shù)據(jù)集中,知識的多樣化對知識組織工作帶來了新挑戰(zhàn),尤其是對知識獲取與處理階段的知識融合工作提出了更高的要求。

(2)結構形式網(wǎng)絡化

大規(guī)模數(shù)據(jù)中的知識信息在繼承傳統(tǒng)的知識分類體系的基礎上,更呈現(xiàn)出明顯的網(wǎng)絡化特征。大規(guī)模數(shù)據(jù)中的知識信息通常表征各類實體及其關聯(lián),自然構成了結構復雜的信息網(wǎng)絡(如目前流行的關聯(lián)數(shù)據(jù)集LOD)。這種網(wǎng)絡化的知識信息難以用單純樹狀結構的知識表示形式進行描述,而后者被廣泛用于早期的分類目錄直到當前流行的本體方法。同時,網(wǎng)絡化的知識信息本身又成為新知識的發(fā)現(xiàn)來源,近年來以社會網(wǎng)絡挖掘為代表的圖結構數(shù)據(jù)中的知識發(fā)現(xiàn)成為研究熱點,表明知識結構網(wǎng)絡化作為知識的基礎特性之一正在影響著當前知識組織管理的理論和方法的多個方面。為此我們需要基于知識的關聯(lián)特性重構知識的表現(xiàn)形式,并重新探究知識獲取、處理、表達與分享等組織流程。

(3)源數(shù)據(jù)非結構化

知識源的多元多維化進一步促進非結構化數(shù)據(jù)成為知識源的主要組成成分。結構化數(shù)據(jù)是已被標注的信息,在語義信息的解析過程中存在較低不確定性的概率,是現(xiàn)有知識組織較為成熟的數(shù)據(jù)類型。而非結構化的數(shù)據(jù)如自然語言文本、多媒體數(shù)據(jù)等等,由于結構和內涵上的語義不明確,在進行語義分析時往往具有更大的不確定性。這種不確定性的表達與消除直接影響了知識組織的整個流程,包括數(shù)據(jù)組織結構、知識表示與查詢等都需要對該問題進行更深刻的認識與探討。

(4)狀態(tài)頻繁演化

大規(guī)模數(shù)據(jù)集蘊含的知識在對數(shù)據(jù)的多角度、多層次的利用過程中一直處于動態(tài)演化的狀態(tài)。知識演化的方式不僅表現(xiàn)在內容上的改進、擴充或刪減,更體現(xiàn)在知識結構更新與抽象程度的改變上。知識的演化特性要求知識組織具有“彈性”,即能夠具有隨著知識狀態(tài)的改變,進行知識重組織與服務的能力。這樣一種彈性能力要求對知識信息的物理組織結構從底層構建開始就符合其動態(tài)演化的需求。此外,隨著對知識服務高效性和準確性要求的提高,知識的演化將逐漸從被動演化過渡到主動演化,即知識管理系統(tǒng)需要主動發(fā)現(xiàn)新的服務需求并驅動知識演化。大規(guī)模數(shù)據(jù)集上的知識演化并非是全向的和無目的的,而是以知識本體和知識需求為導向。本體作為一種抽象級別較高的知識,能夠在知識演化中作為從底層語義數(shù)據(jù)向高層知識信息演化的目標方向。而用戶的知識需求則應該以知識本體的方式來表現(xiàn),因此大規(guī)模數(shù)據(jù)中的知識演化可以看作是以“理解或解釋”本體為目標的,從而能夠為知識的主動、自動演化奠定基礎。

4 大規(guī)模數(shù)據(jù)中知識組織的目標

知識的無序狀態(tài)造成低利用率,因此對知識資源進行有效控制與序化以促進知識傳播利用一直被認為是知識組織的基本目標。大規(guī)模數(shù)據(jù)集中的知識信息管理需要滿足多層次、多角度的知識服務需求,其知識組織的目標主要體現(xiàn)在為海量知識數(shù)據(jù)的復用、發(fā)現(xiàn)與增值等方面的需求提供有效支撐。

(1)知識復用

知識的復用是根據(jù)知識服務需求對已有知識進行可重復利用。在大規(guī)模數(shù)據(jù)中,知識復用的主要方式從以往的知識查詢演變?yōu)楹A恐R的相關性搜索,有效搜索內容從原始文檔演變?yōu)橹R信息。例如目前流行的知識圖譜,就可以被看作是一種基于大規(guī)模知識信息的相關搜索,實現(xiàn)知識圖譜需要用到問答系統(tǒng)和信息檢索等多個方向的核心技術。知識復用服務要求知識組織在結構形式、遍歷方法、搜索策略等方面適應大規(guī)模、高并發(fā)、多刻面的知識搜索以提高檢準率及查全率。未來的知識復用方式還會更加豐富多樣,可以預見的是知識條目的查詢與知識相關搜索將無縫融合,為用戶提供更好的知識服務體驗。

(2)知識發(fā)現(xiàn)

復雜多樣的知識源以及非結構化源數(shù)據(jù)在聚集海量數(shù)據(jù)的同時也造成了知識信息的模糊型,影響知識發(fā)現(xiàn)的時間與效果。在大規(guī)模語義數(shù)據(jù)中進行高效的知識挖掘是有效知識發(fā)現(xiàn)的必然要求。知識發(fā)現(xiàn)的計算復雜度普遍較高,需求數(shù)據(jù)集的底層管理設施為之提供相應的支撐機制。例如針對并行化語義數(shù)據(jù)處理及其基礎上的知識挖掘工作,需要提供合適的數(shù)據(jù)存儲結構、高效的索引機制以及對應的存儲和索引分片和分片方式等,這些都是知識組織工作所必須考慮的重點與難點問題。

(3)知識增值

知識增值并非盲目的知識信息擴展,而是針對用戶需求進行的、以創(chuàng)造價值為目的的知識信息的定向擴充與更新。能夠支撐在知識增值過程中面向用戶,提供高效靈活的知識拓展及個性化知識推薦是知識服務的新要求。采取合理的方式表現(xiàn)與表達方法,記錄與挖掘用戶的個性化需求以提供知識服務是知識增值的最終目的。

(4)服務需求演進

知識組織的最終目的是為提供適度維度與粒度且具有定向性的用戶知識服務。利用大規(guī)模數(shù)據(jù)集的天然優(yōu)勢,對知識進行有效組織后,對知識進行復用、發(fā)現(xiàn)與增值成為大規(guī)模數(shù)據(jù)中知識服務需求的一個自然演進過程。知識的復用、發(fā)現(xiàn)與增值具有前后順序關聯(lián)且相互影響。知識復用為知識發(fā)現(xiàn)提供豐富知識準備,知識的復用與發(fā)現(xiàn)為知識增值提供良好數(shù)據(jù)基礎。相反,知識增值也為知識的復用及發(fā)現(xiàn)指明更為準確的查詢與發(fā)現(xiàn)方向。知識復用、發(fā)現(xiàn)和增值需求不僅要求知識信息在底層構建時充分考慮機器可讀性,更重要的是在組織結構上知識信息更應切合新知識的發(fā)現(xiàn)和針對特定需求的定向知識增值的趨勢。

5 大規(guī)模數(shù)據(jù)中知識組織的核心問題

大規(guī)模數(shù)據(jù)中的知識組織構建過程是一個復雜且系統(tǒng)的過程。根據(jù)上述知識組織的特點和目的,可以認為,隨著計算機技術的發(fā)展與數(shù)據(jù)資源的累積,知識組織問題的重點不再是僅包括傳統(tǒng)宏觀的經(jīng)驗性知識的組織或是知識庫中的規(guī)則與事實的組織,更需要將作為知識載體的計算處理工作納入研究范圍中。因此,從計算角度考察知識組織的核心內容與問題是研究大規(guī)模數(shù)據(jù)集下知識組織的主要途徑。

從計算角度來看,大規(guī)模數(shù)據(jù)中的知識組織的基礎和核心研究內容就是如何組織知識數(shù)據(jù)以實現(xiàn)知識服務需求可有效計算性。只有在立足于語義數(shù)據(jù)合理建模與高效管理基礎上,實現(xiàn)知識獲取、管理、復用、發(fā)現(xiàn)和增值等需求可有效計算,計算機才能夠從大規(guī)模數(shù)據(jù)中準確地獲得知識并主動配合知識的演化方向,進行高效的知識信息組織管理,進而實現(xiàn)更為精確且相關度高的知識搜索與發(fā)現(xiàn)。

數(shù)據(jù)作為知識的載體,是人們對事物認識的符號表示。這種反映事物認識的數(shù)據(jù)被定義為語義數(shù)據(jù)。一般情況下可以認為,知識的載體形式就是語義數(shù)據(jù)。語義數(shù)據(jù)種類繁多,目前并沒有被準確地定義。最常見的語義數(shù)據(jù)形式是自然語言形成的文本數(shù)據(jù)。其他類型的數(shù)據(jù),只要符合反映對事物的認識這一標準,無論形態(tài)如何都可以被稱作是一種語義數(shù)據(jù)。盡管如此,通常研究者傾向于認為語義數(shù)據(jù)是自然語言文本數(shù)據(jù)或更加規(guī)范化的有語義標注的結構化/半結構化數(shù)據(jù)。對大規(guī)模數(shù)據(jù)中的知識進行有效組織與利用,需要從語義數(shù)據(jù)管理與利用的角度解決相關理論問題。文章認為當前存在如下方面的問題有待進一步探索。

5.1 語義數(shù)據(jù)建模

要解決知識組織有效計算問題,首先就是要根據(jù)知識需求特點來組織語義數(shù)據(jù),其本質就是語義數(shù)據(jù)建模。因此在進行知識組織時需先探究設計合適的語義數(shù)據(jù)模型,使語義數(shù)據(jù)建模既能反映上層知識服務準則又能在結構上使語義數(shù)據(jù)與知識信息保持一致,保證知識組織工作具有直接轉換為組織管理語義數(shù)據(jù)的能力。

作為知識組織基礎與核心內容的語義數(shù)據(jù)建模,需要考慮以下三個方面的問題:

(1)非結構化數(shù)據(jù)中語義信息的表達

語義數(shù)據(jù)模型的基本任務是將所要處理的主要語義信息類型有效表示?,F(xiàn)有語義數(shù)據(jù)模型主要關注如何表示已解析標注好的結構化語義信息,且在應用時直接面向領域里已有的知識結構,但在大規(guī)模數(shù)據(jù)處理工作中,更需要語義數(shù)據(jù)模型能夠反映以文本數(shù)據(jù)為代表的常見非結構化數(shù)據(jù)中的語義信息。非結構化數(shù)據(jù)與傳統(tǒng)結構化語義數(shù)據(jù)之間存在的“語義鴻溝”,一直是語義計算所關注的重點與難點問題。非結構化數(shù)據(jù)未經(jīng)過人工分類,其蘊含的語義信息存在不確定性(原始數(shù)據(jù)在被解析為語義信息時會有多種可能或歧義)和多刻面性(即從不同層次、方面去考查原始數(shù)據(jù)可得到不同側面的語義信息)。因此,在語義數(shù)據(jù)模型的支持下,將原始數(shù)據(jù)中蘊含的未經(jīng)標注的非結構化語義信息與已標注的結構化/半結構化語義信息進行統(tǒng)一表現(xiàn)與處理是大規(guī)模數(shù)據(jù)下的知識組織中更應被關注的問題。

(2)知識演化在語義模式中的體現(xiàn)

知識的頻繁演化促使反映知識特征的語義數(shù)據(jù)也應具有演化特性。傳統(tǒng)語義數(shù)據(jù)模型大都屬于先驗型設計模式,考慮實際應用中的實體與關聯(lián),在應對知識狀態(tài)頻繁、主動演化的情況時并不能有效地進行修正與改進,缺少模型的穩(wěn)健性及彈性。此外已有語義數(shù)據(jù)模型偏好于對結果的直接呈現(xiàn),很少關注過程描述,這也是語義數(shù)據(jù)模型對知識演化過程進行描述的主要障礙之一。因此,要適應大規(guī)模數(shù)據(jù)中知識演化需求,需要語義數(shù)據(jù)模型在結構上體現(xiàn)出足夠的靈活性,并且能夠與知識信息在演化方向,演化形式和演化內容等方面相適應與配合。

(3)海量數(shù)據(jù)的語義分析

對海量原始數(shù)據(jù)進行深入語義分析是知識演化中的常見手段,是進行知識增值服務的基礎,在知識管理的很多任務中也處于核心地位。語義數(shù)據(jù)模型需要從數(shù)據(jù)結構與原子計算操作兩方面考慮如何適應數(shù)據(jù)語義分析的需求。一方面,模型的數(shù)據(jù)結構應能有效支持語義分析時涉及的大量歸納計算(如頻繁模式的挖掘),另一個方面,模型應提供用于實現(xiàn)語義分析的原子計算,滿足上層語義分析需求能夠方便表達并能在底層得到相應實現(xiàn)的要求。

5.2 知識表示

在數(shù)據(jù)建模后的知識信息表達,即知識表示,成為知識組織過程中下一個核心關鍵問題。對知識表示的研究在知識庫相關研究中已積累一些較為典型的方法與成果,是個傳統(tǒng)的研究課題[26]。一般而言,傳統(tǒng)的知識信息的表示主要關注事實性知識與知識規(guī)則的表示,采用主要包括一階謂詞邏輯表示法,基于規(guī)則的產(chǎn)生式系統(tǒng)表示法,語義網(wǎng)絡表示法及本體表示法等在內的一系列知識表示方法。雖然大規(guī)模數(shù)據(jù)情境下的知識組織特點與目標都發(fā)生了演變與深化,事實性知識與規(guī)則的表示仍是知識表示問題的主要內容之一。因此為更高效適應大規(guī)模數(shù)據(jù)帶來的改變,傳統(tǒng)知識表示方式需要進行一定程度的優(yōu)化改進,使對事實性知識與知識規(guī)則的描述與表示能更有效與自然。除傳統(tǒng)知識表示問題外,文章認為分類知識的表示、時空知識的表示、決策知識的表示及演化知識的表示亦是大規(guī)模數(shù)據(jù)下知識表示課題中關鍵性問題。

(1)分類知識的表示

描述事物間類別關系的分類知識是各種知識的基礎,也是傳統(tǒng)知識組織的主要方式與內容。隨著網(wǎng)絡化知識信息的大量涌現(xiàn),傳統(tǒng)的基于先驗式分類體系的知識表示與組織方式不再完全適用。研究者們已經(jīng)開始嘗試研究利用本體、鏈接路徑或結構演化等方式對知識分類準則進行優(yōu)化[27-29],但目前在分類知識表示上以本體知識為代表,仍主要沿用基于謂詞邏輯的樹狀類別形式。隨著網(wǎng)絡化知識中語義及結構的進一步復雜化,這種傳統(tǒng)的邏輯分類方式已經(jīng)難以有效刻畫語義數(shù)據(jù)和知識信息中豐富的關聯(lián)特征。因此我們認為,大規(guī)模數(shù)據(jù)集中分類知識的表示方法,需要基于合適的語義數(shù)據(jù)模型著重研究不確定性知識的模糊分類及事物多刻面信息分類的問題。這是因為:①非結構化數(shù)據(jù)中的知識信息因非結構化數(shù)據(jù)本身的語義不確定性特點,其分類方式也存在著不確定性;②大規(guī)模數(shù)據(jù)中的分類知識需要兼顧后驗式的、基于統(tǒng)計的分類方法,因此分類的不確定性是其內在特征;③事物的多類別事實是事物多刻面語義信息的產(chǎn)生根源,也是網(wǎng)絡化知識信息的產(chǎn)生根源,而對其進行合理有效的表示則是未來進行高效的知識發(fā)現(xiàn)服務的基礎。

(2)時空知識的表示

大規(guī)模數(shù)據(jù)集中知識信息的一個重要組成部分是對現(xiàn)實事物的描述(如新聞、評論等等),其核心內容是反映事物發(fā)生發(fā)展的時空知識信息。對時空知識的表示一直是數(shù)據(jù)管理領域的一個重要問題,傳統(tǒng)方法主要從表示事物的時空坐標空間和坐標間關系著手來刻畫事物的位置物理特性。然而對于大規(guī)模數(shù)據(jù)集的知識利用目的而言,事物在時空環(huán)境中的動態(tài)變化過程及其體現(xiàn)出的狀態(tài)、形式及結構上的有效關聯(lián)與變化更是需要分析、表現(xiàn)和利用的重點內容,如何在底層語義數(shù)據(jù)模型的支持下描述這些內容,形成事物的時空知識網(wǎng)絡并能有效的進行知識復用與發(fā)現(xiàn),是對事物型知識信息進行組織所必須解決的問題。以工作流知識表示為代表的研究工作已經(jīng)在流程知識表示方面積累了很多成果,而如何將已有的流程表示方法與原始數(shù)據(jù)集的時空知識信息獲取方法有效結合,實現(xiàn)從原始的時空語義數(shù)據(jù)中獲取組織時空知識,并進一步與時空知識服務無縫連接,還有待深入研究。

(3)決策知識的表示

大數(shù)據(jù)時代的決策管理所依賴的數(shù)據(jù)源正在從相對單一的知識庫、案例庫向更加復雜多樣的網(wǎng)絡數(shù)據(jù)發(fā)展,面向大數(shù)據(jù)的數(shù)據(jù)治理(Data Governance)技術已經(jīng)開始應用于管理信息系統(tǒng)。對用于管理決策的大規(guī)模數(shù)據(jù)集而言,其知識內容也會相應地從傳統(tǒng)的規(guī)則型知識擴展到網(wǎng)絡化知識,決策知識的表示形式將不再是以分類知識為主,而是更應該凸顯出知識的關聯(lián)性、不確定性和可類比性。首先,為管理決策提供依據(jù)的原始知識是海量的、多元的、關聯(lián)的,如何圍繞決策的主題有效組織與融合這些海量知識數(shù)據(jù),以進行面向決策計算任務的高效查詢搜索,將是決策知識表示的一個基礎問題。其次,決策知識更加注重從多個方面為決策提供相關支持信息,知識信息的相關性、準確性的程度等等都需要用不確定性方法來表示;第三,面向決策的大規(guī)模數(shù)據(jù)集將提供更加豐富的決策相關案例,但案例的質量、相似度以及可供借鑒的信息,都需通過專門的知識表示方法來對其進行刻畫后再進行合理評估。

(4)演化知識的表示

知識演化提供一個獨特且強大的理解并創(chuàng)造知識的路線圖[30],為知識發(fā)現(xiàn)與增值創(chuàng)造更豐富且相關的數(shù)據(jù)基礎。研究知識信息在演化過程中體現(xiàn)出的特性,是一個具有指導性、前瞻性的重要課題。傳統(tǒng)知識表示注重知識信息的橫向邏輯關聯(lián);在知識演化的過程中,演化結果與數(shù)據(jù)源間的縱向邏輯關聯(lián)和演化過程也具有豐富內涵,可以看作是一種演化過程特有的知識。實際上,時空知識或工作流知識可以看作是演化知識的特例,例如常見數(shù)據(jù)溯源技術就是對數(shù)據(jù)演化的描述。但目前對于大規(guī)模數(shù)據(jù)集中的一般演化知識的描述尚缺乏普遍適用的方法,其原因在于語義數(shù)據(jù)的邏輯結構復雜、演化方式多樣、演化目的不確定。為追蹤大規(guī)模數(shù)據(jù)集中的知識演化軌跡,演化知識的表示需要在刻畫知識信息內容和結構的狀態(tài)變化過程的基礎上,兼顧知識信息的邏輯性、不確定性和一致性。

5.3 知識服務計算

大規(guī)模數(shù)據(jù)集的知識庫基于語義數(shù)據(jù)集建立,在領域本體知識的語義數(shù)據(jù)表現(xiàn)基礎上,知識服務的計算自然形成了語義數(shù)據(jù)集上以知識查詢、搜索和知識發(fā)現(xiàn)為代表的知識計算。實現(xiàn)知識服務的有效計算是計算觀點下知識組織的根本目標,知識的復用、發(fā)現(xiàn)和增值都需要以底層的知識計算框架為支撐。相對于以往的面向具體任務的語義信息處理工作(如信息抽取、語義理解、信息搜索和知識庫查詢等等)而言,大規(guī)模數(shù)據(jù)集上的知識計算將逐步向標準化、平臺化的趨勢發(fā)展,這個過程需要有更強的計算理論和實踐方法做指引與支持。文章認為在知識計算的研究方向上將會重點關注下面幾個問題。

(1)語義計算范型

大規(guī)模數(shù)據(jù)集上的知識服務類型多樣,通過底層語義計算的標準化和平臺化,能夠有效支持各類知識服務的設計開發(fā)與實現(xiàn)。語義計算的平臺需要有基于語義數(shù)據(jù)模型的計算范型作為理論基礎。這種(些)語義計算范型應以語義數(shù)據(jù)查詢和處理的原子計算操作為基礎,綜合知識推理、知識搜索和知識發(fā)現(xiàn)等知識計算核心任務在計算表現(xiàn)形式和計算執(zhí)行過程上的特點,構建語義計算的代數(shù)系統(tǒng)或演算系統(tǒng)。在此基礎上,語義計算范型將為常見知識計算任務設計具有較強可操作性的任務構建方法。

(2)知識服務的計算表現(xiàn)

在上述語義計算范型支持下,大規(guī)模數(shù)據(jù)中的知識服務將被映射為語義數(shù)據(jù)模型上的各種標準化語義計算。如何有效表現(xiàn)知識服務的計算形式將成為知識計算的核心問題之一,這里主要涉及兩個層面的問題:一方面,為了滿足各種定制知識服務應用需求,需要在語義計算范型基礎上形成一套表現(xiàn)知識服務計算方法的設計模式,能夠便于應用開發(fā)人員快速建立知識服務。另一方面,知識服務的計算最終被規(guī)約為構成語義計算范型的原子計算,從計算理論角度來看,其計算任務的有效性主要體現(xiàn)為基于數(shù)據(jù)集的原子計算的時空復雜度。如何在知識服務計算表現(xiàn)形式的基礎上,對知識服務的計算復雜度進行分析評估,將是實踐中的一個重要問題。

(3)知識的集成與融合

多源、異構、分布的知識信息的集成與融合一直是知識計算的一個重要研究課題。大規(guī)模數(shù)據(jù)中的知識信息在集成與融合問題上呈現(xiàn)出新的發(fā)展趨勢。首先,非結構化數(shù)據(jù)源的廣泛存在加劇了知識信息的異構程度,同時傳統(tǒng)的結構化模式映射方法難以適用于基于非結構化數(shù)據(jù)的知識集成。因此,采用上述適于表現(xiàn)非結構化數(shù)據(jù)語義信息的數(shù)據(jù)模型并在其基礎上建立語義模式映射將成為知識集成與融合的基礎。其次,知識集成與融合的計算模式同時受到語義數(shù)據(jù)模型和分布并行計算模型的影響,企業(yè)對決策管理知識的集成融合的應用需求可能會催生基于并行圖計算平臺的專用的知識計算模式。第三,語義模式映射作為知識集成融合的邏輯模型,將與上述語義計算范型相結合,使得知識集成與融合的計算可以通過語義計算范型的原子操作實現(xiàn),并可與其他知識計算任務無縫集成。

(4)知識的主動演化

大規(guī)模數(shù)據(jù)集上的知識演化將隨著人工智能技術的融入逐漸從被動演化轉變?yōu)橹鲃友莼?。主動演化表現(xiàn)在內容和結構兩個方面。如前所述,知識庫在內容上的演化是以本體描述為基礎、由知識需求驅動的,其實現(xiàn)過程是本體描述驅動語義數(shù)據(jù)集進行語義查詢并自然積累各種相關的語義信息,形成了語義數(shù)據(jù)集乃至知識庫信息的更新。對于抽象級別比較高的知識本體和抽象級別比較低的語義數(shù)據(jù),兩者之間可能存在“語義鴻溝”,填補這個語義鴻溝需要基于上述知識表示和知識計算表現(xiàn)的方法和手段。而依靠人工智能技術可以提供更高層次的控制機制,對填補語義鴻溝的計算步驟(半)自動進行分析和歸納,從而實現(xiàn)本體知識在語義數(shù)據(jù)集中的映射和解釋,完成知識內容的主動演化。

知識結構上的演化以知識發(fā)現(xiàn)為主要方式。知識發(fā)現(xiàn)的數(shù)據(jù)源不僅僅是原始的語義數(shù)據(jù),而更包括了知識演化過程中,知識信息在消除“語義鴻溝”過程中所積累的大量中間結果數(shù)據(jù),從不同的角度用不同的語義本體進行解讀,形成不同側面的知識事實數(shù)據(jù),而這些信息形成的過程中,還會產(chǎn)生很多中間結果,這些結果常常是有用的,這些知識信息交織在一起,構成了知識發(fā)現(xiàn)的新數(shù)據(jù)源。隨著人工智能技術在知識組織中的廣泛應用,對這些海量的知識數(shù)據(jù)進行自主、自動的循環(huán)迭代式挖掘,將成為知識發(fā)現(xiàn)的一個常態(tài)任務,形成知識結構上的主動演化機制。同時,在本體驅動知識演化的過程中,知識庫將能自主進行對知識的內容和結構的演化模式進行歸納、對知識發(fā)現(xiàn)方式與方向進行更高層次地挖掘,從而進一步完善知識的主動演化。

6 總結

文章主要探討在大數(shù)據(jù)環(huán)境下的知識組織的核心問題與發(fā)展趨勢。大規(guī)模數(shù)據(jù)集作為大數(shù)據(jù)處理的積淀結果,其中的知識信息呈現(xiàn)出多元化、網(wǎng)絡化、源數(shù)據(jù)非結構化以及狀態(tài)頻繁演化等特點,并對以知識復用、發(fā)現(xiàn)和增值為核心的知識服務提出了新的挑戰(zhàn)。文章從計算的角度出發(fā),針對大規(guī)模數(shù)據(jù)中知識組織的新目標,從作為知識數(shù)據(jù)底層載體的語義數(shù)據(jù)入手,討論了語義數(shù)據(jù)建模、知識表示和知識服務計算三個與知識組織相關的核心方向,并初步探討了其中存在的關鍵理論問題。

大數(shù)據(jù)時代的到來使得知識本身特性發(fā)生改變,并催促知識組織為適應這樣一種新情境而改變方向與重點。隨著用戶對靈敏性及精準性的進一步要求,以知識本身特性為基礎,融合語義導向、復雜結構關聯(lián)等對知識組織進行深化革新與優(yōu)化成為必然的趨勢。同時伴隨研究的進一步深入,無論是頂層建筑還是底層的構建上,知識組織都將面臨巨大的挑戰(zhàn)。文章僅探討了未來知識組織工作中與知識計算相關的內容,而如何結合傳統(tǒng)知識組織方法,在宏觀層面研究大規(guī)模知識信息的組織管理和應用的方法、模型和技術,將是一個具有挑戰(zhàn)性的重要課題,有待進一步探索。 

網(wǎng)絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言