面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語義標(biāo)注框架研究
海量的學(xué)術(shù)文獻(xiàn)為科研工作者的研究帶來了困難。語義標(biāo)注是實現(xiàn)學(xué)術(shù)文獻(xiàn)的快速閱讀和知識的快速獲取的基礎(chǔ),因此,本文旨在構(gòu)建一個面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語義標(biāo)注框架,以規(guī)范和豐富學(xué)術(shù)文獻(xiàn)的標(biāo)注體系。本文從三個方面進(jìn)行了研究:一是學(xué)術(shù)文獻(xiàn)標(biāo)注本體的構(gòu)建,二是學(xué)科領(lǐng)域本體的構(gòu)建,三是標(biāo)注本體與領(lǐng)域本體的關(guān)聯(lián)實例。本文從學(xué)術(shù)文獻(xiàn)內(nèi)容定位、概念關(guān)聯(lián)、方法流程標(biāo)注及引文標(biāo)注幾個方面給出了標(biāo)注的實例。
1 引言
20世紀(jì)80年代起,隨著互聯(lián)網(wǎng)及計算機(jī)軟硬件的發(fā)展,數(shù)字出版的基礎(chǔ)設(shè)施逐步發(fā)展成熟,數(shù)字學(xué)術(shù)出版物應(yīng)運(yùn)而生,而隨之帶來的是數(shù)字學(xué)術(shù)出版物在數(shù)量上呈現(xiàn)爆發(fā)式增長。2015年《STM報告:科技及學(xué)術(shù)期刊出版概述》指出:截至2015年,CrossRef數(shù)據(jù)庫包含超過7100萬個DOI號,Google學(xué)術(shù)索引了1億~1.6億的學(xué)術(shù)資源(包括期刊文獻(xiàn)、書籍和灰色文獻(xiàn)),Web of Science數(shù)據(jù)庫中包含了約9000萬條記錄;截至2017年9月,《中國學(xué)術(shù)期刊(網(wǎng)絡(luò)版)》共收錄接近5000萬篇中文學(xué)術(shù)文獻(xiàn)。在這種背景下,學(xué)術(shù)交流產(chǎn)生了重大的變革。
研究者可以從網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)庫中獲取到大量的學(xué)術(shù)文獻(xiàn),這為研究者的研究工作提供了非常好的基礎(chǔ),但同時如此大體量的資源為學(xué)術(shù)工作的展開也帶來了困難。首先,新概念的產(chǎn)生或者新涉足某一領(lǐng)域時,研究者需要學(xué)習(xí)大量的已有知識才能跟上現(xiàn)有的研究進(jìn)展。而且,研究者的時間是有限的,獲取到的文獻(xiàn)越多,分配到單篇學(xué)術(shù)文獻(xiàn)閱讀的時間則相應(yīng)減少,Tenopir等[1]的研究就證實了這一假設(shè)研,研究者閱讀文獻(xiàn)不再是閱讀全文,而是獲取感興趣的內(nèi)容進(jìn)行閱讀:研究者通過瀏覽許多文章的部分來尋找、評估和利用一系列的信息[2],這種閱讀方式也被稱作碎片化閱讀。因此,第一個問題就是如何快速定位到文章的有用部分。另外,學(xué)術(shù)文獻(xiàn)中的知識元存在大量的關(guān)聯(lián)性,如引文關(guān)聯(lián)、相關(guān)概念等,如何組織這些相關(guān)的知識元是研究者面臨的第二個問題。
因此,Renear等[3]提出了“策略閱讀”的概念,采用學(xué)科本體來表示及鏈接科學(xué)數(shù)據(jù)可以提高研究者閱讀學(xué)術(shù)文獻(xiàn)的效率,即需要利用學(xué)科本體對學(xué)術(shù)文獻(xiàn)中的相關(guān)內(nèi)容進(jìn)行語義標(biāo)注(Semantic Annotation)。語義標(biāo)注就是將本體或元數(shù)據(jù)中的概念與資源建立聯(lián)系的一個過程。其中,語義標(biāo)注的核心是學(xué)科領(lǐng)域本體,本體最廣泛的定義是“本體是概念模型的明確的規(guī)范說明”[4],它可以靈活地定義事物結(jié)構(gòu),以元數(shù)據(jù)的模式,提供概念受控詞表,每個概念都包括一個明確定義的機(jī)器可理解的語義,且概念與概念之間的關(guān)聯(lián)也顯式地進(jìn)行了定義,這樣的結(jié)構(gòu)能夠讓計算機(jī)進(jìn)行推理應(yīng)用。
學(xué)術(shù)文獻(xiàn)的語義標(biāo)注就是借助領(lǐng)域本體,將學(xué)術(shù)文獻(xiàn)中的相關(guān)內(nèi)容與本體中的知識元(概念或關(guān)系)進(jìn)行鏈接,當(dāng)讀者需要獲取文獻(xiàn)中知識元對應(yīng)的描述時,可以借助語義本體從對應(yīng)的知識庫中進(jìn)行獲取。例如,Textpresso[5]就是一個與本體關(guān)聯(lián)的數(shù)據(jù)挖掘系統(tǒng),它所包含的學(xué)術(shù)文獻(xiàn)集依據(jù)本體中的術(shù)語分為了33個類別,用戶輸入一個或多個標(biāo)記或關(guān)鍵詞集合就可以定位到學(xué)術(shù)文獻(xiàn)中特定的句子,并可獲取本體中詞對應(yīng)的含義,支持語義查詢。預(yù)先對學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)、內(nèi)容或引文信息進(jìn)行標(biāo)注后,讀者可以通過這些標(biāo)注信息快速定位到文章的部分內(nèi)容實現(xiàn)“策略閱讀”。
目前,已有一些研究針對資源語義標(biāo)注框架提出了標(biāo)注本體的概念,標(biāo)注本體旨在針對學(xué)術(shù)文獻(xiàn)提出一個規(guī)范的本體框架,進(jìn)而采用標(biāo)注本體中的概念對學(xué)術(shù)文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注。目前已有的標(biāo)注本體有PAV[6]、PROV-O[7]以及AO[8]本體等。其中,PAV本體用于獲取數(shù)字科技資源的出處、作者以及版本信息,用以區(qū)別資源被獲取、轉(zhuǎn)換以及消費(fèi)的過程;PROV-O是W3C小組制定的用于統(tǒng)一資源交換的本體;AO本體提供了用于標(biāo)注生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)的概念及關(guān)系。
但是,現(xiàn)有的研究主要集中在標(biāo)注本體的制定上,而如何對學(xué)術(shù)文獻(xiàn)進(jìn)行標(biāo)注的研究比較少。為了實現(xiàn)學(xué)術(shù)文獻(xiàn)的語義標(biāo)注,首先需要明確學(xué)術(shù)文獻(xiàn)所包含的知識元類型,在繼承已有標(biāo)注本體的基礎(chǔ)上構(gòu)建一個面向?qū)W術(shù)文獻(xiàn)標(biāo)注的標(biāo)注本體,除了包含學(xué)術(shù)文獻(xiàn)的一些標(biāo)準(zhǔn)元數(shù)據(jù)信息(作者、創(chuàng)建者、創(chuàng)建時間)以外,還包括了學(xué)術(shù)文獻(xiàn)中的主題、發(fā)現(xiàn)、方法論等;其次,需要構(gòu)建一個與某一學(xué)術(shù)領(lǐng)域相關(guān)專業(yè)術(shù)語的領(lǐng)域本體,包含該領(lǐng)域的概念及概念間的關(guān)聯(lián);最后,要將學(xué)術(shù)文獻(xiàn)中的內(nèi)容與本體中的概念一一對應(yīng),從而可以通過標(biāo)注信息實現(xiàn)文獻(xiàn)的快速瀏覽,也可以通過URI對相應(yīng)概念做進(jìn)一步了解。
因此,本文旨在構(gòu)建學(xué)科領(lǐng)域?qū)W術(shù)文獻(xiàn)語義標(biāo)注框架,提出適用于學(xué)術(shù)文獻(xiàn)語義標(biāo)注的標(biāo)注本體,以及針對學(xué)術(shù)文獻(xiàn)具體內(nèi)容(如引文信息、內(nèi)容信息等)進(jìn)行語義標(biāo)注的方法。本文提出的學(xué)術(shù)文獻(xiàn)語義標(biāo)注框架也是實現(xiàn)文獻(xiàn)語義檢索的基礎(chǔ),通過語義標(biāo)注,給予機(jī)器可以理解的語義,讓使用者更方便更有效地利用學(xué)術(shù)文獻(xiàn),另外,提出的學(xué)術(shù)文獻(xiàn)標(biāo)注本體,可以被其他標(biāo)注本體進(jìn)行繼承和擴(kuò)展,具有較高的實踐價值。
2 相關(guān)研究
2.1 學(xué)術(shù)文獻(xiàn)語義標(biāo)注方法相關(guān)研究
學(xué)術(shù)文獻(xiàn)標(biāo)注主要有兩種方法:一是社會標(biāo)注,研究者在學(xué)術(shù)文獻(xiàn)閱讀過程中使用輔助閱讀或管理的軟件進(jìn)行標(biāo)注;二是采用機(jī)器自動進(jìn)行學(xué)術(shù)文獻(xiàn)的標(biāo)注。
社會標(biāo)注,即folksonomies,目前已有一些面向?qū)W術(shù)文獻(xiàn)的標(biāo)注軟件,如Utopia、Mendeley,這些軟件可以自動獲取到文章的一些元數(shù)據(jù)信息,如題名、作者、摘要、DOI、URL等,也可以獲取讀者的統(tǒng)計數(shù)據(jù)以及讀者對文章內(nèi)容的標(biāo)注。這類軟件有利于資源的分類和組織,標(biāo)簽可以提升檢索效率,也促進(jìn)了以同一興趣標(biāo)簽的社交網(wǎng)絡(luò)生成。但是社會標(biāo)注有一些缺陷,不同的表達(dá)、詞的歧義、不同粒度,都為標(biāo)簽的共享和重用帶來困難。
機(jī)器學(xué)習(xí)方法進(jìn)行標(biāo)注可以減少人工標(biāo)注的成本。Boella等[9]提出了一種結(jié)合語言學(xué)及機(jī)器學(xué)習(xí)的方法來進(jìn)行語義標(biāo)注,語言學(xué)方法主要依賴于POS標(biāo)注以及句法分析,再將這些元素轉(zhuǎn)化為特征集,采用支持向量機(jī)來對文本進(jìn)行語義標(biāo)注。段宇鋒等[10]結(jié)合樸素貝葉斯和弱監(jiān)督學(xué)習(xí)方法Bootstrapping來迭代學(xué)習(xí)和標(biāo)注中文物種領(lǐng)域的文本。Vidal等[11]提出了一種基于圖的方法來對e-Learning領(lǐng)域的教學(xué)資源文檔進(jìn)行標(biāo)注,每個相關(guān)術(shù)語鏈接到本體中的子圖,這一擴(kuò)展過程中,排除與文檔主題不相關(guān)的信息,因而有一系列本體子圖標(biāo)注文檔,最后取這些本體子圖的交集作為文檔的語義標(biāo)注。
2.2 學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)或標(biāo)注本體相關(guān)研究
目前,針對資源描述出現(xiàn)了一些元數(shù)據(jù)以及標(biāo)注本體。
都柏林核心元數(shù)據(jù)適用于描述和管理數(shù)字資源及館藏資源,包括題名、創(chuàng)建者、主題及關(guān)鍵詞、說明、出版者等15個廣義元數(shù)據(jù)。PROV本體(PROV-O)是針對不同系統(tǒng)不同內(nèi)容生成的信息進(jìn)行表示、交換或集成的本體,由W3C小組開發(fā)、管理和維護(hù)。PAV本體是用于獲取網(wǎng)絡(luò)資源的出處、作者以及版本信息的本體。標(biāo)注本體(AO)是與標(biāo)注相關(guān)的本體,包括評論、實體標(biāo)注(或語義標(biāo)注)、文本標(biāo)注(經(jīng)典標(biāo)記)、筆記等用于部分或全部電子文檔(文本、圖片、聲音、表格等)的標(biāo)注信息。SWAN[12]本體描述了艾滋海默癥領(lǐng)域的知識,它作為一個知識支撐系統(tǒng)能夠有效地支持艾滋海默領(lǐng)域研究,并且它與SIOC本體進(jìn)行了本體對齊,為不同粒度級別的科學(xué)論述的表示提供了一個完整的模型。
SPAR本體是用于描述出版領(lǐng)域的本體,它為語義出版和引文提供了一套可以機(jī)讀的RDF元數(shù)據(jù)集,包括文檔的描述,文獻(xiàn)目錄識別,引文的類型和相關(guān)內(nèi)容,書目引文,文檔的部分及狀態(tài),個體的角色及貢獻(xiàn),文獻(xiàn)計量學(xué)數(shù)據(jù)及工作流程。SPAR本體包括下述子本體:FaBiO是用于描述出版或者潛在出版實體的本體;CiTO是一種引文本體,用來描述引文的特性及類型,并允許標(biāo)注者標(biāo)記引文鏈接和引用意圖;BiRO是用于描述書目記錄及參考文獻(xiàn)的本體;C4O是用于描述參考文獻(xiàn)引文的本體,如文本內(nèi)部參考文獻(xiàn)指針、文本被引用文獻(xiàn)引用的次數(shù)等;DoCO提供了文檔結(jié)構(gòu)元素的詞表,如段落、節(jié)或列表等;PSO是用于描述文件出版狀態(tài)或者出版過程中不同階段的出版實體的本體,如提交、審稿中、拒稿、接收等;PRO是用于描述個體出版過程中(如作者、編輯、評審等)的角色的本體;PWO[13]是用于描述出版實體在出版過程中的步驟的本體,如文章在審稿中、印刷、發(fā)表等;DEO為文件中的修飾元素提供了一個結(jié)構(gòu)化的詞表,如引言、討論、致謝、參考文獻(xiàn)列表、附錄等;SCoRO是用于描述學(xué)術(shù)貢獻(xiàn)及角色的本體;FRAPO是用于描述研究項目信息的本體,如撥款申請、資助機(jī)構(gòu)、項目合作者等;BiDO是用于描述文獻(xiàn)數(shù)據(jù)中數(shù)字和分類的模塊本體,如期刊影響因子、作者H-指數(shù)、研究類型分類等;Five*是描述網(wǎng)絡(luò)期刊文章中五種屬性的本體。
對于描述學(xué)術(shù)資源的數(shù)據(jù)的規(guī)范,學(xué)術(shù)文獻(xiàn)語義標(biāo)注本體可在繼承現(xiàn)有元數(shù)據(jù)和標(biāo)注本體的基礎(chǔ)上加以擴(kuò)展。
2.3 學(xué)術(shù)文獻(xiàn)內(nèi)容提取相關(guān)研究
目前,一些研究針對學(xué)術(shù)文獻(xiàn)中的元數(shù)據(jù)元素、文獻(xiàn)結(jié)構(gòu)以及引文的提取提出了方案。
Constantin等[14]設(shè)計了基于規(guī)則的系統(tǒng)PDFX,利用設(shè)計的規(guī)則和特征集進(jìn)行了元數(shù)據(jù)的抽取以及標(biāo)注文本片段。Kovriguina等[15]研究采用規(guī)則和模板匹配的方法從會議文獻(xiàn)中提取元數(shù)據(jù)。
Tkaczyk等[16]主要采用啟發(fā)式規(guī)則及支持向量機(jī)方法實現(xiàn)了基本結(jié)構(gòu)抽取,采用支持向量機(jī)以及簡單的規(guī)則進(jìn)行元數(shù)據(jù)抽取,采用支持向量機(jī)及條件隨機(jī)場模型實現(xiàn)了引文抽取。Han等[17]研究了采用支持向量機(jī)進(jìn)行學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)(包括題名、作者、作者機(jī)構(gòu)、作者地址、致謝、版權(quán)、引文、Email、出版時間、摘要、引言、聯(lián)系方式、關(guān)鍵詞、URL、程度、出版號、頁面范圍等)的抽取,該方法通過預(yù)測類標(biāo)簽進(jìn)行迭代收斂來提升分類效果,再通過查找每行的塊邊界來進(jìn)行元數(shù)據(jù)抽取。另一個采用支持向量機(jī)的學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)抽取方法是等[18]提出的CRIS系統(tǒng)。
引文內(nèi)容是學(xué)術(shù)文獻(xiàn)中引用的與之相關(guān)的資源。等[19]采用線性條件隨機(jī)場實現(xiàn)了參考文獻(xiàn)字符串的抽取。目前的研究主要是基于規(guī)則、模板和一些學(xué)習(xí)方法,但是這些方法主要是基于領(lǐng)域內(nèi)一些手工提取的特征,為了突破這一限制,An等[20]探索了采用序列標(biāo)注的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行引文元數(shù)據(jù)抽取。
2.4 相關(guān)研究綜合述評
目前,針對學(xué)術(shù)文獻(xiàn)或?qū)W術(shù)資源進(jìn)行語義標(biāo)注的研究主要還是基于人工標(biāo)注的方法,通過設(shè)計標(biāo)注軟件或網(wǎng)頁,利用社會標(biāo)注方法來對學(xué)術(shù)文獻(xiàn)進(jìn)行標(biāo)注,這類標(biāo)注方法目前僅對學(xué)術(shù)文獻(xiàn)的一些信息(如關(guān)鍵詞、作者信息、題名等)作淺層標(biāo)注,并未涉及針對學(xué)術(shù)文獻(xiàn)進(jìn)行語義標(biāo)注。相關(guān)研究主要集中在對標(biāo)注本體的設(shè)計、學(xué)術(shù)文獻(xiàn)中一些信息(包括關(guān)鍵詞、結(jié)構(gòu)信息等)進(jìn)行機(jī)器自動抽取的研究。而如何實現(xiàn)對學(xué)術(shù)文獻(xiàn)的語義標(biāo)注,即如何將學(xué)術(shù)文獻(xiàn)中的內(nèi)容與領(lǐng)域本體進(jìn)行語義關(guān)聯(lián),目前的研究較少涉及,因此,本文提出了學(xué)術(shù)文獻(xiàn)的語義標(biāo)注框架。
3 學(xué)科領(lǐng)域語義標(biāo)注框架
整個學(xué)術(shù)文獻(xiàn)的標(biāo)注流程如圖1所示,本文提出一種適合手工標(biāo)注與機(jī)器自動標(biāo)注的學(xué)科領(lǐng)域語義標(biāo)注框架。整個語義標(biāo)注流程如下:首先,計算機(jī)按照標(biāo)注本體或者元數(shù)據(jù)對文獻(xiàn)中對應(yīng)項進(jìn)行讀取并預(yù)處理,抽取出對應(yīng)的信息,將計算機(jī)確定的條目(如期刊信息、作者、題名等)抽取結(jié)果存入知識庫;其次,針對標(biāo)注本體中的一些復(fù)雜項(如文獻(xiàn)主題、關(guān)鍵詞、研究問題、解決方案等),計算機(jī)將領(lǐng)域本體中的概念或關(guān)系與對應(yīng)的抽取項進(jìn)行關(guān)聯(lián),并將抽取結(jié)果提交給專家(或用戶)選擇標(biāo)注;有文獻(xiàn)閱讀需要的用戶在閱讀文獻(xiàn)后,可以利用標(biāo)注工具對文獻(xiàn)中的某些標(biāo)注項進(jìn)行標(biāo)注,對計算機(jī)的抽取結(jié)果進(jìn)行篩選,最后標(biāo)注工具將用戶的標(biāo)注結(jié)果提交到知識庫。
圖1 語義標(biāo)注流程圖
其中,知識庫包括本體庫、標(biāo)注元數(shù)據(jù)以及文獻(xiàn)語義標(biāo)注后的知識,知識庫可以輔助機(jī)器對文檔的自動標(biāo)注與標(biāo)注人員的手工標(biāo)注。本體庫中包含標(biāo)注本體和學(xué)科領(lǐng)域本體,例如生物醫(yī)學(xué)領(lǐng)域已有較多的本體,在本體標(biāo)注時可以借助已有本體進(jìn)行使用,然后其他一些領(lǐng)域并不具備這種條件,沒有已構(gòu)建好的本體,因此,需要采用本體自動構(gòu)建技術(shù)對該領(lǐng)域進(jìn)行構(gòu)建。
為了實現(xiàn)學(xué)術(shù)文獻(xiàn)的語義標(biāo)注,整個語義框架完成實現(xiàn)以下內(nèi)容:
(1)面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn),從獲取目前已有的元數(shù)據(jù)和標(biāo)注本體出發(fā),整理學(xué)術(shù)文獻(xiàn)相關(guān)的概念和屬性,構(gòu)建標(biāo)注本體。
(2)構(gòu)建學(xué)科領(lǐng)域本體,獲取學(xué)術(shù)領(lǐng)域的專業(yè)術(shù)語及關(guān)系。
(3)將學(xué)術(shù)文獻(xiàn)中標(biāo)注中的標(biāo)記與學(xué)科領(lǐng)域本體中的概念關(guān)聯(lián)。
3.1 標(biāo)注本體設(shè)計
3.1.1 標(biāo)注本體設(shè)計的目標(biāo)
標(biāo)注本體是為了描述需要標(biāo)注的對象(即學(xué)術(shù)文獻(xiàn))中的元素、結(jié)構(gòu)等信息,包括學(xué)術(shù)文獻(xiàn)中的一些元數(shù)據(jù),如題名、作者等;學(xué)術(shù)文獻(xiàn)中的一些科學(xué)論述,如陳述、假設(shè)等;學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)元素,如章、節(jié)、段落等;學(xué)術(shù)文獻(xiàn)中的引文信息,如引用次數(shù),引用文獻(xiàn)等;某個領(lǐng)域的學(xué)術(shù)文獻(xiàn)中的概念(專業(yè)術(shù)語)與關(guān)系。
3.1.2 標(biāo)注本體中的元素
本文的標(biāo)注本體繼承了一些已有的本體(SPAR本體、FOAF、OA等),并在此基礎(chǔ)上進(jìn)行了擴(kuò)展。標(biāo)注本體主要包含以下幾類概念及屬性:
(1)學(xué)術(shù)文獻(xiàn)相關(guān)的個體(Agent):包括學(xué)術(shù)文獻(xiàn)在撰寫、出版過程、檢索利用中相關(guān)的人、機(jī)構(gòu)及軟件。
(2)學(xué)術(shù)文獻(xiàn)相關(guān)的實體(Entity):不同種類的學(xué)術(shù)文獻(xiàn),學(xué)術(shù)文獻(xiàn)中的科學(xué)論述以及學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)部分,學(xué)術(shù)文獻(xiàn)參考文獻(xiàn)記錄及引文信息。
(3)與學(xué)術(shù)文獻(xiàn)相關(guān)的活動(Activity):如撰寫、修改、提交、印刷等活動,以及與這些活動相關(guān)的時間節(jié)點(diǎn)或時間區(qū)間。
圖2展示了學(xué)術(shù)文獻(xiàn)標(biāo)注本體的概念層級結(jié)構(gòu)。
3.1.3 學(xué)術(shù)文獻(xiàn)相關(guān)的個體
在學(xué)術(shù)文獻(xiàn)中,有一些個體作為參與者,如人、軟件、組織及機(jī)構(gòu)。針對這些元素,我們繼承了部分FOAF中的類,以一篇期刊文獻(xiàn)來舉例,可獲取文獻(xiàn)的作者,其在引用另一篇期刊文獻(xiàn)時,被引的文獻(xiàn)中包含的作者姓名也可被獲取,這些作者都作為FOAF本體中Person類的實例存在。
3.1.4 學(xué)術(shù)文獻(xiàn)相關(guān)的實體
1)學(xué)術(shù)文獻(xiàn)的種類
本文對學(xué)術(shù)文獻(xiàn)的種類進(jìn)行了分類并總結(jié),不同類型的學(xué)術(shù)文獻(xiàn)的撰寫規(guī)范、包含元素、結(jié)構(gòu)、內(nèi)容不一致,本文主要將學(xué)術(shù)文獻(xiàn)分為:書籍、文章、報告、會議文章等13個大類,并在此基礎(chǔ)上又進(jìn)行細(xì)分,例如,文章又可以分為綜述類文章、新聞類文章、雜志文章以及期刊文章。本文的學(xué)術(shù)文獻(xiàn)類型繼承了Fabio本體中的一些概念,其概念層次關(guān)系如圖3所示。
圖2 學(xué)術(shù)文獻(xiàn)標(biāo)注本體包含的概念
圖3 學(xué)術(shù)文獻(xiàn)類型的概念層次關(guān)系
2)學(xué)術(shù)文獻(xiàn)的科學(xué)論述及結(jié)構(gòu)元素
學(xué)術(shù)文獻(xiàn)的科學(xué)論述元素是指單篇學(xué)術(shù)文獻(xiàn)所提的觀點(diǎn),在國外稱為scientific discourse,包括斷言、提出問題、假設(shè)、支持的證據(jù)以及它們之間的論證關(guān)系,每個科學(xué)論述元素可以與學(xué)科領(lǐng)域本體或者社會標(biāo)注中的術(shù)語或者斷言進(jìn)行鏈接。斷言在學(xué)術(shù)文獻(xiàn)中通常指一些主觀性比較強(qiáng)的言論,例如對某個術(shù)語下的定義。提出問題通常是一個研究或者實驗開展的主題。學(xué)術(shù)文獻(xiàn)中的參考文獻(xiàn)及引文就為科學(xué)論述元素提供支持的證據(jù)。
學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)元素是組成學(xué)術(shù)文獻(xiàn)的部分,包括引言、背景、相關(guān)研究、方法、討論、數(shù)據(jù)等期刊學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu),也包括前言、后記、附錄等書籍修飾部分,以及章節(jié)、段落、句子等學(xué)術(shù)文獻(xiàn)粒度。
為了本體的共享和重用,上述的元素繼承了doco本體、deo本體以及fabio本體,其主要概念層次關(guān)系如圖4所示。
圖4 學(xué)術(shù)文獻(xiàn)中的科學(xué)論述及結(jié)構(gòu)元素圖
3)學(xué)術(shù)文獻(xiàn)參考文獻(xiàn)及引文元素
通常情況下,學(xué)術(shù)文獻(xiàn)中的參考文獻(xiàn)通常是與當(dāng)前文章相關(guān)的研究,或者為學(xué)術(shù)文獻(xiàn)中的論述提供證據(jù)。關(guān)于參考文獻(xiàn)及引文元素主要包括參考文獻(xiàn)集合描述、引用行為(其屬性包括引用意圖及情感傾向)以及引文計量。
關(guān)于參考文獻(xiàn)及引文的集合、記錄、列表等元素繼承自biro本體中的概念及屬性。
根據(jù)學(xué)者引用文獻(xiàn)的意圖可以將引用行為分為:作為權(quán)威描述引用、作為數(shù)據(jù)源引用、作為證據(jù)引用、作為潛在方案引用、作為推薦閱讀引用、作為相關(guān)文章引用、作為原始文檔引用、作為信息源引用等幾類。根據(jù)學(xué)者引用文獻(xiàn)時對文獻(xiàn)的情感傾向,可將引用行為分為:同意、不同意、認(rèn)為正確、批判、嘲諷、奚落、駁斥這幾類。這些概念及屬性繼承自cito本體中的一些概念及屬性。
關(guān)于引文計量的概念及屬性,如總被引次數(shù),主要繼承自c4o本體。
3.1.5 學(xué)術(shù)文獻(xiàn)相關(guān)的活動
與學(xué)術(shù)文獻(xiàn)相關(guān)的活動主要包括學(xué)術(shù)文獻(xiàn)創(chuàng)造、加工、修改、使用過程中相關(guān)的活動,繼承PROV本體中的Activity類。這些活動主要有作者生產(chǎn)、提交、修改、接受、退回、出版、預(yù)印本發(fā)布、發(fā)行、撤回、勘誤等,主要繼承自Fabio本體。
3.2 學(xué)科領(lǐng)域本體構(gòu)建
為了將學(xué)術(shù)文獻(xiàn)中的專業(yè)術(shù)語與學(xué)科領(lǐng)域本體中的概念相關(guān)聯(lián),首先需要構(gòu)建學(xué)科領(lǐng)域本體,該領(lǐng)域本體中包含的概念是某一學(xué)科領(lǐng)域中的專業(yè)術(shù)語,這些術(shù)語也可以是領(lǐng)域詞表中的術(shù)語轉(zhuǎn)化而來,本節(jié)介紹一種學(xué)科領(lǐng)域本體半自動構(gòu)建方法。
(1)定義需要獲取學(xué)科的范疇,收集該學(xué)科領(lǐng)域相關(guān)的本體、詞表,考慮復(fù)用的可能。
(2)獲取領(lǐng)域內(nèi)的術(shù)語:首先確定領(lǐng)域內(nèi)術(shù)語的類型,如任務(wù)、方法、工具、資源這幾個類別。收集領(lǐng)域內(nèi)的語料,對語料進(jìn)行文本轉(zhuǎn)化、去噪、分詞(英文語料包括詞根化)、詞性標(biāo)注等預(yù)處理。結(jié)合語言學(xué)、統(tǒng)計學(xué)或機(jī)器學(xué)習(xí)方法自動地從語料中抽取術(shù)語,語言學(xué)方法需要按照領(lǐng)域內(nèi)術(shù)語的規(guī)律提煉出詞性模板,機(jī)器學(xué)習(xí)方法首先需要獲取用于抽取術(shù)語的特征。最后抽取出領(lǐng)域內(nèi)的術(shù)語。
(3)獲取術(shù)語間的等級關(guān)系:首先定義一些等級關(guān)系的規(guī)則模板(例如,A是一種B,則A是B的子類),從網(wǎng)頁或語料中獲取到等級關(guān)系概念對,再利用基于圖的方法獲取等級關(guān)系圖模型,最后利用圖剪枝方法去除冗余的關(guān)系。
(4)獲取術(shù)語間的非等級關(guān)系:針對領(lǐng)域內(nèi)的知識,定義術(shù)語間非等級關(guān)系的類型(如部分-整體關(guān)系);再到語料中獲取具有非等級關(guān)系的三元組,采用統(tǒng)計學(xué)方法判定非等級關(guān)系三元組中概念對、動詞與概念對之間的關(guān)聯(lián)程度,取閾值內(nèi)的非等級關(guān)系三元組;再提取特征,采用機(jī)器學(xué)習(xí)的方法判斷提取三元組的類型。
最后對生成的本體進(jìn)行評價,或者重復(fù)上述過程。
4 學(xué)術(shù)文獻(xiàn)語義標(biāo)注實例
學(xué)術(shù)文獻(xiàn)的語義標(biāo)注可以是手工標(biāo)注或是機(jī)器自動標(biāo)注,無論是采用何種標(biāo)注方法,均是對學(xué)術(shù)文獻(xiàn)或者其中某一部分,添加注釋或者進(jìn)行語義鏈接。本節(jié)針對學(xué)術(shù)文獻(xiàn)中語義標(biāo)注的常見類型進(jìn)行區(qū)分,并給出學(xué)術(shù)文獻(xiàn)語義標(biāo)注的實例。
根據(jù)OA本體[21]中的規(guī)定,標(biāo)注實例可以描述為類oa:Annotation的成員(實例),包含標(biāo)注主體(oa:hasBody)以及標(biāo)注對象(oa:hasTarget)。針對標(biāo)注實例,可以添加相關(guān)描述,如標(biāo)注者、創(chuàng)建時間等,標(biāo)注者是FOAF本體中Person類的實例,如圖5左部分所示。同時,可以對標(biāo)注動機(jī)進(jìn)行描述,本文繼承了OA本體中的oa:motivatedBy,這些動機(jī)有評論、描述、分類、鏈接、標(biāo)注等。
標(biāo)注對象是指學(xué)術(shù)文獻(xiàn)語義標(biāo)注實例中需要進(jìn)行標(biāo)注的對象,可以是整個學(xué)術(shù)文獻(xiàn)或其部分。學(xué)術(shù)文獻(xiàn)的部分可以是學(xué)術(shù)文獻(xiàn)中的論述元素、某個結(jié)構(gòu)部分甚至是一個句子、一個詞語。例如,圖5中右圖采用OA本體中的片段選擇器指示到PDF學(xué)術(shù)文獻(xiàn)中的部分片段;又如,文本類型的文檔,可以定位到文本中的某個位置的字符中間的片段或者某個具體的詞,如圖6所示。
圖5 學(xué)術(shù)文獻(xiàn)標(biāo)注本體標(biāo)注實例示意圖
圖6 學(xué)術(shù)文獻(xiàn)標(biāo)注對象位置選擇及詞定位示意圖
標(biāo)注主體是標(biāo)注本身,可以是一個文本類型的注釋,如圖5左部,還可以對標(biāo)注主體進(jìn)行描述,如文本方向、標(biāo)注目的、語言、標(biāo)注類型、值等。除了針對學(xué)術(shù)文獻(xiàn)進(jìn)行注釋以外,還可將學(xué)術(shù)文獻(xiàn)的部分與領(lǐng)域本體或社會標(biāo)注中的概念或?qū)I(yè)術(shù)語進(jìn)行關(guān)聯(lián)。將文章的術(shù)語、論述元素、結(jié)構(gòu)片段或者全文鏈接到領(lǐng)域本體或者社會標(biāo)注中的一個術(shù)語或概念。例如,圖7左部分將學(xué)術(shù)文獻(xiàn)與領(lǐng)域本體中的一個主題詞術(shù)語進(jìn)行了關(guān)聯(lián),表明該術(shù)語是學(xué)術(shù)文獻(xiàn)的主題詞,右部分將學(xué)術(shù)文獻(xiàn)中的術(shù)語與領(lǐng)域本體中的一個概念進(jìn)行了關(guān)聯(lián)。
對學(xué)術(shù)文獻(xiàn)的方法流程進(jìn)行語義標(biāo)注時,本文將其作為流程類的一個實例,繼承pwo本體中的相關(guān)概念及屬性,流程中所含的步驟單獨(dú)標(biāo)出作為步驟pwo:Step類的實例,如圖8所示。
在對學(xué)術(shù)文獻(xiàn)的引文進(jìn)行標(biāo)注時,標(biāo)注實例中標(biāo)注主體為引用文獻(xiàn)指向被引文獻(xiàn)的引用,文本內(nèi)的引用指針作為標(biāo)注對象。標(biāo)注學(xué)術(shù)文獻(xiàn)中引文的情感時,繼承cito本體中的類和屬性,標(biāo)注主體為文本,采用類cnt:ContentAsText進(jìn)行描述,標(biāo)注對象是類cito:CitationAct的實例,如圖9所示。
圖7 學(xué)術(shù)文獻(xiàn)中術(shù)語與領(lǐng)域本體或社會標(biāo)注中的本體鏈接示意圖
圖8 學(xué)術(shù)文獻(xiàn)中方法流程的標(biāo)注概念及屬性示意圖
圖9 學(xué)術(shù)文獻(xiàn)中引文標(biāo)注相關(guān)的概念及類示意圖
5 結(jié)論與展望
針對學(xué)術(shù)文獻(xiàn)進(jìn)行語義標(biāo)注是將學(xué)術(shù)文獻(xiàn)中有意義的單元進(jìn)行語義化組織的過程,有利于實現(xiàn)學(xué)術(shù)文獻(xiàn)“策略閱讀”的目標(biāo)。為了實現(xiàn)學(xué)術(shù)文獻(xiàn)語義標(biāo)注,本文從三個方面來進(jìn)行研究:一是研究學(xué)術(shù)文獻(xiàn)的知識類型、結(jié)構(gòu)等信息,在繼承現(xiàn)有的標(biāo)注本體元素的基礎(chǔ)上構(gòu)建了學(xué)術(shù)文獻(xiàn)語義標(biāo)注本體;二是獲取學(xué)科領(lǐng)域的專業(yè)術(shù)語和關(guān)系,構(gòu)建領(lǐng)域本體;三是將標(biāo)注本體、領(lǐng)域本體中的概念與學(xué)術(shù)文獻(xiàn)中的知識元相關(guān)聯(lián),并且本文針對學(xué)術(shù)文獻(xiàn)標(biāo)注過程中的片段選擇、概念關(guān)聯(lián)、方法流程及引文標(biāo)注等內(nèi)容給出了語義標(biāo)注實例。
本文提出的學(xué)術(shù)文獻(xiàn)語義標(biāo)注本體可由各類使用者(包括科研人員、讀者、期刊編輯等)進(jìn)行學(xué)術(shù)文獻(xiàn)標(biāo)注,標(biāo)注后的數(shù)據(jù)可以采用一些本體查詢語言(如SPARQL)或者一些推理機(jī)(如SWRL)進(jìn)行查詢或推理應(yīng)用,該標(biāo)注本體繼承了現(xiàn)有的本體類和關(guān)系(如AO本體、SPAR本體等),具有可擴(kuò)展性。此外,本文提出了學(xué)科領(lǐng)域本體自動構(gòu)建的方法,能夠?qū)崿F(xiàn)領(lǐng)域?qū)I(yè)術(shù)語及其關(guān)系的自動抽取。
實現(xiàn)學(xué)術(shù)文獻(xiàn)的語義標(biāo)注不僅包括標(biāo)注本體、領(lǐng)域本體的構(gòu)建,還需要針對學(xué)術(shù)文獻(xiàn)中的知識元進(jìn)行獲取,將其與標(biāo)注本體、領(lǐng)域本體中的概念及關(guān)系進(jìn)行對應(yīng)。現(xiàn)有的方法主要采用用戶手工標(biāo)注的形式,在未來的工作中,我們將研究學(xué)術(shù)文獻(xiàn)中知識元的自動抽取進(jìn)而實現(xiàn)機(jī)器自動語義標(biāo)注。并解決領(lǐng)域本體體量過大時,利用本體模塊化的思想來自動標(biāo)注學(xué)術(shù)文獻(xiàn)。此外,我們將擴(kuò)展學(xué)科領(lǐng)域本體并開發(fā)與學(xué)科領(lǐng)域語義標(biāo)注的系統(tǒng),方便科研人員快速有效地利用學(xué)術(shù)文獻(xiàn)和獲取領(lǐng)域知識,以便實現(xiàn)學(xué)術(shù)領(lǐng)域的知識共享。
欄目分類
- 堅決扛牢保障國家糧食安全重任
- 食品包裝設(shè)計中傳統(tǒng)美術(shù)紋樣的現(xiàn)代轉(zhuǎn)譯研究
- 中國共產(chǎn)黨人精神譜系融入民族地區(qū)高校思想政治教育的路徑研究
- 播撒生態(tài)文明種子 建設(shè)和諧文明校園
- 文明校園內(nèi)部治理中的學(xué)生參與機(jī)制及實踐
- 幼兒園舞蹈教學(xué)活動中培養(yǎng)幼兒禮儀素養(yǎng)策略研究
- 接觸即興訓(xùn)練的“重力”感知與“編創(chuàng)”思考探究
- 舞蹈創(chuàng)編中群舞舞臺調(diào)度和舞蹈基礎(chǔ)隊形的應(yīng)用
- 賽教融合下高校舞蹈教學(xué)實踐探析
- 淺談如何在舞蹈教學(xué)中融入思政元素——以課程《舞出紅梅品質(zhì)》為例
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!