優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢
您的位置:網站首頁 > 優(yōu)秀論文 > 新聞論文 > 正文

大數(shù)據(jù)文本挖掘技術在新聞傳播學科的應用

作者:鐘智錦,王童辰來源:《當代傳播》日期:2020-03-19人氣:1780

隨著互聯(lián)網和計算機的發(fā)展,人們在互聯(lián)網、社交網絡上產生了海量的網絡文本。在計算機技術的輔助下,基于大數(shù)據(jù)的文本挖掘日益成為自然科學和社會科學中數(shù)據(jù)挖掘研究的重要領域,從2000年開始得到廣泛應用。文本挖掘的數(shù)據(jù)主要包括新聞文本、研究論文、書籍、期刊、web頁面、社交媒體文本等。①目前,國內外文本挖掘的主要研究成果均集中在社會科學與自然科學的交叉領域,國外研究更多涉及管理學、社會學、政治學等領域,而國內社會科學領域相關成果較少。②分析文本是傳播學研究中的重要路徑,近年來國內外傳播學領域均有不少學者探索使用計算機文本挖掘技術解決大數(shù)據(jù)時代的傳播問題。

本文旨在回顧和討論文本挖掘技術近年來在傳播學領域的國內外研究,對比傳統(tǒng)的內容分析方法和大數(shù)據(jù)文本挖掘方法,通過案例介紹文本挖掘技術在新聞傳播學研究中的主要功能,并分析其對傳播學研究帶來的機遇和挑戰(zhàn)。本文主要利用Social Sciences Citation Index(SSCI)數(shù)據(jù)庫檢索外文文獻,利用“中國知網”進行中文文獻的檢索。在搜索過程中,主要應用的英文關鍵詞包括:text mining、text analytics、textcategorization、topic modeling、text retrieval、semantic mining、semantic analysis、semantic categorization等,中文關鍵詞包括文本挖掘、自動文本處理/分析等。在輸入關鍵詞之后,通過SSCI的分類檢索功能,選取與“傳播學”相關的期刊文章;中文文獻中選取了“新聞與傳播”類別進行篩選。之后再對每個關鍵詞所檢索出的文獻進行二次篩選,剔除雖符合主題和類別但屬于質化研究的文章、通篇運用傳統(tǒng)定量分析方法(調查、實驗、內容分析)的文章、綜述性文章(并未使用文本挖掘方法的文章)后,得到40多篇文獻。文獻出版年份均在2010年以后,其中2015-2017年的文獻較多。

需要說明的是,計算機文本挖掘技術在社會科學中的應用屬于跨學科研究,有相當一部分研究成果并未發(fā)表在傳播學領域期刊,而是分散在計算機科學、社會學、政治學、理論物理等交叉學科,因此并未被本文選取。本文選取的文獻來自于新聞傳播學科傳統(tǒng)SSCI期刊、與話語及信息研究相關期刊、區(qū)域性傳播學研究雜志和部分中文刊物。

本文所選取文獻的研究主題包括政治傳播、科學傳播、品牌傳播、健康傳播、大眾傳播技術、文本挖掘技術綜述、社會網絡分析等,其中應用于政治傳播中的選舉和對外關系研究、應用于科技傳播和品牌傳播的文獻相對較多。文獻的研究對象主要包括社交媒體發(fā)布內容、新聞數(shù)字文本(包括文字和影像)和期刊文章,其中以社交媒體發(fā)布內容為主。

二、從內容分析到文本挖掘

對信息的分析是新聞傳播學科研究的主流,傳統(tǒng)的研究范式多為以定量研究為主的內容分析和以定性研究為主的話語分析。傳統(tǒng)的內容分析方法通過設定編碼框、對文本進行人工編碼,分析文本內容信息及其變化,從而對文本內容進行可再現(xiàn)的、有效的推斷。③內容分析的基本步驟包括提出研究問題、抽樣、確定分析層次、編碼、檢驗信效度、統(tǒng)計檢驗等。內容分析發(fā)展至今逐步趨于成熟和完善,但其自身依舊存在一定的局限性,主要體現(xiàn)在抽樣過程中可能會出現(xiàn)主觀判斷、手工編碼效率低下、長期或集體作業(yè)可能帶來信度問題。④在新聞傳播學領域,以內容分析作為主要研究方法的論文較多,研究常常采用框架理論、議程設置理論、鋪墊理論等經典傳播學理論,分析報刊文本內容,從中找尋新聞媒體對相關議題的報道規(guī)律。

進入大數(shù)據(jù)時代,用傳統(tǒng)方式對海量文本進行處理,不僅耗費人力物力,而且其數(shù)量之龐大也使人工編碼等過程困難重重?;跀?shù)據(jù)挖掘的文本挖掘方法,可以利用機器學習來實現(xiàn)對大量文本的快速處理。相比之下,文本挖掘的方法在信息分析的過程中,從過程、方法、工具等方面來說,都與內容分析法有較大差別。文本挖掘涉及數(shù)據(jù)挖掘、機器學習、統(tǒng)計、自然語言處理、可視化技術、數(shù)據(jù)庫技術等多個學科領域的知識和技術,包括數(shù)據(jù)預處理(包括自然語言的識別和抽取、數(shù)據(jù)源的分類等)、核心挖掘操作、統(tǒng)計分析、可視化等步驟。⑤文本挖掘方法能夠更有效地提取、描繪信息,對傳播內容進行可視化,⑥⑦從而呈現(xiàn)文本的宏觀圖景。⑧

傳統(tǒng)的定量傳播學研究中,在5W理論的視角下,內容分析法主要是運用在對“傳播者”和“傳播內容”的研究上,這與大數(shù)據(jù)時代下的文本挖掘技術在傳播學領域的研究是相對應的,⑨但兩者在實際操作和應用方面依舊存在著較大差異。筆者主要列舉了對于傳統(tǒng)傳播學內容分析法和文本挖掘方法在樣本大小、抽樣方法、測量、分析單位、編碼、效度檢驗等方面的不同(見表1)。

通過以上對比發(fā)現(xiàn),文本挖掘不僅對于大樣本數(shù)據(jù)的處理更有優(yōu)勢,而且也拓展了傳統(tǒng)內容分析的測量范圍,對于分析海量網絡文本數(shù)據(jù)有著明顯的優(yōu)勢。但是,計算機自動處理的維度仍然有限。而傳統(tǒng)的內容分析雖然樣本量不大,卻勝在可以通過人腦進行復雜的編碼,從而對文本進行更加豐富深刻的解讀。在整個研究過程中,內容分析的編碼工作耗時耗力,統(tǒng)計分析工作則相對簡單。而文本挖掘的數(shù)據(jù)采集工作往往比較輕松,但由于網絡數(shù)據(jù)多而雜,需要花費大量精力用于數(shù)據(jù)的清理。一旦算法確立,在數(shù)據(jù)分析部分則較為輕松。

三、幾種常用的文本挖掘方法

(一)詞典法

基于詞典的文本分析在計算機輔助的文本分析中使用較為廣泛,新聞傳播學領域中有許多研究利用這種方法通過分析社交媒體數(shù)據(jù)來檢驗議程設置、選擇性接觸等經典理論。⑩(11)基于詞典的文本分析法需要研究者先期確定一些分析類別和類別中包含的詞語,即建立“詞典”,然后將分析對象和詞典中的詞語和類別進行基于一定算法的匹對,來確定分析的文本是否屬于該類別。例如,Conway,Kenski and Wang(2015)的研究旨在探討2012年美國總統(tǒng)選舉中媒介之間的議程設置,比較報紙和twitter文本的相互關聯(lián)。(12)作者使用了WordStat軟件構建詞典,利用關鍵詞集群建立21個議題類目,并通過人工檢查來確保關鍵詞能夠恰當?shù)卮砟硞€類目,當某個關鍵詞出現(xiàn)10次以上時,則被認為涉及到它從屬的議題。

但是,基于詞典的情緒分析方法最初是用于較為嚴謹、正式的文學作品,詞義表達清晰,因此能保證較高的信度和效度。在分析網絡語言時,由于詞典本身需要跟隨網絡語言的發(fā)展而不斷更新,再加上網絡語言的隨意性和片段性,都給詞典法的算法和精準度提出了更高的要求。并且,詞典的建立常常需要研究者閱讀一定數(shù)量的樣本文本,但是人的精力是有限的,當分析對象是海量數(shù)據(jù)時,樣本文本的代表性和局限性會使得先期建立的類目和詞庫并不能完全覆蓋海量文本的內容范疇。因此,當面對內容范疇無法預估的情況時,機器學習相對詞典法而言,是更明智的選擇。

(二)無監(jiān)督的機器學習

無監(jiān)督的機器學習是為了探尋文本數(shù)據(jù)中“隱藏的結構”,事先并無訓練樣本集,也就是說數(shù)據(jù)并未有一個人為給定的“標簽”,需要機器通過聚類等算法,來發(fā)現(xiàn)數(shù)據(jù)的潛在類別規(guī)則。無監(jiān)督的機器學習最常見的應用是主題模型的挖掘。主題模型算法將每個文檔看作是一系列無序的詞匯,每個詞匯的出現(xiàn)頻次不一樣。算法將一篇文檔中的詞語頻率解釋為有權重的主題詞的匯集,這些權重顯示了一篇文檔中出現(xiàn)的不同主題的概率。(13)比如,如果一篇文檔中,基因、DNA、RNA、進化、突變、數(shù)據(jù)、計算、統(tǒng)計等詞匯以不同的比例出現(xiàn),那么主題模型就會計算出這篇文檔包含“遺傳學”“進化論”“數(shù)據(jù)科學”這三種主題,詞語的不同比例意味著文章對不同主題的側重是有差異的。

主題模型的方法是基于文檔推測文檔的主題分布,利用各個文檔中不同主題出現(xiàn)的概率進行估計。主題模型主要用來發(fā)掘文本之間的隱含主題結構關系,通過挖掘共現(xiàn)詞匯的循環(huán)聚群來探求其中的關系。(14)主題模型主要解決的問題是怎樣生成主題,一般來說,一篇文檔都是通過一定概率選擇了某個主題,并從中以一定的概率選擇某個詞語而產生。概率主題模型的數(shù)學表達為:

一般情況下將收集的文本通過軟件的輔助進行分詞,再根據(jù)相應的算法對文本進行分類和探求其間的聯(lián)系。常見的算法就是潛狄利克雷分布、結構話題建模、概率潛在語義分析等,其中潛狄利克雷分布(LDA)算法最為常用。(15)該算法非常適合于結構化的文本,比如,報紙、學術文章等經過精細編輯校對后的規(guī)范文字。當處理社交媒體數(shù)據(jù)時則會面臨新的挑戰(zhàn),碎片化的、語義模糊的、缺乏上下文語境的、包涵各式各樣表情符、縮略語甚至錯別字的社交媒體語言,使得未經特別處理的LDA算法常常難以識別人類在虛擬空間中發(fā)布的文字的真實含義,(16)(17)有監(jiān)督的機器學習因此應運而生。

(三)有監(jiān)督的機器學習

有監(jiān)督的機器學習(SML)將人腦勞動和計算機算法有機結合,一方面能夠保留人腦對文本內容的準確理解;另一方面能夠發(fā)揮機器處理海量數(shù)據(jù)的能力。在有監(jiān)督的機器學習中,需要使用人工編碼過的文本內容作為訓練集,每個文檔被轉化成為一個可被計算的文本元素特征集,然后,所有文檔的特征集和文本的內容標簽(如人名、機構名)被用來訓練分類器,以訓練集為基礎對文本特征進行分類。最后,對訓練集以外的文本進行自動分析。關于有監(jiān)督的機器學習的詳細介紹可參見Russell and Norvig和Grimmer and Stewart的文獻。(18)(19)這種自動化的文本分析方法既高效又能保持良好的準確度,一方面,一旦一個分類器訓練完成,它能夠迅速地分析大量文本,并運用于其他研究中,因而能達到事半功倍的效果;另一方面,人工編碼的訓練集質量可以嚴格控制,也可以隨時用來評價機器學習的結果。例如,Burscher等人(20)使用兩種SML方法來挖掘文本框架,一種方法是“基于指標的”,首先為不同的框架設立一系列指標,然后判斷文本中是否包涵這些指標,并對指標進行整合來確定文本是否體現(xiàn)了某一框架,這意味著機器要首先分析指標,再分析框架。另一種方法是“整體性的”,訓練分類器直接對文本的框架進行識別和分類,同樣,在訓練集中,每個框架用一系列指標集合來表示,只要文本中出現(xiàn)了某一個指標,就認為文本涉及到該框架。與第一種方法不同的是,此時用框架編碼的最終結果來訓練分類器,這個分類器能直接判斷某個文檔是否包涵某一框架,而不需要分析文本中是否包涵了某一框架的指標。研究發(fā)現(xiàn),直接識別文本框架要比通過指標來識別框架的方法更高效,并且,訓練集樣本的增加能夠顯著地提高分類器的準確度。除此之外,研究者還發(fā)現(xiàn),分類器在判斷不同的框架時,其準確度也有一定的差異,在識別新聞中常見的沖突、經濟結果、人類利益和道德這四種經典框架時,SML對經濟結果這一框架的識別精度要高于其他框架。(21)

四、文本挖掘技術的具體應用

(一)情感分析

情感分析的主要目的是識別用戶對事物或人的看法、態(tài)度,是一種自然語言處理過程分析的二級領域,自動對文本進行分類并且找尋用戶對于某些特殊議題的態(tài)度。(22)在新聞傳播領域的研究當中,多數(shù)都是判斷文本所顯示的態(tài)度是積極、正面的還是消極、負面的近年來,利用情感分析對網絡文本進行的研究主要集中在以下幾個領域。

1、政治傳播中,利用網絡文本情感分析判斷網民的政治傾向。如Vargo,Guo,McCombs和Shaw發(fā)表在Journal of Communication上的文章,在議程設置的基礎上提出了“議程熔合”和“網絡議程設置”的概念,試圖研究不同類型的受眾如何通過不同的媒體來表達政治訴求,該研究通過情緒分析來區(qū)分推特用戶的政治取向,將詞典法和有監(jiān)督的機器學習結合起來確保分類的精準。(23)作者首先將推文分為僅提及奧巴馬的和僅提及羅姆尼的,然后計算出每個用戶對某一候選人的情緒指數(shù),來區(qū)分奧巴馬的支持者和羅姆尼的支持者,使用的是擅長處理英文短文的SentiStrength軟件(詞典法)。為了驗證詞典法的分類效果,該研究又采取了機器學習法,隨機抽取380條推文進行人工編碼,形成訓練集。再采用LightSIDE程序,使用簡單貝葉斯分類算法建立模型。新的模型在原來的SentiStrength詞典基礎上,新增了322個可用來區(qū)分正、負情緒的詞匯,研究者將這322個新增詞匯補入SentiStrength詞典,然后再抽取380條推文進行人工編碼,此時SentiStrength自動編碼的結果與人工編碼結果的一致性達到82.8%。

2、在公共傳播研究中,通過對網絡輿論進行情感分析,判斷網民對某些公共事件或社會重大議題的情感傾向。大多數(shù)新聞傳播學研究對文本的情感分析僅存在積極、中立、消極這三種簡單的分類,在一些傳播學與心理學的跨學科研究中,研究者采用LIWC等詞典軟件,不僅能夠識別正、負情緒類別,還能夠分辨憤怒、悲傷、焦慮等具體的情緒,從而使得情緒分析能夠達到更加細膩、豐富的效果。國內有學者(24)(25)曾將LIWC應用于網絡公共事件中的情緒記憶和內地網民對港澳回歸的情緒認知研究,如2017年的研究發(fā)現(xiàn),在網民的討論中,香港在負情緒上的得分顯著高于澳門。

3、在品牌傳播研究中,利用評論等文本的情感,分析用戶對產品和服務的評價。(26)如在Liu、Burns和Hou的研究中,(27)利用情感分析對推特上用戶發(fā)表的與品牌相關的文本進行分類,來探究不同種類的主流產品品牌之間的情感差異以及排名。他們選擇了快餐行業(yè)、百貨公司、制鞋業(yè)、電子產品、通訊業(yè)這五大行業(yè)的四個品牌,收集了2015年以來的一千萬條文本,這些文本均“@”過所選品牌,將重復發(fā)送等“噪音”信息刪除后,最終獲得了170萬條左右的推特文本。研究者分析了文本中蘊含的用戶品牌態(tài)度(中立、消極、積極),再計算出對于某一品牌的負面情緒文本的比重作為用戶對某一品牌的整體情感。為了檢驗其情感指標能否真實反映品牌滿意度,作者用研究指標與2015年“美國消費者滿意指數(shù)”進行相關分析,發(fā)現(xiàn)ACSI滿意度排名與作者設立積極情感指標呈高度正相關,而與消極情感指標呈高度負相關。這種研究將計算機自動文本處理結果與傳統(tǒng)的社會調查結果進行比對,是一種典型的研究思路。Hsu和Jane的一項針對票房的文本研究中,(28)收集了從2010年12月到2013年4月來自769部電影的臺灣地區(qū)票房數(shù)據(jù),以及來自電影論壇的網絡口頭傳播的文本數(shù)據(jù)。該研究對論壇文本數(shù)據(jù)進行了情感分析,發(fā)現(xiàn)對電影的網絡口頭傳播不僅是電影銷量帶來的結果,還是消費者消費行為的驅動力;對電影的正面和負面網絡口頭傳播評價是不對稱的;網絡口頭傳播信息會影響電影的票房表現(xiàn)等。通過對電影行業(yè)的文本挖掘,為企業(yè)傳播和商業(yè)對策提供了現(xiàn)實路徑。

(二)主題模型

主題模型的主要任務是通過對詞語、文本和主題之間關系的分析,對大量文本進行主題歸類。Guo等人比較了詞典法和無監(jiān)督的機器學習(LDA)對2012年美國總統(tǒng)選舉中7000多萬條推特文本的主題分析。(29)研究發(fā)現(xiàn),兩種主題模型分析法的結果差異較大,總體來說,LDA分析的結果優(yōu)于詞典法,LDA能夠識別更多的推文、分辨網絡語言中更細微的區(qū)別。但是,LDA也存在一些問題,比如關于某個候選人的多個議題和特點會被合并到一個主題里,而有時這些議題和特點之間其實并無邏輯關聯(lián),因此,無監(jiān)督的機器學習也需要人工干預來避免類似的錯誤。Sachdeva、McCaffrey和Locke進行的一項關于火災的研究,其中的一個部分利用了推特文本構建主題模型對火災、煙霧,以及發(fā)推文的地理位置進行了探討。(30)該研究希望探究在檢測部門還未發(fā)布權威數(shù)據(jù)時,如何利用社交媒體對火災及火災引發(fā)的煙霧起到追蹤作用,建立由火災引發(fā)的公共衛(wèi)生事件的快速預防體系。作者通過關鍵詞,收集了2014年9月1日至10月15日關于一場名為“King Fire”的火災的網絡數(shù)據(jù),并且對于推特的地理信息進行了編碼,共收集大約14000條推文。通過結構話題建模(STM)算法進行主題建模,共分析出了20個主題。研究結果發(fā)現(xiàn):第一,推文主要的主題包括火災的基本信息(面積、范圍、活躍地區(qū))、受災者的情況、空氣質量等;第二,距火源地的遠近影響主題的分布,例如離火源越近的用戶更熱衷于討論空氣質量,越遠的用戶更熱衷于討論縱火犯、火的起因等方面的主題。作者認為,利用推特文本的主題模型分析,可以在環(huán)保部門數(shù)據(jù)發(fā)布之前,先對空氣質量進行估計和預警,這對于實際的空氣質量檢測和公共衛(wèi)生預警,具有重要的現(xiàn)實意義。國內有學者采用文檔關鍵詞提取、無干預的主題建模和人工內容分析相結合的手法,對公共事件的網絡輿論進行話語框架的內容研判,發(fā)現(xiàn)不同類型的

公共事件在話語框架上的共性和差異,并認為語義建模方法避免了由于研究者主觀臆斷或者在框架判定中的理解偏差所帶來的誤差,能夠使不容易被研究者發(fā)現(xiàn)的框架涌現(xiàn)出來。(31)

(三)語義網絡分析

語義網絡分析主要是探究詞句間的數(shù)量關系,用詞句作為網絡中的節(jié)點,探究不同詞句在整體網中所處的地位。語義網絡分析是用量化網絡關系呈現(xiàn)文本之間聯(lián)系的方法。語義網絡的概念最早由奎林于1968年提出,開始是作為人類聯(lián)想記憶的一個公理模型提出,隨后在機器學習領域中用于自然語言理解,又被稱為關系內容分析,該方法是以高頻詞為節(jié)點,以高頻詞組合共同出現(xiàn)的次數(shù)為節(jié)點間的關系,通過構建語義網絡來分析高頻詞組在文本中的語義,來反映作者的精神圖譜。(32)這種方法會先在網絡上進行數(shù)據(jù)抓取,根據(jù)研究主題進行分詞、編碼和內容分類,再利用軟件計算出所抽取內容之間的關系的數(shù)量,建立關系的網絡。語義網絡分析相對傳統(tǒng)內容分析更加客觀,可以勾勒出媒體報道的整體形象,并且可以分析不同層面的問題。(33)與主題模型類似,語義網絡分析的主旨是呈現(xiàn)文本的主要內容,通過詞語之間的網絡關系,可將整個語義網絡區(qū)分成不同的社區(qū),這種社區(qū)或者子群也是對文本內容的分類。

Guo和Vargo的研究中,對2012美國總統(tǒng)候選人相關的推特文本進行挖掘,利用語義網絡分析等方法來探究網絡中的議程設置。(34)該研究建立了議題所有權網絡,指的是候選人對于國家事務相關議題的關聯(lián)程度。具體分為候選人的“聯(lián)系性”議題所有權網絡(指候選人在推文中多次提到的議題,但并非是本黨派在以往執(zhí)政中所勝任解決的議題)和“勝任性”議題所有權網絡(主要是指候選人在推文提到的本黨派以往能夠勝任的議題)。研究者通過建立語義網絡,來分析媒體、競選團隊推特文本中對于不同候選人、對不同種類的議題所有權網絡,如何影響公眾對候選人的認知。研究者抓取了2012年美國總統(tǒng)大選期間,美國民眾、新聞媒體和官方競選團隊的推特文本,以及民眾發(fā)布的推特文本,并根據(jù)用戶自我報告的政治意識形態(tài)(民主黨/共和黨)狀況,對其進行分類,利用民眾發(fā)布的推特建立詞表。研究者選取了如稅收、就業(yè)、同性婚姻等熱議的16個議題。議題主要作為語義網絡分析的節(jié)點,而兩位候選人作為“自我網”中的“自我中心”。建立網絡之后,研究者利用情感分析方法進行人工編碼,對“勝任性”維度予以賦值,來判斷其議題與中心是正向或是負向聯(lián)系。研究發(fā)現(xiàn),在新媒體時代,媒體議程設置功能依舊存在,而且會明顯影響民眾對于候選人及相關議題的公共感知;競選活動利用新媒體傳播,也會對民眾的公共感知產生影響,競選活動對于民眾構建“勝任性”議題所有權網絡更為有效。

五、結論與探討

通過以上闡述和分析發(fā)現(xiàn),文本挖掘技術在新聞傳播學科的應用十分廣泛,套用“5W”模式,文本挖掘在傳播學研究中可以在以下方面大施拳腳。

一是傳播內容研究。文本挖掘技術一方面能夠突破內容分析采樣的局限,處理海量數(shù)據(jù);另一方面更突破了傳統(tǒng)的傳播學研究僅分析傳媒(最常見的是紙媒)內容的拘囿,將分析對象推廣至Twitter、微博、論壇等包含表情符、縮略語、口語等復雜情境的網絡文本,以及圖書、期刊等信息量巨大的規(guī)范文本。有學者通過回顧近年來在新聞傳播學領域利用計算社會科學方法進行的實證研究,發(fā)現(xiàn)有關傳播“內容”的研究中,主要對社會化媒介的內容和搜索詞進行研究,前者主要是對數(shù)字文本的研究,后者主要通過研究搜索痕跡來了解公眾的注意力。(35)除此之外,也有研究者使用文本挖掘技術來分析質化研究中獲取的材料,如Baker等在一項健康傳播研究中,通過訪談的形式,收集病人和醫(yī)生在“如何與病人相處”和“如何面對疾病治療”這兩個主要問題的訪談文本,利用文本挖掘軟件Leximancer進行分析。(36)研究發(fā)現(xiàn)醫(yī)生和病人由于其所處角色不同而有不同的邏輯。作者認為,醫(yī)患溝通中如果雙方更好適應對方的傳播邏輯,醫(yī)生從關愛和支持的角度展開溝通,會讓病人獲得一定的心理支持,進而積極面對治療。

二是傳播者和受眾研究。通過對傳播者或受眾寫作的、口述的文本進行分析,不僅能夠判斷其語言風格,還能夠挖掘文本中折射的態(tài)度、情感、信念、價值觀念,從而推斷傳播者的身份、性格、心理狀態(tài)和立場觀念。除前文提及的通過對文本的情感分析來確定網民的政治立場之外,還有些研究通過網絡文本來推測作者的性格。比如,Sumner等人采用機器學習方法分析了來自89個國家的2927名twitter用戶的推文,從中推斷出他們在大五人格特質(嚴謹性、外向性、開放性、宜人性與神經質)各個類別上的得分高低,并與樣本自我報告的人格特征量表得分進行比對,發(fā)現(xiàn)能夠達到較高的關聯(lián)度。(37)

三是傳播效果研究。新聞網站、微博、論壇、微信公眾賬號大多具有評論功能,通過對主帖和評論進行文本挖掘,可以發(fā)現(xiàn)網絡內容如何被受眾認知、解讀、評價、傳播,從而能直接考察傳播效果。Ceron等人通過分析法國2012年大選相關的推特文本,發(fā)現(xiàn)了政治選舉相關的社交媒體文本挖掘與傳統(tǒng)的問卷調查方法都起到了很好的預測作用,隨著社交媒體意見表達的增多,用戶線下行為也會受到這些意見的影響,從而考察了社交媒體的傳播效果。(38)

總的來說,傳播學中的計算機文本挖掘,主要承擔了描述、比較、解釋的功能。一方面,文本挖掘的初始使命是對文本的內容、主題、情感進行描述,展現(xiàn)海量文本的概貌;另一方面,由于計算機自動處理遠不及人工編碼細膩豐富,僅僅對文本概貌的展示不足以支撐一個完整的研究,因此,在很多研究中,“描述文本”只是一個輔助功能,在“描述”的基礎上進行“比較”或“解釋”,才是研究的最終目的。在比較型研究中,“比較”的常常是網絡文本和傳統(tǒng)社會科學方法獲得的數(shù)據(jù)或結果,如O'Connor,Balasubramanyan,Routledge & Smith分析了20082009年的7份關于消費者信心和政治觀念方面的調查,發(fā)現(xiàn)調查的結果與同時期Twitter中流露的情緒有顯著的關聯(lián),在某些議題中相

關度達到80%,意味著網絡文本表達的情緒和觀點能夠補充甚至替代傳統(tǒng)的民意調查。(39)抑或比較不同網絡平臺展現(xiàn)的、不同對象發(fā)布的網絡

文本,如Qin(40)分析了“棱鏡門”事件在Twitter和傳統(tǒng)媒體報道中的語義網絡,發(fā)現(xiàn)Twitter中的斯諾登與泄密者、個人隱私、反稅運動等語義網絡聯(lián)系,呈現(xiàn)為一個“英雄”;而傳統(tǒng)媒體中的斯諾登則與國土安全及反恐框架聯(lián)系起來,呈現(xiàn)為一個“叛徒”。抑或通過不同的方法分析的文本數(shù)據(jù)的結果,探究更為優(yōu)化的算法。例如,Guo等人對2012年美國總統(tǒng)大選的同一數(shù)據(jù)進行兩種大數(shù)據(jù)方法的研究——詞庫分析和主題模型,為計算機輔助新聞傳播研究(尤其政治傳播研究)進行效度評估提供了方法論上的對比。(41)

“解釋型”研究則分為幾種情況:一種是用其他變量來解釋文本的內容情感特征何以形成,例如,Montiel等人對于中國和菲律賓兩國媒體對于黃巖島事件的報道的文本分析,解釋了兩國報道不同的報道框架和形成該報道框架的政治層面的原因;(42)另一種是用文本的內容情感特征來與其他變量進行關聯(lián),賦予文本解釋的力量,如歐洲、美國均有許多研究通過對網絡民意的情感分析來判斷或預測選舉中候選人的得票情況。在科技、環(huán)境傳播領域,相關的研究更多論述了如何將該技術(結論)應用到實際,例如,Sachdeva、McCaffrey和Locke的研究,針對推特文本的挖掘發(fā)現(xiàn),在缺少環(huán)境監(jiān)測部門的數(shù)據(jù)時,可以利用推特文本對火災發(fā)生地的空氣質量,尤其是PM2.5的濃度進行監(jiān)測,對現(xiàn)實的環(huán)境改善意義較大。(43)所以,計算機文本挖掘的結果,常常會服務于傳統(tǒng)的統(tǒng)計分析方法,與用戶的特征行為,社會、媒體等外界環(huán)境變量結合。這種傾向,也體現(xiàn)了社會科學研究關注現(xiàn)實問題、追求理論創(chuàng)新的特色。

文本挖掘作為計算社會科學的重要方法,無論從范式、方法,還是工具上,對新聞傳播學領域,乃至對整個社會科學領域都帶來了巨大的進步和變化。文本挖掘技術作為數(shù)據(jù)驅動型的范式,從“自上而下”的演繹邏輯逐漸轉向“自下而上”歸納邏輯,(44)也為定量實證研究提供了重要的工具。相比傳統(tǒng)方法,文本挖掘在社會科學中具有以下優(yōu)勢:第一,可以對海量文本進行處理和整體趨勢挖掘,既可以減少抽樣帶來的誤差,又適合于新媒體時代對海量信息的處理;第二,文本挖掘可以幫助研究者發(fā)現(xiàn)一些隱藏的結論,如通過文本挖掘,可以探知人的語言特征和性格;第三,文本挖掘技術能夠解決以往人工難以解決的問題,比如語義之間的關系、概念之間關系;(45)第四,將文本數(shù)據(jù)與網絡痕跡數(shù)據(jù)對應起來,使得文本的內容能夠與文本的生產者進行有機結合。相對于自我報告的調查數(shù)據(jù),基于自然語言的文本挖掘處理的是不受主觀意志干擾的內容,從而能更加科學、客觀地發(fā)現(xiàn)人類的語言與他們的情感、觀點、態(tài)度和行為之間的關系。

然而,計算機文本挖掘技術的應用也存在一些問題。第一,文本挖掘技術處于開發(fā)發(fā)展階段,仍有很多研究者在追求更加精準的算法,很多論文都是對不同算法的演練和比較;第二,受到挖掘算法、語料庫質量和數(shù)據(jù)質量的影響,有時即使運用了文本挖掘方法,也達不到預期的效果;第三,計算機文本分析的缺陷在于無法達到人腦對文本解讀所能達到的細膩深刻程度,無論是情感判斷,還是主題建模、語義網絡分析,都只能呈現(xiàn)文本的概貌,這一先天不足使得基于人工編碼的傳統(tǒng)內容分析以及質化的語義分析,仍然有其存在的價值;第四,在國外大量使用文本挖掘方法的傳播學研究并未發(fā)表在傳播學期刊上,主流的傳播學期刊雖然正在逐漸接納以大數(shù)據(jù)為基礎的經驗研究,但總量依然不大,致使許多優(yōu)秀成果散落在社會學、政治學、計算機或者其他交叉學科的期刊上,使得本學科的學術成果并不集中,在計算社會科學方興未艾的局勢下,“計算傳播學”的先驅學者們缺少彰顯學科歸屬的平臺集中亮相研究成果;第五,從研究思路來看,國內新聞傳播研究集中在理論思辨和傳統(tǒng)的社會科學實證研究領域,大部分學者缺乏計算社會科學的思維和方法訓練。而計算機文本挖掘對學者的知識與技術儲備要求較高,未來這一研究路徑是否能在傳播學領域大放異彩、是否能取得具有理論突破意義的研究成果、是否能為解決社會問題提供獨特價值,仍需要長期的努力。


網絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言