基于速度加速度的子空間聚類算法-數(shù)學(xué)分析論文
聚類分析是數(shù)據(jù)挖掘中非?;钴S的研究領(lǐng)域。聚類是將給定的數(shù)據(jù)集劃分成不同類別(或稱為一個(gè)聚類),使同一類別中個(gè)體的相似度盡可能大,而不同類別中個(gè)體的相似度盡可能小。聚類可以發(fā)現(xiàn)屬性之間所存在的聯(lián)系,從而找出數(shù)據(jù)分布的模式,目前它已經(jīng)廣泛應(yīng)用于模式識(shí)別、數(shù)據(jù)分析、圖象處理和市場(chǎng)分析。聚類分析所涉及的領(lǐng)域包括:數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)技術(shù)、生物學(xué)、市場(chǎng)學(xué)等。
隨著數(shù)據(jù)量的快速增大,數(shù)據(jù)往往是具有很多特征,即現(xiàn)實(shí)中的數(shù)據(jù)大多是高維度數(shù)據(jù)集,而高維度的數(shù)據(jù)往往是稀疏的(即不存在全部維度上都密集的聚類),又因?yàn)榫垲愃惴ǖ臅r(shí)間復(fù)雜度往往會(huì)隨著維度的增加而快速的增大,故而,高維度數(shù)據(jù)空間中的子空間聚類是很有效的一種獲取有用信息的方法。
3 算法實(shí)驗(yàn)結(jié)果及分析
評(píng)估一種邊界點(diǎn)檢測(cè)算法的標(biāo)準(zhǔn)主要有兩個(gè)方面:算法的有效性(正確性)和執(zhí)行效率。有效性意味著算法能夠準(zhǔn)確地檢測(cè)出聚類的邊界點(diǎn);執(zhí)行效率高意味著算法不僅可以應(yīng)用在小型數(shù)據(jù)集上,而且可以應(yīng)用到大型數(shù)據(jù)集上,有很好的擴(kuò)展性。下面,我們從這兩方面對(duì)算法做出評(píng)估。
3.1有效性分析
我們使用一個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果和一個(gè)數(shù)據(jù)集的理論分析來(lái)說(shuō)明問(wèn)題。
1、為了直觀地說(shuō)明算法的有效性,本文使用二維數(shù)據(jù)集進(jìn)行測(cè)試。
原圖 CLIQUE BAS-CLIQUE
圖4 兩種算法實(shí)驗(yàn)結(jié)果比較
圖4為包含8486個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集,從實(shí)驗(yàn)結(jié)果可以看出來(lái),CLIQUE把聚類邊界的很多數(shù)據(jù)點(diǎn)歸為噪聲,造成了精度的下降,這也是很多基于網(wǎng)格的聚類算法都存在的問(wèn)題即邊界的檢測(cè)問(wèn)題。而改進(jìn)后的BAS-CLIQUE算法,在聚類的邊界處使用間隔之間數(shù)據(jù)點(diǎn)個(gè)數(shù)變化的速度和加速度參數(shù),使聚類邊界得到了很好的柔化,能較好地避免邊界點(diǎn)的損失,提高聚類精度。
2、數(shù)據(jù)集理論分析。
我們從理論上的示例數(shù)據(jù)集來(lái)說(shuō)明算法的效果。
圖5在示例數(shù)據(jù)集上進(jìn)行理論說(shuō)明
如圖5,使用CLIQUE算法,如果設(shè)定的密度閾值過(guò)高,則兩個(gè)菱形中的稀薄區(qū)域?qū)⒉粫?huì)被包含在聚類中;如果密度閾值過(guò)低,則左右兩個(gè)菱形會(huì)被認(rèn)為是同一個(gè)聚類(因?yàn)殚g隔t2的數(shù)據(jù)點(diǎn)密度比較大,CLIQUE會(huì)認(rèn)為它與t1和t3同屬于一個(gè)聚類)。
而B(niǎo)AS-CLIQUE加入了速度和加速度參數(shù)來(lái)增加聚類邊界的精確度,由t1、t2到t3,密度變化的趨勢(shì)為先減后加,加速度會(huì)超過(guò)給定標(biāo)準(zhǔn)(因?yàn)樗俣鹊淖兓容^大),我們會(huì)認(rèn)為t2是聚類的邊界;同時(shí)在兩個(gè)菱形的稀薄區(qū)域,密度變化的趨勢(shì)都為逐漸減小,加速度不會(huì)超過(guò)給定標(biāo)準(zhǔn),我們會(huì)得到較CLIQUE更為精確的聚類形狀。
3.2 時(shí)間復(fù)雜度分析
本算法對(duì)CLIQUE算法主要做了兩點(diǎn)改進(jìn):
1、在每一維查找密集單元時(shí),通過(guò)間隔內(nèi)密度的速度和加速度進(jìn)行聚類。對(duì)每一個(gè)滿足密度閾值的密集單元進(jìn)行一次遍歷,計(jì)算速度和加速度并進(jìn)行合并,此項(xiàng)操作會(huì)增加密集單元的掃描次數(shù),只增加線性的時(shí)間復(fù)雜度,在總體算法時(shí)間復(fù)雜度方面沒(méi)有影響。但此項(xiàng)操作可以有效地減少密集單元的個(gè)數(shù)(因?yàn)樯闪俗赃m應(yīng)間隔,而自適應(yīng)間隔可能有固定間隔幾倍的跨度范圍),進(jìn)而減少在以后剪枝操作中的遍歷次數(shù),在最壞的情況下,即每一個(gè)密集間隔與其他密集間隔都不相鄰,將會(huì)產(chǎn)生與CLIQUE相同的時(shí)間復(fù)雜度。
2、在剪枝的操作過(guò)程中,考慮速度和加速度的因素,會(huì)增加線性的時(shí)間復(fù)雜度,在總體算法時(shí)間復(fù)雜度方面沒(méi)有影響。
綜上,BAS-CLIQUE相比CLIQUE,時(shí)間復(fù)雜度相同,通常情況下效率更高一點(diǎn)(最壞情況下與CLIQUE相同O(Cd+md) ,其中m是輸入數(shù)據(jù)點(diǎn)數(shù),C為常數(shù),d是數(shù)據(jù)空間的維度)。
4結(jié)論及進(jìn)一步工作
本文提出了基于速度加速度的子空間檢測(cè)算法,該算法基于CLIQUE,在尋找密集單元和剪枝的過(guò)程中利用速度和加速度進(jìn)行了優(yōu)化,能有效地提高CLIQUE的精確度和計(jì)算效率。但本算法增加了一個(gè)參數(shù)(在本文2.2中表述,加速度參數(shù)取速度參數(shù)的常數(shù)倍數(shù)),下一步我們將在更多數(shù)據(jù)集包括真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以證明算法的有效性,及采取有效措施減小參數(shù)對(duì)聚類結(jié)果的影響。
欄目分類
- 立德樹(shù)人背景下中原優(yōu)秀傳統(tǒng)文化融入高校美術(shù)學(xué)專業(yè)教學(xué)實(shí)踐研究
- 論現(xiàn)當(dāng)代藝術(shù)中內(nèi)容與形式的關(guān)系
- 加強(qiáng)大學(xué)生婚戀觀教育:現(xiàn)狀、意義與路徑探尋
- 從游戲化教學(xué)到深度學(xué)習(xí):初中英語(yǔ)課堂的創(chuàng)新路徑探索
- 企業(yè)家精神融入民營(yíng)企業(yè)黨建的邏輯依據(jù)與有效路徑
- 新時(shí)代地方紅色革命人物精神的價(jià)值意涵
- 數(shù)字藏品交易的風(fēng)險(xiǎn)與應(yīng)對(duì)
- 微調(diào)之道,以小見(jiàn)大:美術(shù)教師的課程思政教學(xué)情況問(wèn)卷調(diào)查
- 地方“非遺”文化融入高職院校美育的路徑研究 ——以無(wú)錫精微繡為例
- 高校美育課程文化認(rèn)同層次構(gòu)建與實(shí)踐路徑探索
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!