淺談大數(shù)據(jù)挖掘中數(shù)學(xué)的運(yùn)用
當(dāng)前是一個(gè)信息化時(shí)代,人們無論是在生活中,還是在學(xué)習(xí)工作中無時(shí)無刻不在與信息數(shù)據(jù)打交道,大數(shù)據(jù)技挖掘技術(shù)的完善發(fā)展,被廣泛應(yīng)用在各個(gè)行業(yè)領(lǐng)域中,創(chuàng)造出眾多的社會(huì)經(jīng)濟(jì)效益。如何從海量數(shù)據(jù)信息中高效挖掘出具有高價(jià)值的數(shù)據(jù)成為了眾多專家學(xué)者的關(guān)注重點(diǎn),大數(shù)據(jù)挖掘工作離不開先進(jìn)數(shù)學(xué)專業(yè)知識(shí)和方法的運(yùn)用,相關(guān)研究人員通過在大數(shù)據(jù)挖掘和處理分析中合理運(yùn)用數(shù)學(xué)知識(shí),能夠有效提升數(shù)據(jù)處理分析效率,幫助人們?cè)谧疃虝r(shí)間內(nèi)獲取到具有價(jià)值的數(shù)據(jù)信息。
1 大數(shù)據(jù)概念與特征分析
基于計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)的普及應(yīng)用,社會(huì)各行各業(yè)產(chǎn)生的數(shù)據(jù)信息也變得越來越多,不同領(lǐng)域中的海量數(shù)據(jù)存在著不同的價(jià)值,有待人們從數(shù)據(jù)中進(jìn)行挖掘開發(fā)利用,幫助社會(huì)企業(yè)發(fā)展作出科學(xué)決策。大數(shù)據(jù)實(shí)質(zhì)是指無法在一定時(shí)間內(nèi)利用常規(guī)軟件工具進(jìn)行計(jì)算處理、管理利用的數(shù)據(jù)集合,大數(shù)據(jù)需要借助先進(jìn)的處理模式才能夠具備更好的決策力、洞察發(fā)現(xiàn)力以及流程優(yōu)化能力。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用分析相比較,大數(shù)據(jù)應(yīng)用分析最為顯著的特點(diǎn)就是數(shù)據(jù)量大且形式多樣、檢索查詢困難復(fù)雜,大數(shù)據(jù)主要包括了結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)的5V特征具體是指Volume(大量),即數(shù)據(jù)量龐大;Velocity(高速),即數(shù)據(jù)獲取處理速度快;Variety(多樣),即數(shù)據(jù)類型多樣性;Value(低價(jià)值密度),即數(shù)據(jù)價(jià)值較低;Veracity(真實(shí)性),即數(shù)據(jù)質(zhì)量較高且真實(shí)。
在大數(shù)據(jù)研究領(lǐng)域中,數(shù)據(jù)挖掘是核心工作內(nèi)容,其工作原理是通過對(duì)海量、復(fù)雜以及無規(guī)律的數(shù)據(jù)展開深入分析、計(jì)算處理作業(yè),從中挖掘出具有一定價(jià)值的信息數(shù)據(jù),從而輔助市場(chǎng)各個(gè)行業(yè)領(lǐng)域企業(yè)作出科學(xué)決策,推動(dòng)整個(gè)社會(huì)和諧穩(wěn)定的發(fā)展。當(dāng)前,大數(shù)據(jù)挖掘被廣泛應(yīng)用在通訊行業(yè)、制造行業(yè)、營(yíng)銷行業(yè)以及互聯(lián)網(wǎng)信息行業(yè)中,如何應(yīng)用數(shù)據(jù)挖掘幫助人們解決現(xiàn)實(shí)問題,已經(jīng)成為社會(huì)各界人士高度關(guān)注的焦點(diǎn)。
2 大數(shù)據(jù)挖掘中數(shù)學(xué)的實(shí)踐應(yīng)用
在大數(shù)據(jù)挖掘過程中,數(shù)學(xué)知識(shí)方法的運(yùn)用是至關(guān)重要的,數(shù)學(xué)是對(duì)大量數(shù)據(jù)展開分析處理工作的基礎(chǔ),是實(shí)現(xiàn)從海量數(shù)據(jù)中挖掘出具有價(jià)值數(shù)據(jù)的關(guān)鍵途徑。因此,相關(guān)研究人員要將數(shù)學(xué)專業(yè)知識(shí)有效融入到大數(shù)據(jù)挖掘與處理工作中,不斷對(duì)實(shí)際問題的解決能力,提高對(duì)數(shù)據(jù)的處理分析水平。
2.1 數(shù)學(xué)在數(shù)據(jù)處理分析中的應(yīng)用
當(dāng)工作人員對(duì)大數(shù)據(jù)展開挖掘作業(yè)時(shí),首先需要對(duì)需求數(shù)據(jù)進(jìn)行科學(xué)收集整理工作。大數(shù)據(jù)具備了很強(qiáng)的時(shí)效性,每個(gè)工作人員都必須正確認(rèn)識(shí)到提高數(shù)據(jù)處理質(zhì)量和效率的重要性,要確保在最短時(shí)間內(nèi)完成對(duì)大量數(shù)據(jù)的處理分析工作,挖掘獲取到需求價(jià)值數(shù)據(jù)。如果收集到的原始數(shù)據(jù)存在著不完整、不統(tǒng)一以及噪聲等情況時(shí),相關(guān)人員還需對(duì)該部分?jǐn)?shù)據(jù)進(jìn)行預(yù)處理作業(yè),這樣有利于提高數(shù)據(jù)的準(zhǔn)確性。如果數(shù)據(jù)量或者指標(biāo)集過大,工作人員可以結(jié)合相關(guān)標(biāo)準(zhǔn)選擇一些具有代表性的數(shù)據(jù)進(jìn)行處理分析,確保能夠反映出研究結(jié)果。
在數(shù)據(jù)處理分析中,工作人員可以合理運(yùn)用數(shù)學(xué)專業(yè)知識(shí)中的各種分析方法。例如,回歸分析法、描述性分析法以及相關(guān)性分析法等。工作人員在運(yùn)用回歸分析法和相關(guān)性分析法時(shí),要科學(xué)將兩種數(shù)學(xué)分析方法融合在一起,基于相關(guān)性分析下,通過有效觀察某兩個(gè)或者多個(gè)相關(guān)變量的數(shù)量變化關(guān)系,構(gòu)建出對(duì)應(yīng)的數(shù)學(xué)模式,然后利用已知量準(zhǔn)確推斷出未知量。在數(shù)據(jù)處理中進(jìn)行回歸分析的核心目的在于合理采用樣本數(shù)據(jù)對(duì)各項(xiàng)參數(shù)展開科學(xué)估計(jì),接著構(gòu)建出對(duì)應(yīng)的數(shù)據(jù)模型,以此來判斷和預(yù)測(cè)出參數(shù)數(shù)據(jù)。與此同時(shí),在數(shù)據(jù)處理分析中,研究工作人員還會(huì)涉及運(yùn)用到大量的數(shù)學(xué)理論知識(shí)。例如,數(shù)學(xué)測(cè)度論知識(shí),也就是通過運(yùn)算結(jié)合兩個(gè)或者多個(gè)單調(diào)測(cè)度,以此完成對(duì)新單調(diào)測(cè)度的創(chuàng)建工作,當(dāng)研究人員在進(jìn)行數(shù)據(jù)降維處理作業(yè)時(shí),可以合理運(yùn)用測(cè)度論。與傳統(tǒng)主因子分析方法相比較,測(cè)度論分析法的合理運(yùn)用不僅能夠最大程度保障數(shù)據(jù)處理分析的完整性,還可以有效提升數(shù)據(jù)分析結(jié)果的科學(xué)準(zhǔn)確性。
2.2 數(shù)學(xué)在數(shù)據(jù)挖掘中應(yīng)用
數(shù)據(jù)挖掘工作的主要特點(diǎn)包括了應(yīng)用性、集合性、工程性以及交叉性。數(shù)學(xué)理論知識(shí)和方法在數(shù)據(jù)挖掘過程中起到了無可替代的作用。研究人員在展開數(shù)據(jù)挖掘工作時(shí),頻繁使用的數(shù)學(xué)方法主要包括了聚類分析法、關(guān)聯(lián)分析法以及決策樹法等,不同數(shù)學(xué)方法在數(shù)據(jù)挖掘中起到了不同的作用。其中,聚類分析是挖掘挖掘中應(yīng)用最為重要的一種數(shù)學(xué)方法。聚類分析法實(shí)質(zhì)是指將物理或者對(duì)象集合體科學(xué)劃分成若干個(gè)具有類似或相似性的小組,即“物理類聚”。聚類分析法被廣泛應(yīng)用在醫(yī)學(xué)、心理學(xué)、營(yíng)銷學(xué)以及統(tǒng)計(jì)學(xué)等領(lǐng)域中。聚類分析法在數(shù)據(jù)挖掘中的應(yīng)用內(nèi)容主要是通過灰色關(guān)聯(lián)分析法、目標(biāo)函數(shù)模糊方法以及區(qū)間值算法進(jìn)行體現(xiàn)的。
2.2.1 灰色關(guān)聯(lián)分析法的運(yùn)用
灰色關(guān)聯(lián)分析方法還根據(jù)系統(tǒng)因素之間發(fā)展趨勢(shì)的相似或者相異程度,即“灰色關(guān)聯(lián)度”,作為衡量因素間關(guān)聯(lián)程度的一種數(shù)學(xué)方法,該種分析方法適用于數(shù)據(jù)動(dòng)態(tài)發(fā)展歷程分析。在灰色關(guān)聯(lián)分析法中,灰色關(guān)聯(lián)系統(tǒng)的具體表現(xiàn)形式為S=(X,R),其中字母X指的是影響因子集合,字母R指的是因子間趨勢(shì)關(guān)聯(lián)映射的集合。研究人員在數(shù)據(jù)挖掘工作中通常采用的是數(shù)學(xué)灰色管理分析法,通過科學(xué)分析比較不同幾何曲線之間的幾何形狀展開數(shù)據(jù)分析處理。如果幾何曲線之間的幾何形狀越接近,這代表著數(shù)據(jù)關(guān)聯(lián)越大,反之如果幾何形狀越不接近,則數(shù)據(jù)關(guān)聯(lián)越小。研究人員通過在數(shù)據(jù)挖掘過程中運(yùn)用數(shù)學(xué)灰色關(guān)聯(lián)分析法,有利于對(duì)樣本數(shù)據(jù)殘缺或者數(shù)據(jù)量小情況的分析處理,從中挖據(jù)出重要價(jià)值的數(shù)據(jù)。
2.2.2 目標(biāo)函數(shù)模糊聚類法的運(yùn)用
在實(shí)際工作生活中,模糊聚類法被廣泛應(yīng)用在圖像處理、數(shù)據(jù)分析以及數(shù)據(jù)挖掘工作中。伴隨著時(shí)間的不斷推移,計(jì)算機(jī)信息技術(shù)的不斷完善,目標(biāo)函數(shù)模糊聚類方法應(yīng)用成為了當(dāng)今社會(huì)大數(shù)據(jù)挖掘研究的重點(diǎn),其是解決生活中實(shí)際聚類問題的有效方法。目標(biāo)函數(shù)模糊聚類方法適用于對(duì)高維處理、高效率以及具有伸縮性大數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘工作。大數(shù)據(jù)挖掘研究人員利用目標(biāo)函數(shù)模糊聚類法,將不同數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后再科學(xué)標(biāo)定,同時(shí)構(gòu)建出完善的模糊矩陣,最后科學(xué)采取直接聚類或者模糊等價(jià)矩陣的手段實(shí)施數(shù)據(jù)集和關(guān)鍵指標(biāo)的聚類,并且還可以采用編網(wǎng)法或者最大樹法展開聚類作業(yè)。
2.2.3 區(qū)間值算法的運(yùn)用
在數(shù)學(xué)知識(shí)內(nèi)容中,區(qū)間值算法是基于區(qū)間值聚類方法中最為常用的一種數(shù)學(xué)方法,其在數(shù)據(jù)挖掘工作內(nèi)容范圍中的應(yīng)用主要體現(xiàn)在對(duì)不完全系統(tǒng)信息進(jìn)行挖掘和分析。大數(shù)據(jù)挖掘研究人員通過利用區(qū)間值算法,能夠?qū)?shù)據(jù)挖掘過程當(dāng)中的一些能進(jìn)行轉(zhuǎn)化的“比較型”數(shù)據(jù),或者是固定取值范圍的數(shù)據(jù)進(jìn)行科學(xué)分析處理。在實(shí)踐數(shù)據(jù)挖掘中,研究人員采用區(qū)間值算法主要涵蓋了三種不同聚類法,分別是矩陣與區(qū)間聚類法、數(shù)與區(qū)間聚類法以及區(qū)間與區(qū)間聚類法。在這三種方法中使用最為頻繁的是數(shù)與區(qū)間聚類法,該方法的合理運(yùn)用能夠幫助研究人員真實(shí)、快速以及準(zhǔn)確地對(duì)不完全的系統(tǒng)信息展開科學(xué)通知分析。在明確區(qū)間值時(shí),研究人員可以通過利用先進(jìn)的統(tǒng)計(jì)方法進(jìn)行科學(xué)確定,或者也可以展開相互之間的討論分析,結(jié)合長(zhǎng)期工作經(jīng)驗(yàn)進(jìn)行區(qū)間值的確定。
3 結(jié)語(yǔ)
綜上所述,當(dāng)今社會(huì)發(fā)展離不開大數(shù)據(jù)技術(shù)的支持應(yīng)用,人們生活工作都會(huì)涉及到各種重要價(jià)值的數(shù)據(jù)信息。研究人員必須不斷加強(qiáng)對(duì)大數(shù)據(jù)挖掘的深入研究分析工作,提高對(duì)大數(shù)據(jù)的處理分析水平。數(shù)學(xué)作為大數(shù)據(jù)挖掘的支撐基礎(chǔ),在大數(shù)據(jù)挖掘中研究人員要善于運(yùn)用各種數(shù)學(xué)專業(yè)理論知識(shí)和方法,發(fā)揮出數(shù)學(xué)知識(shí)的價(jià)值作用,幫助人們從海量數(shù)據(jù)中快速挖掘出可利用價(jià)值數(shù)據(jù),解決生活中存在的實(shí)際問題,為人類社會(huì)帶來更多的便利之處。
本文來源:《企業(yè)科技與發(fā)展》:http://00559.cn/w/qk/21223.html
欄目分類
- 1智能家居發(fā)展現(xiàn)狀及未來
- 2中國(guó)VR技術(shù)發(fā)展現(xiàn)狀、應(yīng)用前景與對(duì)策研究
- 3淺談霍爾效應(yīng)及其應(yīng)用
- 4收入確認(rèn)與計(jì)量的"五步法"模型實(shí)務(wù)探討
- 5趣味浮力探究實(shí)驗(yàn)
- 6智能溫度控制系統(tǒng)
- 7人工智能技術(shù)在傳播領(lǐng)域的應(yīng)用與展望
- 8基于OpenCV的車道線識(shí)別與跟蹤算法
- 9國(guó)內(nèi)外廢紙分類標(biāo)準(zhǔn)對(duì)比和分析
- 10共享汽車行業(yè)和諧發(fā)展的swot分析
- 為什么發(fā)表論文都不開雜志社的發(fā)票呢?
- 2021-2022年CSCD中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)來源期刊列表-理科南大核心目錄完整版
- CSCD中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)來源期刊列表(2023-2024年度)南大核心目錄
- 融媒體環(huán)境下地方新聞網(wǎng)站媒體的發(fā)展路徑
- 創(chuàng)新與繼承:70周年獻(xiàn)禮片“三杰”研究
- 人本導(dǎo)向下的城市更新規(guī)劃思路探索——以上海松江區(qū)中山街道老城區(qū)為例
- 預(yù)制裝配式地鐵車站施工技術(shù)
- 從框架理論看“中國(guó)學(xué)習(xí)的人”
- 互聯(lián)網(wǎng)環(huán)境下古都洛陽(yáng)城市形象建構(gòu)與傳播探析
- 價(jià)值工程在房地產(chǎn)開發(fā)管理分工中應(yīng)用
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?