時(shí)間:2022-04-03 02:52:37
序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)研究范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
隨著數(shù)據(jù)采集技術(shù)的成熟和普及,大量的空間數(shù)據(jù)通過遙感、地理信息系統(tǒng)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數(shù)據(jù)類型,空間數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并在地理信息系統(tǒng)、遙感勘測、圖像處理、交通管理、環(huán)境研究等領(lǐng)域得到廣泛應(yīng)用。
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial data mining,簡稱sdm),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程。空間數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),可用于對空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識,發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關(guān)聯(lián)規(guī)則四類。空間分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹。空間聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個(gè)給定的起始對象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢的變化趨勢,空間趨勢分析需要使用回歸和相關(guān)的分析方法。空間關(guān)聯(lián)規(guī)則是指空間鄰接圖中對象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進(jìn)行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。
空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識)、模式評估(根據(jù)某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術(shù)和知識表示技術(shù),向用戶提供挖掘的知識)等階段(見圖1)。空間數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過程。
2 空間數(shù)據(jù)挖掘在gis中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(gis)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與gis集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將gis當(dāng)作一個(gè)空間數(shù)據(jù)庫看待,在g is環(huán)境外部借助其它軟件或計(jì)算機(jī)語言進(jìn)行空間數(shù)據(jù)挖掘,與gis之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在gis中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用gis提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R。目前,這些知識已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。
3 空間數(shù)據(jù)挖掘面臨的問題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)。空間數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更有效的知識發(fā)現(xiàn)算法。
(3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R,用戶不能很好掌控空間數(shù)據(jù)挖掘過程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對某個(gè)特定的問題,因而能夠發(fā)現(xiàn)的知識有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了gis在空間知識發(fā)現(xiàn)過程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數(shù)據(jù)庫領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識,知識發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。
上述問題使得從空間數(shù)據(jù)庫中提取知識比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫中提取知識更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究。空間關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理。空間數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
隨著數(shù)據(jù)采集技術(shù)的成熟和普及,大量的空間數(shù)據(jù)通過遙感、地理信息系統(tǒng)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數(shù)據(jù)類型,空間數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并在地理信息系統(tǒng)、遙感勘測、圖像處理、交通管理、環(huán)境研究等領(lǐng)域得到廣泛應(yīng)用。
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial Data Mining,簡稱SDM),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程。空間數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),可用于對空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識,發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關(guān)聯(lián)規(guī)則四類。空間分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹。空間聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個(gè)給定的起始對象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢的變化趨勢,空間趨勢分析需要使用回歸和相關(guān)的分析方法。空間關(guān)聯(lián)規(guī)則是指空間鄰接圖中對象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進(jìn)行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。
空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識)、模式評估(根據(jù)某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術(shù)和知識表示技術(shù),向用戶提供挖掘的知識)等階段(見圖1)。空間數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過程。
2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R。目前,這些知識已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。
3 空間數(shù)據(jù)挖掘面臨的問題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲(chǔ)、 處理及空間數(shù)據(jù)本身的特點(diǎn)。空間數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更有效的知識發(fā)現(xiàn)算法。
(3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R,用戶不能很好掌控空間數(shù)據(jù)挖掘過程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對某個(gè)特定的問題,因而能夠發(fā)現(xiàn)的知識有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識發(fā)現(xiàn)過程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數(shù)據(jù)庫領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識,知識發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。
上述問題使得從空間數(shù)據(jù)庫中提取知識比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫中提取知識更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究。空間關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理。空間數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
關(guān)鍵詞:
大數(shù)據(jù)大數(shù)據(jù)分析大數(shù)據(jù)挖掘可視分析
隨著云計(jì)算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,各種移動(dòng)設(shè)備、傳感網(wǎng)絡(luò)、電商網(wǎng)站、社交網(wǎng)絡(luò)時(shí)時(shí)刻刻都在生成各種各樣類型的數(shù)據(jù),大數(shù)據(jù)時(shí)代已經(jīng)到來。大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多樣、數(shù)據(jù)的質(zhì)量低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大量數(shù)據(jù)中獲取有價(jià)值的內(nèi)容,更準(zhǔn)確、更深層次的知識,而不是對數(shù)據(jù)簡單的統(tǒng)計(jì)和分析。
1大數(shù)據(jù)的定義與特征
大數(shù)據(jù)已經(jīng)進(jìn)入了我們每個(gè)人的生活,各行各業(yè)都在討論如何發(fā)展和運(yùn)用大數(shù)據(jù),那么什么是大數(shù)據(jù),大數(shù)據(jù)的特征是什么?大數(shù)據(jù)是指所涉及的數(shù)據(jù)規(guī)模巨大到無法通過目前主流的軟件工具在合理時(shí)間內(nèi)擷取、管理、處理、挖掘這些數(shù)據(jù),并整理成為企業(yè)經(jīng)營決策有用的信息。IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包含來自互聯(lián)網(wǎng)的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價(jià)值性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)具有4V特征,給人們帶來了新的機(jī)遇與挑戰(zhàn)。
2大數(shù)據(jù)挖掘與分析的意義
在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因?yàn)榇髷?shù)據(jù)的價(jià)值全部在數(shù)據(jù)分析過程中產(chǎn)生。互聯(lián)網(wǎng)、硬件等技術(shù)迅猛發(fā)展,加深了人們對數(shù)據(jù)分析的需求。如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢的重點(diǎn)在于如何提高數(shù)據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價(jià)值。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析是數(shù)據(jù)價(jià)值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素。傳統(tǒng)的數(shù)據(jù)分析主要針對結(jié)構(gòu)化數(shù)據(jù),且已經(jīng)形成一整套非常有效果的分析體系。但是在大數(shù)據(jù)時(shí)代,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的快速增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的挑戰(zhàn)和沖擊。大數(shù)據(jù)分析于傳統(tǒng)數(shù)據(jù)分析有哪些區(qū)別呢?
3大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)
大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)實(shí)時(shí)處理、大數(shù)據(jù)可視化和應(yīng)用等。
3.1大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。智能感知層重點(diǎn)攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。基礎(chǔ)支撐層重點(diǎn)攻克提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器、數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等處理技術(shù)。
3.2大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期對大數(shù)據(jù)進(jìn)行的一些提前處理。預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等幾種方法(表1)。大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大,但并沒有增加數(shù)據(jù)價(jià)值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲(chǔ)器里就沒再用過。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任意碎片化。在應(yīng)對處理大數(shù)據(jù)的技術(shù)挑戰(zhàn)中,大數(shù)據(jù)的降噪與清洗技術(shù)值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫中發(fā)現(xiàn)時(shí)序知識、關(guān)聯(lián)知識和分類知識等。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)庫已經(jīng)不能滿足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類型繁多,我們進(jìn)入了一個(gè)非結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。因此,非結(jié)構(gòu)化數(shù)據(jù)模型是大數(shù)據(jù)預(yù)處理的重要研究方向。
3.3大數(shù)據(jù)管理大數(shù)據(jù)不斷地從復(fù)雜的應(yīng)用系統(tǒng)中產(chǎn)生,并且將會(huì)以更多、更復(fù)雜、更多樣化的方式持續(xù)增長。多樣化的物聯(lián)網(wǎng)傳感設(shè)備不斷地感知著海量的具有不同格式的數(shù)據(jù)。物聯(lián)網(wǎng)系統(tǒng)中大數(shù)據(jù)的復(fù)雜化和格式多樣化,決定了物聯(lián)網(wǎng)系統(tǒng)中針對大數(shù)據(jù)的應(yīng)用場景和服務(wù)類型的多樣化,從而要求物聯(lián)網(wǎng)大數(shù)據(jù)管理系統(tǒng)必須采用特定技術(shù)來處理各種格式的大數(shù)據(jù),而現(xiàn)在針對特定數(shù)據(jù)類型和業(yè)務(wù)的系統(tǒng)已經(jīng)無法滿足多樣化需求,因此,設(shè)計(jì)新的具有可擴(kuò)展性的系統(tǒng)架構(gòu)已經(jīng)成為大數(shù)據(jù)管理的研究熱點(diǎn)。
3.4大數(shù)據(jù)實(shí)時(shí)處理根據(jù)大數(shù)據(jù)速度快的特點(diǎn),時(shí)間越長,數(shù)據(jù)的價(jià)值也在不斷衰減,因此很多領(lǐng)域需要對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。大數(shù)據(jù)時(shí)代,伴隨著各種應(yīng)用場景的數(shù)據(jù)分析從離線轉(zhuǎn)向了在線,實(shí)時(shí)處理的需求不斷提高。大數(shù)據(jù)的實(shí)時(shí)處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù)處理模式和算法的選擇及改進(jìn)。
3.5大數(shù)據(jù)可視分析大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)挖掘的同時(shí),融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,利用人機(jī)交互技術(shù)和可視化界面,獲得大規(guī)模復(fù)雜數(shù)據(jù)集的分析能力。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化是必須盡快解決的關(guān)鍵問題,為大數(shù)據(jù)服務(wù)的研究指明了方向。
4結(jié)語
傳統(tǒng)數(shù)據(jù)處理方法已經(jīng)不能滿足大數(shù)據(jù)挖掘與分析的需求。近年來,大數(shù)據(jù)挖掘與分析領(lǐng)域已經(jīng)出現(xiàn)了很多新技術(shù),并成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的堅(jiān)實(shí)基礎(chǔ)。但是對大數(shù)據(jù)分析的價(jià)值尚缺少深入的理解,大數(shù)據(jù)分析中的很多重要技術(shù)還不成熟,還有很多其他關(guān)鍵技術(shù)難題需要去繼續(xù)研究。
參考文獻(xiàn)
[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué)博士學(xué)位論文,2013.
[2]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,25(09):1909-1936.
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)09-0016-02
Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology
Key words: data mining; web data mining; classification; mining technology
互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進(jìn)行信息獲取的一個(gè)重要渠道, 尤其大量運(yùn)用與社會(huì)和科學(xué)的方方面面。一般來說數(shù)據(jù)挖掘主要利用計(jì)算機(jī)和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運(yùn)用。基于網(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。
1 數(shù)據(jù)挖掘的特點(diǎn)
1)數(shù)據(jù)挖掘的特點(diǎn)之一就是半結(jié)構(gòu)化,這個(gè)特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點(diǎn)[2],因?yàn)榫W(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點(diǎn)。因此稱它為半結(jié)構(gòu)化。
2)數(shù)據(jù)挖掘的特點(diǎn)之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。
3) 數(shù)據(jù)挖掘的特點(diǎn)之三是數(shù)據(jù)庫的結(jié)構(gòu)存在不同,因?yàn)榛ヂ?lián)網(wǎng)上的一個(gè)網(wǎng)站可以存為一個(gè)數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點(diǎn)比較強(qiáng),由它們構(gòu)成的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。
4) 數(shù)據(jù)挖掘的特點(diǎn)之四是動(dòng)態(tài)性強(qiáng),網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。
2 數(shù)據(jù)挖掘過程
基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識別、變化的,正因?yàn)樗@些特點(diǎn),要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費(fèi)功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進(jìn)行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個(gè)步奏。
1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個(gè)頁面中獲取數(shù)據(jù)信息,組成目標(biāo)數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個(gè)過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。
2)把獲取的數(shù)據(jù)進(jìn)行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對數(shù)據(jù)源進(jìn)行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進(jìn)行下一步的分析。
3)對數(shù)據(jù)經(jīng)過提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會(huì)使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。
4)在對數(shù)據(jù)模式發(fā)現(xiàn)后,需要對這些模式進(jìn)行挖掘,也就是知識的轉(zhuǎn)換過程,把提取到的模式再進(jìn)行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。
3 數(shù)據(jù)挖掘分類
在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,針對不同的數(shù)據(jù)結(jié)構(gòu),會(huì)采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖 [3],如圖2所示。
4 數(shù)據(jù)挖掘相關(guān)技術(shù)
互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。
4.1 網(wǎng)頁內(nèi)容挖掘
4.1.1 網(wǎng)頁文檔挖掘
網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據(jù)網(wǎng)頁文檔進(jìn)行預(yù)測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進(jìn)數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對數(shù)據(jù)分析不利,因此一個(gè)好特征表示主要集中在特征集的選取方面,特征集需求好,對數(shù)據(jù)進(jìn)行分析的時(shí)間就相對少,如果選取不好,將要花很長時(shí)間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關(guān)聯(lián)等方法來進(jìn)行提取信息,然后對這些提取的信息進(jìn)行評價(jià)分析,找到有用的信息,為后續(xù)的決策工作提供指導(dǎo)。
4.1.2 挖掘網(wǎng)頁多媒體
在進(jìn)行網(wǎng)頁多媒體挖掘主要關(guān)注的是特征提取,這點(diǎn)網(wǎng)頁內(nèi)容挖掘不一樣。在網(wǎng)頁多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進(jìn)行數(shù)據(jù)挖掘。
4.2挖掘網(wǎng)頁結(jié)構(gòu)
挖掘網(wǎng)站空間中的知識,不僅關(guān)注包含在各個(gè)網(wǎng)頁內(nèi)容中的信息數(shù)據(jù),同時(shí)也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁結(jié)構(gòu)和超級鏈接結(jié)構(gòu),這也是非常重要的。進(jìn)行網(wǎng)頁結(jié)構(gòu)挖掘主要分析網(wǎng)頁結(jié)構(gòu)之間的特征,利用聚類和分類來分析頁面結(jié)構(gòu)特征,找到特征模式。
4.3 網(wǎng)頁使用挖掘
網(wǎng)頁使用挖掘也是挖掘網(wǎng)頁記錄,實(shí)際就是挖掘用戶在網(wǎng)頁上留下的相關(guān)的記錄信息,網(wǎng)頁使用挖掘就是分析用戶留言記錄的相關(guān)信息,通過這些信息時(shí)報(bào)未來需要發(fā)展的用戶; 網(wǎng)頁使用挖掘通常使用擴(kuò)展有向樹模型分析用戶的各種瀏覽行為習(xí)慣,挖掘出用戶的日志信息,以及用戶關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識庫中,未下一步的分析工作提供數(shù)據(jù), 對網(wǎng)頁使用日志挖掘可分為三個(gè)步驟:日志預(yù)分析、分析方法處理、 模式分析階段。在網(wǎng)頁使用分析中,關(guān)注網(wǎng)頁服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶訪問的時(shí)間、URL、IP、使用方法、、返回結(jié)構(gòu)、傳輸數(shù)據(jù)等相關(guān)信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進(jìn)行提純處理。一旦數(shù)據(jù)處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術(shù)來分析日志,獲取有用的信息。
5 結(jié)束語
本文介紹了網(wǎng)頁數(shù)據(jù)挖掘的相關(guān)概念、挖掘過程、分類方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關(guān)注如何對這些網(wǎng)頁數(shù)據(jù)的處理。網(wǎng)頁數(shù)據(jù)挖掘在各個(gè)方面,特別在結(jié)合語言問題、查詢半結(jié)構(gòu)化、數(shù)據(jù)庫方面會(huì)得到不斷發(fā)展。
參考文獻(xiàn):
[1] ITUCT Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.
1.前言
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學(xué)科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù),數(shù)據(jù)挖掘是一個(gè)包含多個(gè)處理步驟的知識發(fā)現(xiàn)過程,其主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評估和知識表達(dá)輸出等。
把數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)系統(tǒng)中,開發(fā)出基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)系統(tǒng)能夠加深和加強(qiáng)對電子商務(wù)系統(tǒng)數(shù)據(jù)的分析功能,為電子商務(wù)企業(yè)管理人員提供電子商務(wù)的預(yù)期信息,從而能很好的保證電子商務(wù)網(wǎng)站的運(yùn)行效果。
現(xiàn)在電子商務(wù)系統(tǒng)主要形式B2C,涉及的數(shù)據(jù)不僅包括客戶在電子商務(wù)網(wǎng)站上的交易數(shù)據(jù),還包括客戶的注冊信息數(shù)據(jù)和商品信息等數(shù)據(jù)。電子商務(wù)系統(tǒng)的數(shù)據(jù)有如下特點(diǎn):
(1)數(shù)據(jù)量大;
(2)數(shù)據(jù)質(zhì)量差;
(3)數(shù)據(jù)種類多。
2.電子商務(wù)系統(tǒng)功能模塊結(jié)構(gòu)設(shè)計(jì)
根據(jù)B2C電子商務(wù)系統(tǒng)設(shè)計(jì)的目標(biāo),管理業(yè)務(wù)流程,將這個(gè)B2C電子商務(wù)系統(tǒng)分為:會(huì)員注冊管理、會(huì)員帳戶管理、商品購買管理、會(huì)員管理、商品類別管理、商品管理、優(yōu)惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網(wǎng)站管理和數(shù)據(jù)挖掘管理等功能模塊(如圖1所示)。
3.數(shù)據(jù)挖掘管理模塊的設(shè)計(jì)
B2C電子商務(wù)數(shù)據(jù)挖掘管理模塊主要通過對電子商務(wù)企業(yè)當(dāng)前的和歷史的交易數(shù)據(jù)進(jìn)行分析。挖掘出其中隱含的知識和從中發(fā)現(xiàn)隱含的趨勢和規(guī)律。它主要包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結(jié)果顯示模塊。B2C電子商務(wù)數(shù)據(jù)挖掘系統(tǒng)從電子商務(wù)運(yùn)行商品數(shù)據(jù)庫、客戶信息數(shù)據(jù)庫和交易數(shù)據(jù)庫中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進(jìn)行數(shù)據(jù)預(yù)處理,并建立數(shù)據(jù)挖掘模型,供電子商務(wù)企業(yè)的用戶挖掘時(shí)使用。用戶只需要輸入簡單的一些參數(shù),系統(tǒng)就會(huì)自動(dòng)的根據(jù)已建立的模型輸出預(yù)測結(jié)果。電子商務(wù)挖掘系統(tǒng)體系結(jié)構(gòu)如圖2所示。
3.1 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行挖掘,需要做數(shù)據(jù)預(yù)處理工作,其一般包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換。數(shù)據(jù)預(yù)處理是否做好將影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。這些處理技術(shù)在數(shù)據(jù)挖掘之前使用可以大大提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。原始數(shù)據(jù)通過數(shù)據(jù)選擇、清理、集成和轉(zhuǎn)換后生成數(shù)據(jù)挖掘庫,為下一步的數(shù)據(jù)挖掘做好準(zhǔn)備。
3.2 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘的目的是生成可以據(jù)其所示的含義采取行動(dòng)的知識,也就是建立一個(gè)現(xiàn)實(shí)世界的模型。數(shù)據(jù)挖掘的本質(zhì)就是數(shù)學(xué)建模。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時(shí)間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。針對同一模型,可以使用不同的算法進(jìn)行數(shù)據(jù)挖掘。算法的目的就是找到適合于數(shù)據(jù)的模型。數(shù)據(jù)挖掘涉及到多步驟、各系統(tǒng)間的交互、特殊解決方案及各步驟間的反復(fù)過程。
B2C電子商務(wù)網(wǎng)站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會(huì)影響客戶對商品的購買率。而商品之間的關(guān)聯(lián)性一般不是很容易看出來的,一般人很難聯(lián)想到商品之間的關(guān)聯(lián)性,只有實(shí)際上通過對大量的交易歷史數(shù)據(jù)的分析,才可以挖掘出它們之間的關(guān)聯(lián)性。在數(shù)據(jù)挖掘過程中對關(guān)聯(lián)產(chǎn)品和服務(wù)進(jìn)行深入挖掘,可以發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則,利用關(guān)聯(lián)規(guī)則模型進(jìn)行數(shù)據(jù)挖掘可以了解客戶的購買行為,這對于改進(jìn)B2C電子商務(wù)商業(yè)活動(dòng)的決策很有幫助。例如,可以通過改進(jìn)商品介紹位置的擺放(把顧客經(jīng)常同時(shí)買的商品擺放在一起),幫助如何規(guī)劃市場(互相搭配進(jìn)貨)等。而作為B2C電子商務(wù)網(wǎng)站。可以針對不同客戶特點(diǎn)動(dòng)態(tài)調(diào)整網(wǎng)站結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的網(wǎng)頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網(wǎng)站更能吸引客戶,提高客戶的忠誠度,提高網(wǎng)站的效益。
B2C電子商務(wù)網(wǎng)站網(wǎng)頁主要為顧客展示商品名稱或圖片,為顧客推薦與當(dāng)前感興趣商品更詳細(xì)或相關(guān)的網(wǎng)頁是個(gè)性化推薦的關(guān)鍵。根據(jù)客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個(gè)性化服務(wù),例如系統(tǒng)可以向客戶顯示那些可能引起客戶感興趣的新商品。
隨著“以客戶為中心”的經(jīng)營理念不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營的重要課題。通過對B2C電子商務(wù)系統(tǒng)收集的客戶的交易數(shù)據(jù)進(jìn)行聚類模型挖掘,可以確定不同類萬方數(shù)據(jù)型客戶的行為模式,電子商務(wù)企業(yè)便可以采取相應(yīng)的營銷措施,促使企業(yè)利潤的最大化。
3.3 數(shù)據(jù)挖掘結(jié)果顯示模塊
數(shù)據(jù)挖掘結(jié)果的顯示模塊是將數(shù)據(jù)挖掘后得到的知識和結(jié)果用可視化形式表示出來,例如采用圖形化界面把挖掘結(jié)果顯示給電子商務(wù)企業(yè)的管理人員。在建立好相關(guān)數(shù)學(xué)模型后,把實(shí)際數(shù)據(jù)作為輸入信息,通過挖掘模型的計(jì)算獲得預(yù)測結(jié)果。B2C電子商務(wù)企業(yè)要根據(jù)不同的挖掘結(jié)果做出不同的反應(yīng)。采取不同的措施,給顧客提供不同的服務(wù),在為顧客服務(wù)的同時(shí)也為自己的B2C電子商務(wù)企業(yè)獲取更多的利潤。
4.結(jié)論
本文討論了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于B2C電子商務(wù)系統(tǒng)中,并采用J2EE的B/S架構(gòu)將其實(shí)現(xiàn),系統(tǒng)采用客戶端、中間服務(wù)器和后臺數(shù)據(jù)庫三層架構(gòu)。利用數(shù)據(jù)挖掘技術(shù)可以提高B2C電子商務(wù)企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,它能夠提高B2C電子商務(wù)企業(yè)對客戶管理和商品管理方面信息的準(zhǔn)確性和及時(shí)性,可以幫助B2C電子商務(wù)企業(yè)網(wǎng)站的開發(fā)人員及時(shí)、全面了解B2C電子商務(wù)企業(yè)網(wǎng)站運(yùn)營情況和合理安排網(wǎng)頁的頁面布局,為不同瀏覽習(xí)慣的顧客提供個(gè)性化服務(wù),為各項(xiàng)具體工作提供技術(shù)、信息支持;有效地減少各種失誤并保證B2C電子商務(wù)企業(yè)網(wǎng)站的各項(xiàng)任務(wù)保質(zhì)保量、按計(jì)劃完成,從而提高電子商務(wù)企業(yè)網(wǎng)站的運(yùn)作效率。
參考文獻(xiàn)
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版,2004.
1.1.1將文本對比作為基礎(chǔ)的方式采用計(jì)算機(jī)軟件系統(tǒng)中的對比程序代碼中所包含的語句行展開進(jìn)一步的判斷過程,這種方法在進(jìn)行后期的改進(jìn)過程中針對的是對字符串的匹配效率進(jìn)行提升,提升的辦法有很多,最為主要的就是通過Hash函數(shù)技術(shù)進(jìn)行匹配效率優(yōu)化,在這個(gè)過程中最為常用的工具為Duploc。
1.1.2將標(biāo)識符對比作為基礎(chǔ)的方式將標(biāo)識符對比作為基礎(chǔ)的方式,最具代表性的方式是對由分詞所組成的標(biāo)識符序列構(gòu)造前綴樹,并將其作為依據(jù)然后進(jìn)行對比,將標(biāo)識符對比作為基礎(chǔ)的方式的工具主要有CCFinder、Dup等[3]。
1.2計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘數(shù)據(jù)檢索挖掘與克隆代碼一樣,同樣是計(jì)算機(jī)軟件工程中最為原始的數(shù)據(jù)挖掘需求之一,對于計(jì)算機(jī)軟件數(shù)據(jù)檢索挖掘來說其主要分為以下三步:第一步,為數(shù)據(jù)信息的錄入。所謂的數(shù)據(jù)信息錄入實(shí)際上指的是對于要檢索的信息進(jìn)行錄入的過程,針對使用者的需求將使用者所需要的數(shù)據(jù)信息輸入到檢索信息錄入框中進(jìn)行數(shù)據(jù)的查找。第二步,為數(shù)據(jù)信息的查找過程。當(dāng)客戶所需要的信息進(jìn)入到數(shù)據(jù)檢索錄入框中時(shí),進(jìn)行確認(rèn)后數(shù)據(jù)挖掘系統(tǒng)將會(huì)根據(jù)數(shù)據(jù)信息中所涵蓋的數(shù)據(jù)信息內(nèi)容進(jìn)行數(shù)據(jù)庫中的查找,并且根據(jù)不同的分類,對查找信息的數(shù)據(jù)信息資料進(jìn)行羅列[4]。第三步,為數(shù)據(jù)信息資料內(nèi)容的導(dǎo)出和查看,在查找到相關(guān)的客戶需要數(shù)據(jù)內(nèi)容時(shí),客戶可以根據(jù)自己本身的實(shí)際需要,進(jìn)行數(shù)據(jù)信息的導(dǎo)出或者是在線查看,在數(shù)據(jù)信息資料導(dǎo)出后,需要應(yīng)用相關(guān)的數(shù)據(jù)信息查看軟件進(jìn)行查看。并且客戶在導(dǎo)出數(shù)據(jù)信息時(shí),會(huì)在中形成一定的歷史記錄,對客戶及時(shí)查找的數(shù)據(jù)信息進(jìn)行記錄與保存,當(dāng)客戶想要再次進(jìn)行查找時(shí)能夠更為方便與快捷的找到其所需要的數(shù)據(jù)信息內(nèi)容。
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-7597(2013)14-0064-01
并行計(jì)算技術(shù)、軟件技術(shù)以及網(wǎng)絡(luò)技術(shù)等多元技術(shù)發(fā)展后,出現(xiàn)了云計(jì)算技術(shù)。云計(jì)算商業(yè)價(jià)值以及科研價(jià)值都獲得了肯定,IBM、Google等公司都非常重視云計(jì)算技術(shù)。隨著云計(jì)算的快速興起與發(fā)展,在數(shù)據(jù)存儲(chǔ)與商業(yè)化應(yīng)用方面將得到顯著提升,這也是云計(jì)算技術(shù)的一大重要價(jià)值所在。Web數(shù)據(jù)挖掘凸顯出極大的應(yīng)用價(jià)值。本文分析了云計(jì)算框架下的Web數(shù)據(jù)挖掘算法。
1 云計(jì)算的關(guān)鍵技術(shù)
與一般計(jì)算不同的是,作為一種超級計(jì)算,云計(jì)算的核心信息是數(shù)據(jù),且屬于密集型。在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理以及編程模式等多方面凸顯出個(gè)性化的特點(diǎn)。本章所介紹的有關(guān)云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)、虛擬化技術(shù)、數(shù)據(jù)管理技術(shù)以及編程模式。
1.1 大量分布式存儲(chǔ)技術(shù)
在云計(jì)算技術(shù)中,其關(guān)鍵的分布式存儲(chǔ)具有諸多優(yōu)點(diǎn):有精確性、高效率以及實(shí)用性等。采用冗余存儲(chǔ)的方式能夠保證數(shù)據(jù)存儲(chǔ)的精確性。而硬件上所存在的缺陷可通過適當(dāng)?shù)能浖硗晟疲虼藫碛辛舜罅康姆植际酱鎯?chǔ)技術(shù),經(jīng)濟(jì)性與實(shí)用性等特性比較地突出。
1.2 數(shù)據(jù)管理技術(shù)
云計(jì)算系統(tǒng)含有數(shù)項(xiàng)服務(wù)內(nèi)容,諸如分析大數(shù)據(jù)集的特點(diǎn)并及時(shí)地采取相應(yīng)的處理和分析的方式,從而凸顯出運(yùn)行的高效性優(yōu)點(diǎn)。因而,全面高效地管理大數(shù)據(jù)集是云計(jì)算數(shù)據(jù)管理技術(shù)中不可或缺的一項(xiàng)重要內(nèi)容。在數(shù)據(jù)管理下,還可以迅捷地搜索到預(yù)定的數(shù)據(jù)。
1.3 虛擬化技術(shù)
作為一類分配計(jì)算資源的途徑,虛擬化技術(shù)也是云計(jì)算中的重要技術(shù)。該技術(shù)把不同級別的應(yīng)用系統(tǒng),諸如硬件、軟件、數(shù)據(jù)、網(wǎng)絡(luò)以及存儲(chǔ)等系統(tǒng)獨(dú)立化,肢解數(shù)據(jù)中心、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)以及應(yīng)用物理設(shè)施內(nèi)部的分工狀態(tài),達(dá)到動(dòng)態(tài)構(gòu)建體系結(jié)構(gòu)的目的,完成集中管理以及共時(shí)使用的物理資源以及虛擬資源的任務(wù)。虛擬化技術(shù)強(qiáng)化了結(jié)構(gòu)體系的彈性以及靈活性,減少了開支,完善服務(wù),盡可能都規(guī)避管理風(fēng)險(xiǎn)。
1.4 并行編程模式
云計(jì)算的編程模型的確立必須要關(guān)注到后臺的保障性作用,在具體的執(zhí)行過程中要確保其合理的進(jìn)度。這樣才能夠使得云計(jì)算資源得到最大限度地使用,用戶也能夠更為便捷地使用該項(xiàng)資源。
云計(jì)算所采用的模式是Map-Reduce編程。最初的一個(gè)任務(wù)會(huì)形成“樹枝狀”的結(jié)構(gòu),其下的子任務(wù)會(huì)通過Map以及Reduce等流程來加以執(zhí)行,從而保證任務(wù)能夠及時(shí)準(zhǔn)確地完成。
2 Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘是由Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)以及信息學(xué)等數(shù)個(gè)學(xué)科構(gòu)建而成。數(shù)據(jù)挖掘技術(shù)以及Web通過一定的途徑得到了有機(jī)的統(tǒng)一整合之后,顯現(xiàn)出綜合性的特性。在對挖掘?qū)ο笳归_比較全面分析的基礎(chǔ)上,Web數(shù)據(jù)挖掘又被細(xì)化成包括內(nèi)容、結(jié)構(gòu)以及使用等方面的挖掘方面。其中,內(nèi)容挖掘的內(nèi)涵界定為:經(jīng)由人工化的組建模式,在Web環(huán)境下從相關(guān)的文件夾中提取使用者所需信息;結(jié)構(gòu)挖掘的內(nèi)涵界定為:經(jīng)由人工化方式下,針對多項(xiàng)結(jié)構(gòu)進(jìn)行挖掘,通過多種途徑方式從中提取出使用者所需信息;使用挖掘的內(nèi)涵界定為:將挖掘的對象聚焦于日志文件以及內(nèi)在所包含的數(shù)據(jù)內(nèi)容作為突破口,發(fā)掘本站點(diǎn)的瀏覽人及其用戶數(shù)量。
3 基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)
當(dāng)下的數(shù)據(jù)挖掘技術(shù)已廣泛地運(yùn)用于網(wǎng)絡(luò)安全、搜索引擎、電子商務(wù)以及信息通信等諸多方面,效果也讓人滿意。其中,下面的幾類程序應(yīng)用的范圍更為廣泛:基礎(chǔ)設(shè)施也就是服務(wù)(IaaS)型的計(jì)算密集型并行處理應(yīng)用程序、平臺也就是服務(wù)(PaaS)型的網(wǎng)絡(luò)業(yè)務(wù)以及軟件應(yīng)用即服務(wù)(SaaS)型的Web2.0應(yīng)用程序。與以前數(shù)據(jù)挖掘技術(shù)相同的是,基于云計(jì)算的數(shù)據(jù)挖掘也要做好有關(guān)數(shù)據(jù)的預(yù)處理、挖掘以及評估結(jié)果模式等多項(xiàng)工作。點(diǎn)擊流決定了大多數(shù)的網(wǎng)站數(shù)據(jù)格式,因此,基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)方式和以往的數(shù)據(jù)庫格式相異。
3.1 數(shù)據(jù)的收集和處理
該環(huán)節(jié)要采用決策樹區(qū)工具來區(qū)分用戶訪問數(shù)據(jù)以及Web機(jī)器人訪問數(shù)據(jù)。同時(shí),在該環(huán)境下,基于網(wǎng)絡(luò)的大規(guī)模數(shù)據(jù)的展開過濾、轉(zhuǎn)換與整合等工作內(nèi)容都將得到解決,且還能將對應(yīng)的數(shù)據(jù)轉(zhuǎn)換為半結(jié)構(gòu)化XML文件,然后將其保存至分布式文件體系內(nèi)。
Google 公司最近推出了Map-Reduce新型并行編程。它把并行化、容錯(cuò)、數(shù)據(jù)布局、負(fù)載均衡等多項(xiàng)功能集中于庫中,并把系統(tǒng)操作數(shù)據(jù)的流程總結(jié)成2個(gè)階段:Map 階段以及Reduce 階段。運(yùn)用Map-Reduce途徑來搜集數(shù)據(jù)比較地廣泛,但開發(fā)工具Hadoop本身并不完備,通過窗口技術(shù)可以把數(shù)據(jù)加以分離,且將滿足條件的動(dòng)態(tài)數(shù)據(jù)進(jìn)行連續(xù)性的靜態(tài)狀況呈現(xiàn)于窗口內(nèi),因此,抽樣、直方圖以及小波變換或哈希等途徑可以及時(shí)地保存數(shù)據(jù)結(jié)構(gòu)及其數(shù)據(jù)信息內(nèi)容。系統(tǒng)本身并不具備保存掃描、搜集數(shù)據(jù)的功能,卻算法也并不復(fù)雜,同時(shí),應(yīng)用程序又牽涉到利用歷史數(shù)據(jù)的功能,從而弱化了整個(gè)系統(tǒng)的功能。目前有數(shù)個(gè)研究機(jī)構(gòu)構(gòu)建相關(guān)系統(tǒng)項(xiàng)目,包括STREAM,TelegraphCQ以及Aurora等,但影響并不明顯。
3.2 數(shù)據(jù)存儲(chǔ)
基于云技術(shù)進(jìn)行數(shù)據(jù)挖掘,要關(guān)注到搜集、處理數(shù)據(jù)時(shí)的高效性,同時(shí)還要注意如果節(jié)點(diǎn)失效,還應(yīng)該注意遷移計(jì)算以及存儲(chǔ)的數(shù)據(jù)內(nèi)容。因此,還要借助于冗余存儲(chǔ)的方法來確保數(shù)據(jù)儲(chǔ)存的穩(wěn)定性與可靠性。
在云計(jì)算數(shù)據(jù)存儲(chǔ)應(yīng)用領(lǐng)域中,非開源系統(tǒng)最為著名的當(dāng)屬Google公司旗下的GFS,開源系統(tǒng)最為著名的則是Hadoop開發(fā)的HDFS,這兩大系統(tǒng)現(xiàn)已得到極為廣泛的發(fā)展與應(yīng)用。隨著技術(shù)的深化,今后在多個(gè)領(lǐng)域中的應(yīng)用也將得到進(jìn)一步提升,尤其在對數(shù)據(jù)存儲(chǔ)和計(jì)算的遷移工作中,將打破當(dāng)前效率低下的困境,使得數(shù)據(jù)處理效率得到顯著提升,并促進(jìn)其商業(yè)化應(yīng)用。
4 結(jié)束語
在云計(jì)算背景下的WEB數(shù)據(jù)挖掘已然成為當(dāng)前國內(nèi)外計(jì)算機(jī)領(lǐng)域的熱門課題,其研究成果的應(yīng)用范圍極其廣泛,具有很高的現(xiàn)實(shí)價(jià)值。
參考文獻(xiàn)
[1]王鵬.走進(jìn)云計(jì)算[M].北京:人民郵電出版社,2009(6):182.
[2]陳修寬.Web數(shù)據(jù)挖掘綜述[J].山東輕工業(yè)學(xué)院學(xué)報(bào),2009,23(3):23-8.
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A文章編號:1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵檢測采用特征檢測的方法,它們由安全專家預(yù)先定義出一系列特征模式(此處的特征模
式含義比較窄,如表達(dá)式、字節(jié)匹配或“特征字符串”,與后面提到的規(guī)則不同),用來識別入侵,同時(shí),入侵檢測系統(tǒng)需要不斷更新自己的模式庫以跟上入侵技術(shù)發(fā)展的步伐,僅僅采用這種入侵檢測方法將會(huì)帶來很多缺陷。
基于數(shù)據(jù)挖掘的入侵檢測技術(shù)可以自動(dòng)地從訓(xùn)練數(shù)據(jù)中提取出可用于入侵檢測的知識和模式經(jīng)過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)有以下幾點(diǎn)優(yōu)勢:智能性好、檢測效率高、自適應(yīng)能力強(qiáng)和誤警率低。
一、入侵檢測技術(shù)簡介
入侵檢測是對網(wǎng)絡(luò)系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。入侵檢測系統(tǒng)是從多種計(jì)算機(jī)系統(tǒng)及網(wǎng)絡(luò)中搜集信息,再從這些信息中分析入侵及誤用特征。入侵是由系統(tǒng)外部發(fā)起的攻擊。誤用是由系統(tǒng)內(nèi)部發(fā)起的攻擊。所有的IDS的本質(zhì)都是基于分析一系列離散的、按先后順序發(fā)生的事件,這些事件用于誤用模式進(jìn)行匹配,入侵檢測源都是連續(xù)的紀(jì)錄,他們反映了特定的操作,間接反映了運(yùn)轉(zhuǎn)狀態(tài)。IDS一般包括三部分:信息的搜集和預(yù)處理、入侵檢測分析引擎以及響應(yīng)和恢復(fù)系統(tǒng)[1]。
絕大多數(shù)入侵檢測系統(tǒng)的處理效率低下,不能滿足大規(guī)模和高帶寬網(wǎng)絡(luò)的安全防護(hù)要求。目前使用的主要檢測方法是將審計(jì)事件同特征庫中的特征匹配,但現(xiàn)在的特征庫組織簡單。導(dǎo)致的漏報(bào)率和誤報(bào)率較高,很難實(shí)現(xiàn)對分布式、協(xié)同式攻擊等復(fù)雜攻擊手段的準(zhǔn)確檢測;此外,預(yù)測能力嚴(yán)重受限于攻擊特征庫,缺乏對未知入侵的預(yù)測能力。
二、數(shù)據(jù)挖掘技術(shù)簡介
數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中提取或“挖掘”知識,這些數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息存儲(chǔ)中[2]。于數(shù)據(jù)挖掘是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。數(shù)據(jù)挖掘是針對特定應(yīng)用的數(shù)據(jù)分析處理過程,如何選擇輸入數(shù)據(jù)、變換數(shù)據(jù)集對應(yīng)的挖掘算法,取決于具體的數(shù)據(jù)挖掘目標(biāo),即期望從數(shù)據(jù)中發(fā)掘出什么知識。數(shù)據(jù)挖掘可粗略地理解為三步:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘,以及結(jié)果的解釋評估。
三、基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含的、以前不知道的、有潛在作用的信息。它利用統(tǒng)計(jì)與可視化技術(shù)以易于理解的形式發(fā)現(xiàn)并表現(xiàn)信息。在入侵檢測中,數(shù)據(jù)挖掘被定義為處理大量在中央位置收集得到的數(shù)據(jù),從而察看其規(guī)則模式。基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)(DMIDS)是從訓(xùn)練數(shù)據(jù)中得到規(guī)則模式,用于實(shí)時(shí)的入侵檢測系統(tǒng)中的入侵檢測。
基于數(shù)據(jù)挖掘的入侵檢測技術(shù)可以自動(dòng)地從訓(xùn)練數(shù)據(jù)中提取出可用于入侵檢測的知識和模式經(jīng)過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)有以下幾點(diǎn)優(yōu)勢:智能性好、檢測效率高、自適應(yīng)能力強(qiáng)、誤警率低[3]。
基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)原理,DMIDS總體分為兩部分:
第一部分是數(shù)據(jù)挖掘部分,主要采用數(shù)據(jù)挖掘技術(shù)來得出規(guī)則庫,為后續(xù)的檢測提供依據(jù);其中包括:訓(xùn)練數(shù)據(jù),數(shù)據(jù)挖掘模塊和規(guī)則庫,
第二部分為入侵檢測部分,實(shí)時(shí)采集數(shù)據(jù),處理數(shù)據(jù),然后和規(guī)則庫進(jìn)行比較,判斷當(dāng)前用戶的操作是否合法,并相應(yīng)的作為響應(yīng)或恢復(fù)機(jī)制。該部分主要擁有以下模塊:
數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘技術(shù)是一種決策支持過程,它主要基于AI,機(jī)器學(xué)習(xí)統(tǒng)計(jì)等技術(shù),它能高度自動(dòng)化地分析原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測出客戶的行為。
數(shù)據(jù)挖掘模塊的主要作用就是從訓(xùn)練數(shù)據(jù)中挖掘正常和異常行為規(guī)則,構(gòu)建規(guī)則庫,對于不同性質(zhì)的數(shù)據(jù)源,這里要求采用不同的數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的隱含規(guī)律。
DM的技術(shù)基礎(chǔ)是人工智能,它利用了人工智能的一些已經(jīng)成熟的算法和技術(shù),例如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法。決策樹、鄰近搜索算法、規(guī)則推理、模糊邏輯等DM系統(tǒng)問題利用的技術(shù)越多,得出的結(jié)果精確性就越高。這主要取決于問題的類型以及數(shù)據(jù)的類型和規(guī)模。
四、結(jié)論
由于入侵檢測系統(tǒng)本身應(yīng)用的特殊性,要求它具有準(zhǔn)確性、全局性、可擴(kuò)展性、可伸縮性以及環(huán)境適應(yīng)性和本身的健壯性。本文對基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)的信息提取技術(shù)作了較全面的研究和介紹,重點(diǎn)研究了啟發(fā)式的聚類數(shù)據(jù)挖掘算法,并對其中涉及到的概化分層和聚類算法和關(guān)聯(lián)算法,分類算法等進(jìn)行了介紹。
參考文獻(xiàn):
中圖分類號: TN711?34; TP393.08 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
隨著電子信息技術(shù)的普及和不斷發(fā)展,大型計(jì)算機(jī)網(wǎng)絡(luò)隨之產(chǎn)生,越來越多的網(wǎng)民能夠更為便捷地享受各種信息資源,現(xiàn)如今,網(wǎng)絡(luò)已成為人們生活中不可缺少的一部分。大型計(jì)算機(jī)網(wǎng)絡(luò)在為人們提供便利的同時(shí),也造成了一定的困擾,網(wǎng)絡(luò)入侵事件時(shí)有發(fā)生[1]。若想有效維護(hù)大型計(jì)算機(jī)網(wǎng)絡(luò)安全,需要將其中的非正常數(shù)據(jù)準(zhǔn)確、高效地挖掘出來,相關(guān)組織已開始著手進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘技術(shù)的研究工作[2]。
1 非正常數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識從具有一定干擾存在下的隨機(jī)數(shù)據(jù)集群中提煉出來[3]。數(shù)據(jù)挖掘技術(shù)是一項(xiàng)交匯科目,經(jīng)其挖掘出來的數(shù)據(jù)具有一定的輔助決策作用。將這種技術(shù)用于進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)的挖掘工作中,能夠自動(dòng)控制大量初始數(shù)據(jù),為用戶提供更多的便利[4]。
所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法的挖掘流程如圖1所示。
由圖1可知,所提方法先對大型計(jì)算機(jī)網(wǎng)絡(luò)中的初始數(shù)據(jù)集群進(jìn)行統(tǒng)一處理,處理過程包括數(shù)據(jù)洗滌和格式變換。數(shù)據(jù)洗滌的目的是將初始數(shù)據(jù)集群中的噪音、重疊參數(shù)和缺失重要特征的數(shù)據(jù)除去,再經(jīng)由格式變換,使洗滌后的數(shù)據(jù)集群特征更加明顯,提高對非正常數(shù)據(jù)的挖掘準(zhǔn)確性。
當(dāng)數(shù)據(jù)處理完畢,所提方法隨即開始進(jìn)行模式挖掘。所謂模式挖掘,是指通過對比分析方式獲取大型計(jì)算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)之間共有特征的過程,所獲取到的共有特征即為數(shù)據(jù)挖掘技術(shù)中的“知識”[5]。
將模式挖掘定義成向的映射,和均是大型計(jì)算機(jī)網(wǎng)絡(luò)中初始數(shù)據(jù)集群的一部分,并且,。在中隨機(jī)定義一個(gè)數(shù)據(jù)集群,此時(shí)可以將和在中出現(xiàn)的幾率設(shè)為向映射的知識,用表示,則有:
設(shè)置和的取值范圍可使所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常稻萃誥蚍椒具有收斂性。若無特殊規(guī)定,可將二者的取值范圍均設(shè)置在0~100%之間。如果用戶需要對某一特定的非正常數(shù)據(jù)進(jìn)行精準(zhǔn)挖掘,也可隨時(shí)變更取值范圍。
取值范圍設(shè)定成功后,本文將式(1)和式(2)中的重疊部分輸出,用來表示大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)的挖掘結(jié)果。
2 非正常數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)總體設(shè)計(jì)
現(xiàn)使用所提大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng),以實(shí)現(xiàn)對大型計(jì)算機(jī)網(wǎng)絡(luò)安全的有效維護(hù)。
所設(shè)計(jì)的系統(tǒng)由數(shù)據(jù)挖掘器、分析模塊和數(shù)據(jù)庫組成,如圖2所示。數(shù)據(jù)挖掘器被安放在大型計(jì)算機(jī)網(wǎng)絡(luò)的特定節(jié)點(diǎn)上,用來實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)工作的非正常情況,并進(jìn)行數(shù)據(jù)處理。分析模塊負(fù)責(zé)對數(shù)據(jù)挖掘器處理過的數(shù)據(jù)進(jìn)行分析,進(jìn)而挖掘出大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)。數(shù)據(jù)庫為數(shù)據(jù)挖掘器和分析模塊提供數(shù)據(jù)的處理和挖掘方案。
2.2 系統(tǒng)具體設(shè)計(jì)
在所設(shè)計(jì)的大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)挖掘器可看作是大型計(jì)算機(jī)網(wǎng)絡(luò)初始數(shù)據(jù)集群的接收端,用于獲取數(shù)據(jù)挖掘技術(shù)中的“知識”,其工作流程如圖3所示。
由圖3可知,在數(shù)據(jù)挖掘器開始工作前,數(shù)據(jù)庫會(huì)事先根據(jù)大型計(jì)算機(jī)網(wǎng)絡(luò)初始數(shù)據(jù)集群的特征制定數(shù)據(jù)挖掘器的具體挖掘方案,并對其實(shí)施驅(qū)動(dòng)。數(shù)據(jù)挖掘器根據(jù)挖掘方案對數(shù)據(jù)進(jìn)行洗滌和格式轉(zhuǎn)換等處理。處理結(jié)果將被存儲(chǔ)。
值得一提的是,數(shù)據(jù)挖掘器具有自檢功能,如果處理結(jié)果不符合用戶所設(shè)定的置信度,那么該結(jié)果將會(huì)被保留到數(shù)據(jù)挖掘器的緩存器中。一旦緩存器中有新鮮數(shù)據(jù)進(jìn)入,數(shù)據(jù)庫便會(huì)重新驅(qū)動(dòng)數(shù)據(jù)挖掘器,直至處理結(jié)果成功通過自檢。隨后,所設(shè)計(jì)大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的分析模塊將對數(shù)據(jù)挖掘器的處理結(jié)果進(jìn)行分析。為了增強(qiáng)系統(tǒng)的可擴(kuò)展性,應(yīng)充分利用系統(tǒng)計(jì)算節(jié)點(diǎn)的性能,并縮減節(jié)點(diǎn)失效率,為此,給分析模塊設(shè)計(jì)出一種“二次激活”方式[6],以延長系統(tǒng)計(jì)算節(jié)點(diǎn)的使用壽命,如圖4所示。二次激活是指當(dāng)系統(tǒng)計(jì)算節(jié)點(diǎn)出現(xiàn)疲勞狀態(tài)時(shí),分析模塊將自動(dòng)放出替補(bǔ)節(jié)點(diǎn),使疲勞節(jié)點(diǎn)擁有足夠的時(shí)間去休整。休整后的計(jì)算節(jié)點(diǎn)將替換下替補(bǔ)節(jié)點(diǎn),繼續(xù)進(jìn)行數(shù)據(jù)挖掘工作。
在分析模塊中,每個(gè)計(jì)算節(jié)點(diǎn)均有多個(gè)替補(bǔ)節(jié)點(diǎn),如果節(jié)點(diǎn)即將失效并且未能尋找到下一個(gè)合適的計(jì)算節(jié)點(diǎn),將采取替補(bǔ)節(jié)點(diǎn)與性能相似節(jié)點(diǎn)同時(shí)工作的分析方式,以保證所設(shè)計(jì)大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的可擴(kuò)展性,并使挖掘結(jié)果更加準(zhǔn)確。
3 實(shí)驗(yàn)驗(yàn)證
3.1 方法收斂性驗(yàn)證
在大型計(jì)算機(jī)網(wǎng)絡(luò)中,只有具有較好收斂性的非正常數(shù)據(jù)挖掘方法才能有效保證挖掘結(jié)果的準(zhǔn)確性。為了驗(yàn)證本文所提方法收斂性的優(yōu)劣,需要進(jìn)行一次實(shí)驗(yàn)。本次實(shí)驗(yàn)在某大型計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)室中進(jìn)行。用于進(jìn)行數(shù)據(jù)挖掘的主機(jī)配置為:3 GB內(nèi)存、四核i7處理器、500 GB硬盤。實(shí)驗(yàn)中,于主機(jī)寫入本文方法,并向大型計(jì)算機(jī)網(wǎng)絡(luò)中加入兩種類型的大數(shù)據(jù)集群,兩集群中的數(shù)據(jù)節(jié)點(diǎn)[7?8]分別為4萬個(gè)和80萬個(gè)。當(dāng)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)不出現(xiàn)波動(dòng)時(shí),表示本文方法已進(jìn)入收斂狀態(tài),此時(shí)主機(jī)便不會(huì)再向下一節(jié)點(diǎn)傳遞數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5可明確看出,本文方法具有收斂性,并且大數(shù)據(jù)集群中的數(shù)據(jù)節(jié)點(diǎn)越多,方法的收斂時(shí)間就越短。在兩種大數(shù)據(jù)集群中,本文方法的收斂時(shí)間分別為1.2 s和4.3 s。據(jù)統(tǒng)計(jì),其他方法的收斂時(shí)間大多在10.8 s左右,這顯示出本文方法具有較好的收斂性。
3.2 系統(tǒng)可擴(kuò)展性驗(yàn)證
為了驗(yàn)證經(jīng)本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)是否能夠合理應(yīng)對大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)的更新,需要對本文系統(tǒng)的可擴(kuò)展性進(jìn)行驗(yàn)證。實(shí)驗(yàn)選出的對比系統(tǒng)有基于Hadoop的數(shù)據(jù)挖掘系統(tǒng)和基于并行圖算法的數(shù)據(jù)挖掘系統(tǒng)。
在第3.1節(jié)實(shí)驗(yàn)的基礎(chǔ)上,只保留大數(shù)據(jù)集群2,并分別以橫向和縱向方式向集群的數(shù)據(jù)節(jié)點(diǎn)中隨機(jī)寫入30 000個(gè)非正常數(shù)據(jù)。使用三種系統(tǒng)對大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)進(jìn)行挖掘,所得實(shí)驗(yàn)結(jié)果如圖6~圖8所示。
由圖6~圖8可知,三個(gè)系統(tǒng)在縱向?qū)懭胂碌目蓴U(kuò)展性均低于橫向?qū)懭搿Ec其他兩個(gè)系統(tǒng)相比,本文系統(tǒng)參與進(jìn)行非正常數(shù)據(jù)挖掘的節(jié)點(diǎn)數(shù)量更多,并且節(jié)點(diǎn)失效率最少,證明使用本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)具有較強(qiáng)的可擴(kuò)展性。
4 結(jié) 論
本文提出一種新型的大型計(jì)算機(jī)網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法,并使用該方法設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng)。數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識從具有一定干擾存在下的隨機(jī)數(shù)據(jù)集群中挖掘出來。將數(shù)據(jù)挖掘技術(shù)用于進(jìn)行大型計(jì)算機(jī)網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘工作中,能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行自動(dòng)控制,為用戶提供更多便利。實(shí)驗(yàn)結(jié)果表明,本文方法具有較好的收斂性,使用本文方法設(shè)計(jì)出的數(shù)據(jù)挖掘系統(tǒng)也具有較強(qiáng)的可擴(kuò)展性,可將大型計(jì)算機(jī)網(wǎng)絡(luò)中的非正常數(shù)據(jù)準(zhǔn)確、高效地挖掘出來。
參考文獻(xiàn)
[1] 吳嘉瑞,唐仕歡,郭位先,等.基于稻萃誥虻拿老中醫(yī)經(jīng)驗(yàn)傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[2] 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目模型研究[J].圖書館論壇,2014,34(2):78?83.
[3] 丁騁騁,邱瑾.性別與信用:非法集資主角的微觀個(gè)體特征―基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的分析[J].財(cái)貿(mào)經(jīng)濟(jì),2016,37(3):78?94.
[4] 楊丹丹.搜索引擎及網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù)研究[J].數(shù)字化用戶,2014,20(11):126.
[5] 王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):456?474.
物聯(lián)網(wǎng)其實(shí)就是指物和物之間相互聯(lián)系的互聯(lián)網(wǎng),隨著社會(huì)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步,促進(jìn)了互聯(lián)網(wǎng)的快速發(fā)展,也讓社會(huì)經(jīng)濟(jì)得到了很好的發(fā)展。云計(jì)算主要就是指對相關(guān)的信息進(jìn)行虛擬化的計(jì)算和存儲(chǔ),對各種信息在互聯(lián)網(wǎng)上進(jìn)行規(guī)范和整理,這樣就能夠有效的形成很多個(gè)計(jì)算中心和數(shù)據(jù)。
一、基于云計(jì)算的物聯(lián)網(wǎng)
物聯(lián)網(wǎng)其實(shí)就是一個(gè)比較大而且分布也非常廣泛的物和物的互聯(lián)網(wǎng),主要作用就是對生活中的各種事物進(jìn)行監(jiān)控,隨著物聯(lián)網(wǎng)的不斷發(fā)展,現(xiàn)在也接入了很多的應(yīng)用終端,其中就包括了湖泊、建筑物以及交通設(shè)施等。一般來說,云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘就是指通過對云計(jì)算來解決物聯(lián)網(wǎng)數(shù)據(jù)挖掘存在的問題。首先建立一個(gè)能夠全面捕捉物聯(lián)網(wǎng)數(shù)據(jù)的分布式時(shí)空數(shù)據(jù)庫,然后在云計(jì)算的平臺上,全面的對物聯(lián)網(wǎng)系統(tǒng)的數(shù)據(jù)進(jìn)行挖掘。云計(jì)算中的數(shù)據(jù)挖掘主要就是通過對相關(guān)的數(shù)據(jù)進(jìn)行分析研究,從而知道通過這種方式進(jìn)行數(shù)據(jù)挖掘,物聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)挖掘的相關(guān)工作將能夠被完美的執(zhí)行與完成。
二、基于云計(jì)算的數(shù)據(jù)挖掘平臺
在工作中,能夠提供高可用性和更多的動(dòng)態(tài)資源池的計(jì)算機(jī)平臺,將能夠很好的實(shí)現(xiàn)云計(jì)算的數(shù)據(jù)挖掘。在對那些可用性比較高的應(yīng)用程序進(jìn)行開發(fā)的時(shí)候就可以選擇使用基于云計(jì)算的數(shù)據(jù)挖掘平臺,在利用云計(jì)算對數(shù)據(jù)進(jìn)行挖掘的時(shí)候也可以采用基于云計(jì)算的數(shù)據(jù)挖掘平臺。一般情況下,可以通過軟件分層的理念,對物聯(lián)網(wǎng)的基于云計(jì)算的數(shù)據(jù)挖掘平臺系統(tǒng)進(jìn)行一定的分層處理。云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)從下而上可以分為算法層、任務(wù)層和用戶層三層。各層系統(tǒng)的相關(guān)工作,都需要相互配合才能夠完成。軟件中的下層可以向它的上層提供相關(guān)的服務(wù)內(nèi)容,而上層在對下層的服務(wù)進(jìn)行調(diào)用的時(shí)候主要就是通過上層層間的開發(fā)接口來完成的,這樣就能夠有效的保證基于云計(jì)算的數(shù)據(jù)挖掘平臺系統(tǒng)當(dāng)中的各個(gè)層之間的功能能夠比較的獨(dú)立。采用這樣的一種設(shè)計(jì)模式主要就是為了在對系統(tǒng)進(jìn)行二次開發(fā)的時(shí)候能夠比較的方便。
在構(gòu)建基于云計(jì)算數(shù)據(jù)挖掘模式的時(shí)候主要就是通過積極的應(yīng)用云計(jì)算的服務(wù)模式,那么在這樣的一種情況下建立起來的基于云計(jì)算數(shù)據(jù)挖掘平臺它們當(dāng)中的每一個(gè)部分在實(shí)際提供服務(wù)的過程當(dāng)中都能夠比較獨(dú)立的去完成。操作人員在使用基于云計(jì)算數(shù)據(jù)挖掘平臺的時(shí)候主要就是經(jīng)過互聯(lián)網(wǎng)來連接數(shù)據(jù)挖掘平臺,在監(jiān)控使用賬戶的管理系統(tǒng)時(shí),主要就是在SaaS、PaaS以及DaaS這三個(gè)系統(tǒng)當(dāng)中來完成的。在數(shù)據(jù)挖掘平臺當(dāng)中的任何環(huán)節(jié)都是在云計(jì)算服務(wù)的模式中。在數(shù)據(jù)挖掘平臺當(dāng)中的賬戶管理系統(tǒng)主要就是指管理使用者的實(shí)際服務(wù)情況的一個(gè)系統(tǒng),它對使用者的賬戶信息有一個(gè)比較全面的記錄,它主要就是把用戶在平臺當(dāng)中使用設(shè)備的情況以及服務(wù)的情況比較詳細(xì)的記錄下來形成一個(gè)賬目,這樣就能夠?yàn)槭褂谜咛峁┮粋€(gè)比較全面的數(shù)據(jù)使用的資源。在數(shù)據(jù)挖掘平臺當(dāng)中的數(shù)據(jù)管理子系統(tǒng)主要是指管理用戶的數(shù)據(jù)資源。這個(gè)數(shù)據(jù)管理子系統(tǒng)主要就是在云計(jì)算中的DaaS服務(wù)模式下進(jìn)行工作的,用戶在購買數(shù)據(jù)等相關(guān)活動(dòng)的時(shí)候就是通過這個(gè)系統(tǒng)來完成的。數(shù)據(jù)管理子系統(tǒng)能夠?qū)κ褂谜叩碾[私起到很好的保護(hù)作用,而且使用者在處理了數(shù)據(jù)之后還能夠進(jìn)行再次的出售。在數(shù)據(jù)挖掘平臺當(dāng)中的子挖掘系統(tǒng)主要的作用就是發(fā)現(xiàn)用戶數(shù)據(jù)當(dāng)中的知識,讓數(shù)據(jù)挖掘目標(biāo)能夠有效的實(shí)現(xiàn),在在數(shù)據(jù)挖掘平臺中子挖掘系統(tǒng)是最主要的部分,它的專業(yè)性比較的強(qiáng)。
三、基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式
物聯(lián)網(wǎng)的整個(gè)環(huán)境決定了物聯(lián)網(wǎng)數(shù)據(jù)挖掘的模式,因?yàn)槲锫?lián)網(wǎng)當(dāng)中的數(shù)據(jù)類型比較復(fù)雜,而且物和物之間的關(guān)聯(lián)以及相關(guān)的特性也不一樣,那么這些情況可能就會(huì)使得在構(gòu)建物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的時(shí)候就會(huì)和傳統(tǒng)的數(shù)據(jù)挖掘模式不相同。
在使用物聯(lián)網(wǎng)的過程中,常常會(huì)出現(xiàn)一些問題,如在發(fā)送與接收數(shù)據(jù)的時(shí)候可能出現(xiàn)部分或者是全部信息出錯(cuò)甚至是丟失。出現(xiàn)這些現(xiàn)象的原因,可能是物聯(lián)網(wǎng)系統(tǒng)的原因,也可能是其他什么原因。那么基于云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式就應(yīng)該要考慮到這種情況,在構(gòu)建物聯(lián)網(wǎng)數(shù)據(jù)挖掘應(yīng)用模型的時(shí)候,必須考慮對物與物之間的關(guān)系的表達(dá),這樣才能有效的解決數(shù)據(jù)的錯(cuò)誤與丟失。如果物與物存在間接的關(guān)系的時(shí)候,可以采用SVD模型或者是拉普拉斯變換模型進(jìn)行推導(dǎo)。如果物與物之間存在非常重要的直接關(guān)系時(shí),物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式應(yīng)該要具有表達(dá)出物和物之間直接關(guān)系的能力,這樣在對物和物的間接關(guān)系進(jìn)行推導(dǎo)的時(shí)候才會(huì)比較的方便。物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型當(dāng)中的一種就是基于超圖的物聯(lián)網(wǎng)數(shù)據(jù)模型,在超圖當(dāng)中的每一個(gè)變都能夠和很多的點(diǎn)進(jìn)行聯(lián)接,對于物聯(lián)網(wǎng)當(dāng)中數(shù)據(jù)之間比較復(fù)雜的關(guān)系可以通過超邊來進(jìn)行標(biāo)示。物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型當(dāng)中的另外一種就是基于馬爾科夫鏈的數(shù)據(jù)挖掘模型。在基于馬爾科夫鏈的數(shù)據(jù)挖掘模型中,對于進(jìn)行預(yù)測未來可能會(huì)出現(xiàn)的現(xiàn)象的概率時(shí),不需要根據(jù)以前的信息或知識,只需要根據(jù)現(xiàn)在的信息或知識就能夠完成。在物聯(lián)網(wǎng)的數(shù)據(jù)實(shí)際應(yīng)用當(dāng)中,這一類問題最常見的。
穩(wěn)定的可外推參數(shù)模型是物聯(lián)網(wǎng)數(shù)據(jù)挖掘模型中的另外一種數(shù)據(jù)挖掘模型。在物聯(lián)網(wǎng)數(shù)據(jù)的實(shí)際應(yīng)用當(dāng)中,在進(jìn)行物理建模的時(shí)候應(yīng)該要先要了解到物和物之間的關(guān)系,然后建立起數(shù)據(jù)模型來描述數(shù)量上面的相互關(guān)系,但是因?yàn)槲锫?lián)網(wǎng)數(shù)據(jù)的類型比較復(fù)雜,有可能會(huì)出現(xiàn)錯(cuò)誤或者丟失的情況,所以采用傳統(tǒng)的方法進(jìn)行物理建模會(huì)有很多的困難。
參考文獻(xiàn)
[1]劉茂華,史文崇. 物聯(lián)網(wǎng)數(shù)據(jù)處理之淺論[J]. 計(jì)算機(jī)與信息技術(shù),2011,06:52-53.
[2]丁靜,楊善林,羅賀,丁帥. 云計(jì)算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J]. 計(jì)算機(jī)科學(xué),2012,S1:217-219+237.