時間:2023-04-01 09:51:21
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據挖掘技術論文范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
二、Web數據挖掘技術的工作流程
Web數據挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據第一步得到的目標樣本的詞頻分布,從現有的統計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權值;第三步,從網絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態的Web頁面,最后再獲取這些被訪問站點的網絡數據庫中的動態信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數據挖掘技術在高校數字圖書館中的應用
高校數字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數字資源;圖書借閱、歸還等服務;圖書信息、管理制度;導航到圖書光盤、視頻資源等數據庫系統。師生時常登錄到網站中查找其需要的信息,根據師生所學專業、研究方向不同,關注目標也不同。通常這類師生會到常用的圖書館網站上,查找自己所需要的特定領域的資源;瀏覽一下有哪些內容發生變化,是否有新知識增加,而且所有改變常常是用戶所關注的內容;另外,當目標網頁所在的位置有所改變或這個網站的組織結構、層次關系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內容。本課題采用Web挖掘技術與搜索技術相結合。首先允許用戶對感興趣的內容進行定制,構造數據挖掘的先驗知識,然后通過構造瀏覽器插件,捕獲用戶在瀏覽器上的行為數據,采用Web數據挖掘的方法,深入分析用戶的瀏覽行為數據,獲得用戶的信息資料集,最終為用戶提供不同的個性化服務頁面,并提供用戶對站內信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現高校圖書館網站資源真正意義上的個性化服務。
1、為開發網絡信息資源提供了工具
數字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠對信息進行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經過加工、分析綜合等處理的高附加值的信息產品和知識產品的工具。目前許多高校數字圖書館的查詢手段還只局限于一些基本的數據操作,對數據只能進行初步的加工,不具有從這些數據中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網絡信息資源的一種浪費。而通過Web數據挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過Web數據挖掘技術科研對數字圖書關注中的信息進行更加有效地整合。
2、為以用戶為中心的服務提供幫助
通過瀏覽器訪問數字圖書館后,可被記載下來的數據有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數據,結合聚集算法,可以發現信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數字圖書館的信息資源體系建設的更加合理。對數字圖書館系統的在線調查、留言簿、薦書條等的數據進行收集整理,并使之轉化為標準的結構化數據庫,然后在通過數據挖掘,皆可以發現用戶所感興趣的模式,同時還可以預先發現用戶群體興趣的變遷,調整館藏方向,提前做好信息資源的采集計劃。通過Web數據挖掘,可以對用戶的信息需求和行為規律進行總結,從而為優化網絡站點的結構提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調整站點結構,并在適當處加上廣告或薦書條。
3、Web數據挖掘技術在圖書館采訪工作中的應用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質量產生影響。通常情況圖書館的工作人員會根據圖書館的性質、服務對象及其任務來決定采訪的內容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現象。這些現象的產生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數據挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數據進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構進行優化,真正的為高校里的師生提供所需要的文獻和資料。
4、使用Web數據挖掘技術提供個性化服務
金融部門每天的業務都會產生大量數據,利用目前的數據庫系統可以有效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了數據爆炸但知識貧乏”的現象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用數據挖掘技術不但可以從這海量的數據中發現隱藏在其后的規律,而且可以很好地降低金融機構存在的風險。學習和應用數扼挖掘技術對我國的金融機構有重要意義。
一、數據挖掘概述
1.數據挖掘的定義對于數據挖掘,一種比較公認的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規則(Rules)、規律(Regularities)、模式(Patterns)等形式。這個定義把數據挖掘的對象定義為數據庫。
隨著數據挖掘技術的不斷發展,其應用領域也不斷拓廣。數據挖掘的對象已不再僅是數據庫,也可以是文件系統,或組織在一起的數據集合,還可以是數據倉庫。與此同時,數據挖掘也有了越來越多不同的定義,但這些定義盡管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業角度給出數據挖掘的定義。
從技術角度看,數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學科,涉及數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算和數據可視化等多學科領域且本身還在不斷發展。目前有許多富有挑戰的領域如文本數據挖掘、Web信息挖掘、空間數據挖掘等。
從商業角度看,數據挖掘是一種深層次的商業信息分析技術。它按照企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性并進一步將其模型化,從而自動地提取出用以輔助商業決策的相關商業模式。
2.數據挖掘方法
數據挖掘技術是數據庫技術、統計技術和人工智能技術發展的產物。從使用的技術角度,主要的數據挖掘方法包括:
2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對數據集的分類產生規則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發展了其它的決策樹方法。
2.2規則歸納方法:通過統計方法歸納,提取有價值的if-then規則。規則歸納技術在數據挖掘中被廣泛使用,其中以關聯規則挖掘的研究開展得較為積極和深入。
2.3神經網絡方法:從結構上模擬生物神經網絡,以模型和學習規則為基礎,建立3種神經網絡模型:前饋式網絡、反饋式網絡和自組織網絡。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特征挖掘等多種數據挖掘任務。
2.4遺傳算法:模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應用遺傳算法,需要將數據挖掘任務表達為一種搜索問題,從而發揮遺傳算法的優化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數學工具。它特別適合于數據簡化,數據相關性的發現,發現數據意義,發現數據的相似或差別,發現數據模式和數據的近似分類等,近年來已被成功地應用在數據挖掘和知識發現研究領域中。
2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。
2.7可視化技術:將信息模式、數據的關聯或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術交互地分析數據關系。可視化數據分析技術拓寬了傳統的圖表功能,使用戶對數據的剖析更清楚。
二、數據挖掘在金融行業中的應用數據挖掘已經被廣泛應用于銀行和商業中,有以下的典型應用:
1.對目標市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協同過濾(collaborativefiltering)方法有助于識別客戶組,以及推動目標市場。
2..客戶價值分析。
在客戶價值分析之前一般先使用客戶分類,在實施分類之后根據“二八原則”,找出重點客戶,即對給銀行創造了80%價值的20%客戶實施最優質的服務。重點客戶的發現通常采用一系列數據處理、轉換過程、AI人工智能等數據挖掘技術來實現。通過分析客戶對金融產品的應用頻率、持續性等指標來判別客戶的忠誠度;通過對交易數據的詳細分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。
3.客戶行為分析。
找到重點客戶之后,可對其進行客戶行為分析,發現客戶的行為偏好,為客戶貼身定制特色服務。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來發現企業現有客戶的行為規律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發現客戶群體間的變化規律,并可通過數據倉庫的數據清潔與集中過程,將客戶對市場的反饋自動輸人到數據倉庫中。通過對客戶的理解和客戶行為規律的發現,企業可以制定相應的市場策略。
4.為多維數據分析和數據挖掘設計和構造數據倉庫。例如,人們可能希望按月、按地區、按部門、以及按其他因素查看負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統計信息。數據倉庫、數據立方體、多特征和發現驅動數據立方體,特征和比較分析,以及孤立點分析等,都會在金融數據分析和挖掘中發揮重要作用。
5.貨款償還預測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產生不同程度的影響。數據挖掘的方法,如特征選擇和屬性相關性計算,有助于識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據此調整貨款發放政策,以便將貨款發放給那些以前曾被拒絕,但根據關鍵因素分析,其基本信息顯示是相對低風險的申請。
6.業務關聯分析。通過關聯分析可找出數據庫中隱藏的關聯網,銀行存儲了大量的客戶交易信息,可對客戶的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客戶的潛在需求;通過挖掘對公客戶信息,銀行可以作為廠商和消費者之間的中介,與廠商聯手,在掌握消費者需求的基礎上,發展中間業務,更好地為客戶服務。
7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數據庫的信息集成起來,然后采用多種數據分析工具找出異常模式,如在某段時間內,通過某一組人發生大量現金流量等,再運用數據可視化工具、分類工具、聯接工具、孤立點分析工具、序列模式分析工具等,發現可疑線索,做出進一步的處理。
數據挖掘技術可以用來發現數據庫中對象演變特征或對象變化趨勢,這些信息對于決策或規劃是有用的,金融
行業數據的挖掘有助于根據顧客的流量安排工作人員。可以挖掘股票交易數據,發現可能幫助你制定投資策略的趨勢數據。挖掘給企業帶來的潛在的投資回報幾乎是無止境的。當然,數據挖掘中得到的模式必須要在現實生活中進行驗證。
參考文獻:
丁秋林,力士奇.客戶關系管理.第1版.北京:清華人學出版社,2002
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數字信息化社會的飛速發展,計算機技術和數據庫管理系統被廣泛應用于科學探索、商業、金融業、電子商務、企業生產等各種行業,已逐漸發展成為一種智能管理過程。數據挖掘作為一種新興的數據分析技術,它的研究成果取得了令人矚目的成就[1]。利用數據庫技術,通過對教務管理的大量數據進行多層次、多維度的加工處理,從而實現人性化管理,為科學決策提供支持。
畢業論文在教學體系中占有十分重要的位置,是本科生培養計劃中衡量教學質量的重要指標。提高畢業論文教學質量是一項系統工程,為研究在當前的教學條件下如何提高畢業論文教學質量,本文采用數據挖掘技術對影響畢業論文成績管理的多方面因素進行了深入分析和挖掘,以期發現對學校畢業論文教學管理有用的知識,將這些知識應用于本科學生畢業論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發展提供更廣闊的空間,發揮重要的作用。
1 數據挖掘簡介
數據挖掘(Data Mining),又稱數據庫中的知識發現(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數據,從大量的、有噪聲的、模糊的、隨機的海量數據中尋找其規律的技術,它是數據庫研究中的一個很有應用價值的新領域。
1.1 數據挖掘的定義
H包含如下功能:
綜上所述,數據挖掘具有三大特點:其一是處理大型數據;其二應用數據挖掘的目的是發現未知的、有意義的模式或規律;其三是一個對大量數據處理的過程,有特定的步驟[3]。
1.2 數據挖掘的主要方法
數據挖掘是一個多學科交叉領域,它由人工智能、機器學習的方法起步,并與統計分析方法、模糊數學和可視化技術相融合,以數據庫為研究對象,圍繞面對應用,為決策者提供服務。
數據挖掘的方法主要可分為六大類:統計分析方法、歸納學習方法、仿生物技術、可視化技術、聚類方法和模糊數學方法。歸納學習法是目前重點研究的方向,本文根據給定的訓練樣本數據集,采用歸納學習法中的決策樹技術構造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎的歸納推算法,著眼于從一組無序的,無規則的事例中推斷出類似條件下會得到什么值這類規則的方法,它是一種逼近離散值函數的方法,也可以看作一個布爾函數[5]。決策樹歸納方法是目前許多數據挖掘商用系統的基礎,可以應用于分析數據,同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數據進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結構,是一種知識的表現形式。為了對未知樣本進行分類,生成具體的分類規則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節點為根節點,是整個決策樹的開始,然后遞歸的進行數據分區,每次切分對應一個問題,也對應著一個節點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數據,防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節點中的所有數據都屬于同一類別,或者沒有屬性可以再用于數據進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據測試屬性的取值[6]。C4.5算法是在ID3算法基礎上發展起來的,它繼承了ID3算法的全部優點,并增加了新的功能改進了ID3算法中的不足,可以進行連續值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規則信息的優劣,選出信息增益率最大的屬性作為結點,自頂向下生成決策樹。C4.5算法構造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設S為一個包含s個數據樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設類別[Ci]中的樣本個數為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數據。如果屬性A被選作測試屬性,設[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據A劃分計算的熵為:
然后利用屬性A對當前分支結點進行相應樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創建根節點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結點樹root;
4)If Attributes為空Then;
5)返回單結點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結點的分類錯誤,進行剪枝,并返回根結點Root。
3 畢業論文成績管理系統的設計和實現
利用數據挖掘技術對學生的成績數據進行提煉,所產生的結果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內在聯系。本文采用決策樹技術挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘對象,明確挖掘目標是數據挖掘所有工作中重要的一步。本文中應用于挖掘的數據信息是畢業生的畢業論文成績,旨在通過對大量成績數據進行各層次的挖掘,全面了解具體影響學生畢業論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關知識:數據是挖掘知識最原始的資料,根據確定的數據分析對象,抽象出數據分析中所需要的特征信息模型。領域問題的數據收集完成之后,與目標信息相關的屬性也隨之確定。這些數據有些是可以直接獲得的,有些則需要對學生進行調查才能的得到。
3)數據預處理:此過程中是對已收集的大量數據進行整合與檢查。因為存放在數據庫中的數據一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數據庫中數據進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數據轉換:對預處理后的數據建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術進行分類建模來解決相應的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據系統最終要實現的功能和任務來確定挖掘的分類模型。選擇合適的數據挖掘技術及算法,并采用恰當的程序設計語言來實現該算法,對凈化和轉換過得數據訓練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數據挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規則呈現給管理者,應用于實踐。
7)知識應用:將分析得到的規則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業設計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業論文質量。
4 結論
最終發現影響學生畢業論文成績主要的因素不是指導教師的職稱,學生的基礎及感興趣程度,而是指導教師的學歷高低。根據具體分類規則的結論,學校教學管理工作應加重對教師的素質及能力培養,合理的分配每個教師的畢業論文指導工作,不僅能夠有效的完成畢業課題指導工作,更有助于學生整體論文質量的提高。
在高校教學數字化的時代趨勢下,利用數據挖掘技術來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質量和學生的綜合素質,是高校保持良好的可持續發展的有力工具。
參考文獻:
[1] 劉玉文.數據挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統中的應用[J].計算機應用研究,2005(2):150-154.
云計算是并行計算和分布計算以及網格計算的發展,是一種在海量數據大規模的集合中能動態處理各種服務器數據資源的一類計算平臺,在電子商務、商業金融、科研開發等領域能得到廣泛的應用。它具有大規模、虛擬化、高效率、通用性、廉價等特點,能針對不同的用戶的不同需求,動態透明地提供其所需的虛擬化計算和資源儲存,并能及時動態回收當前用戶暫不利用的數據資源以提供給其他用戶,而其廉價、通用的特點,使得一般用戶實現大規模的數據操作成為可能。目前來說,云計算的平臺已得到良好的發展,日益成熟,基于云計算的應用已經可以相當方便的部署和操作其數據資源。
1.2數據挖掘
數據挖掘技術是現代知識發現領域的一個重要技術,它是指一個從隨機的大量而不完整的模糊的實際數據中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術有特征化、聚類、關聯和預測分析等等,涉及到的高級技術領域有統計學、機器學習、模式識別、人工智能等方面。
2基于云計算的數據挖掘平臺構架
網絡云的發展給數據挖掘提出了新的問題和時代的挑戰,同時,也為數據挖掘提供了新的計算平臺和發展機遇。基于云計算的數據挖掘系統平臺的發現,解決了傳統的數據挖掘技術出現的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業計算模式,是網格計算與并行計算及分布式計算在一定程度上的商業實現,其動態、可伸縮的計算基于云計算的數據挖掘平臺架構及其關鍵技術探討文/張瑤劉輝云計算是一種在互聯網時代中應運而生的新興的網絡技術,具有高效率、高容量、動態處理的特點,在社會的商業領域和科研領域表現出了其相當高的應用價值。將云計算應用于數據挖掘平臺的構架之中后,將能在很大程度上為現代社會中越來越海量的數據挖掘提供一個高效率的技術平臺。本文將結合云計算和數據挖掘的基本概念和現代意義,對數據挖掘的平臺構架和相應的關鍵技術做出簡要的分析探討。摘要能力使得進行高效的海量數據挖掘的目標不再遙遠。同時,云計算SaaS功能日益被理解和標準化,使得基于云計算SaaS化的數據挖掘有了理論和技術的指導,并具有了企業化與大眾化的發展趨勢。
2.1數據挖掘平臺構架
建立在關系型數據庫之上的傳統的數據挖掘技術構架在現時代數據急劇膨脹和分析需求漸增的發展下已經難以應付社會的數據處理問題。而云計算的分布式存儲與計算形式則接受了當代的數據挖掘難題,促成了適應時代的云計算數據挖掘平臺構架的形成。其包含了面向組件的設計理念和分層設計的思想方法。其構架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數據挖掘能力層和上層的數據挖掘云服務層。
2.2基于云計算的數據挖掘平臺構架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數據挖掘平臺的基礎處理平臺,其主要具有的功能是對分布式文件存儲與數據庫提供資源存儲,以及實行對數據的有關處理和計算功能。數據挖掘能力層:該平臺結構層主要是提供挖掘的基礎能力,是數據挖掘的核心支撐平臺,并對數據挖掘云服務層提供能力支撐。該平臺層包含了算法數據并行處理、調度引起和服務管理的框架,該平臺層可以提供系統內部的數據挖掘處理和推薦算法庫,亦支持第三方的數據挖掘算法工具的進入。數據挖掘云服務層:數據挖掘云服務層的主要功能是對外提供數據挖掘操作的云服務,同時也能提供基于結構化查詢的語言語句訪問,提供相關的解析引擎,以便于自動調用云服務。對外數據挖掘云服務能力封裝的接口形式多樣,包含了基于簡單對象訪問協議下的Webservice、XML、HTTP以及本地應用程序的編程接口等多種形式。另外,在必要的時候,云服務層的各個業務系統可以進行數據挖掘云服務的調用和組裝。
3基于云計算的數據挖掘平臺構架的關鍵技術探討
基于云計算的數據挖掘平臺構架的形成,離不開現代先進的科技技術,其中幾項關鍵的技術應用將在這里進行簡要的闡述:
3.1云計算技術
3.1.1分布式儲存技術
通過采用分布式存儲的方式來存儲數據,是云計算技術保證數據處理高可靠性和經濟性的重要保證。用可靠的軟件來彌補硬件的不足,是分布式存儲技術提供廉價而又海量的數據挖掘支持的重要途徑。
3.1.2虛擬化技術
在云計算的環境下,數據挖掘能實現對大量的可用的虛擬化技術的應用、整合,發展出一套全面虛擬化的運行戰略。云計算和虛擬化的共同組合,使數據挖掘實現了跨系統下的資源調度,將海量的來源數據進行IT資源匯合,動態地實現對用戶的虛擬化資源的供給,從而以高效率、海量動態的特點完成服務任務。
3.1.3并行云計算技術
并行云計算技術是一種對于高效執行數據挖掘計算任務極其重要的技術,并且它對云計算的某些技術細節做出了封裝,例如任務并行、任務調度、任務容錯和系統容錯以及數據分布等。該功能代替了用戶對這些細節的考慮,使得研發效率得到了提高。
3.2數據匯集調度中心
數據匯集調度中心的功能主要是完成對不同類型的數據進行匯集。它實現了對接入該云計算數據挖掘平臺的業務數據收集匯合,能夠解決與不同數據的相關規約問題,并能支持多樣的源數據格式。
3.3服務調度與管理技術
對于基于云計算的數據挖掘平臺,為了使不同業務系統能夠使用本計算平臺,必須要提供相應的服務調度與管理功能。服務調度解決云服務下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務。服務管理功能要實現統一的服務注冊與服務暴露功能,并且支持接入第三方的數據挖掘,以更好地擴展平臺的服務能力。
(2)計算機網絡病毒傳播形式的多樣性。計算機網絡和網絡病毒相互之間存在著很緊密的聯系,網絡電子郵件、網絡系統漏洞以及不良網頁都是網絡病毒進行傳播的重要途徑,進而對計算機網絡系統造成蓄意破壞。計算機網絡系統的傳播形式有很多種,網絡病毒在網絡系統漏洞中的傳播就是常見的一種病毒傳播方式,計算機網絡病毒程序通過對Internet遠程主機系統的搜索和掃描,利用系統漏洞到達控制對方計算機的控制。同時也有一種病毒通過對文件夾的搜索掃描,進行病毒復制,以到達入侵網絡系統的目的。
(3)計算機網絡病毒的針對性。在計算機網絡技術發展初期,計算機網絡病毒主要目標就是干擾網絡技術人員的程序編寫,隨著計算機技術的快速發展,計算機網絡病毒的開發技術和功能作用也發生了很多變化,如今,計算機網絡病毒的設計和開發已經開始商業化,針對性地對計算機網絡系統實施破壞,如通過盜用網銀賬號和密碼等方式以達到非法獲取利益的目的。
2數據挖掘技術簡析
數據挖掘技術是通過對所處一定范圍之內的所有數據進行數據收集、數據分類以及數據歸類,進而來判斷是否存在某種潛在的關系和數據規律,主要環節有3個,準備數據;尋找數據存在的規律;表現數據規律。數據挖掘模式設置好之后,技術系統中的挖掘引擎就會以數據庫中的要求為依據,對準備好的數據進行數據分析和數據歸類,找出各個數據之間存在的關系和相應的數據規律,以便成為之后數據分析的有利依據,數據挖掘技術是比較全面的挖掘技術和數據應用技術,工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準備環節和規劃工作,數據挖掘技術的重點工作是對數據的預處理階段,對數據的預處理階段是數據挖掘技術的基礎,是后期進行數據分析的必要條件。
3以數據挖掘技術為基礎的計算機網絡病毒防御分析
3.1數據挖掘技術的構成分析
數據挖掘技術在計算機網絡病毒防御中的應用過程比較復雜,步驟繁多,為了便于日常操作應用,掌握每個環節的基本特征,可以對預處理模塊、決策模塊、數據收集模塊、數據挖掘模塊以及規則庫模塊進行分模塊分析研究。
(1)數據預處理模塊分析。簡化數據挖掘技術中數據挖掘和數據分析之間的處理操作可以通過數據預處理模塊來實現,利用數據預處理模塊可以整體上提高數據挖掘效果,提高數據辨識度和準確度。在完成數據收集后需要把數據導入到預處理模塊,實現數據的分析歸類和數據變換,通過這樣額方式把數據轉換成可以被系統識別和處理的數據內容。以目標IP地址、源IP地址、端口信息等這些據數據包當中所包括的信息內容為依據,實施數據集合、數據歸納、數據處理等流程。
(2)決策模塊分析。在數據挖掘技術中的決策功能模塊中,通過對數據的挖掘從而對數據庫進行構建,然后對數據進行匹配,同時數據庫還要和規則庫密切聯系起來。如果數據庫有與規則庫存在高度聯系的信息出現,證明在決策模塊里有病毒特征存在,很可能會感染到計算機病毒。如果是結果數據庫的數據信息和規則庫的數據不能相互匹配,那也就是說該數據包中存在有帶有新型特征病的毒帶,也就是出現了新型的規則類,這樣的情況下就需要把該帶有新型特征的病毒導入到系統的規則庫當中,規則庫的一種較新型的規則類別也就形成了。
(3)數據收集模塊分析。實現數據挖掘的基本要求是提供充分的數據信息,只有通過數據收集才能實現數據收集模塊的功能。數據收集模塊通過對計算機網絡中數據包的抓取和收集來實現數據信息,數據信息被收集后就會具有一定的數據結構和比較重要的功能信息。
(4)數據挖掘模塊分析。數據挖掘技術的一個最關鍵部分就是數據挖掘模塊。數據挖掘模塊中的事件庫和數據挖掘算法是數據挖掘模塊的關鍵部分。數據挖掘對相關數據的收集構成了事件庫,通過對事件庫中數據的分類和數據整理,進而可以獲取較為準確的數據結構。
(5)規則庫模塊分析。規則庫模塊是數據挖掘技術的一個重要組成部分,可以幫助優化數據挖掘信息庫,給系統提供需要的病毒分析數據。如果有網絡病毒在計算機系統中出現,規則庫模塊就可以進行數據分析和數據識別,以及實現數據挖掘。在數據挖掘的過程中,網絡病毒屬性會被挖掘過程中獲取的規則集調整和改變,并且把這個記錄繼續使用在數據挖掘中,這項記錄可以幫助計算機系統對一些潛在的網絡病毒進行分析,進而起到防御病毒的作用。
3.2以數據挖掘技術為基礎的網絡病毒防御系統
(1)數據挖掘技術中的關聯規則分析。數據挖掘技術的關聯規則就是指在同一類別的數據中有可以被發現的知識存在,通過對兩個或者超過兩個的變量進行取值,如果發現數據具有一定規律的話說明這些數據和數據之間存在著某種關聯性。因果關聯、及時序關聯以及簡單關聯是存在數據挖掘技術中的幾種主要關聯關系。要找到數據庫中的關聯網,就需要進行關聯分析,然后結合數據和數據之間的關聯性進行數據挖掘,進而得到數據和數據存在的關聯規則。
2基于大數據的計算機數據挖掘技術概述
基于大數據的計算機數據挖掘技術是當代新開發的一種數據處理技術,它可以從大數據中挑選出人們需要的數據。計算機數據挖掘是一個循環往復的過程,如果沒有取得預期的效果,計算機數據挖掘信息處理系統就會返回上一層重新工作,直到完成目標任務為止,這種對目標的細化過程可以滿足檔案數據檢索的需要。
3基于大數據的計算機挖掘技術在檔案管理系統中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應用時如果監管不力就會導致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術應用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應用計算機數據挖掘技術,可以極大改變傳統檔案管理模式低效率的弊端。使用計算機數據挖掘技術,大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統的鑒定方式是由管理人員根據自己的經驗進行主觀鑒定,有時會存在有價值的檔案丟失的現象。應用計算機數據挖掘技術,檔案管理人員就可以利用計算機系統分析檔案使用和保存的情況,促進了檔案鑒定工作的發展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調出來,有時調出來的資料不是借閱者所需要的,還得重新調閱,類似的過程就嚴重浪費了雙方的時間。應用計算機數據挖掘技術可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務性。加密檔案信息會嚴重縮小它的適用范圍,受當代信息化的影響,很多檔案信息自身會出現一些問題,并且只能為一小部分人服務。將計算機數據挖掘技術應用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發現未來使用檔案信息的人群,在此基礎上提高檔案信息的服務性。
4基于大數據的計算機數據挖掘技術在檔案管理中的實際應用
4.1在檔案分類管理中的應用。檔案管理的基礎工作就是將檔案進行分類。傳統的分類方法既費時又費力,工作效率極低。計算機數據挖掘技術中有一種決策樹算法,它可以在最短的時間內按照一定的規則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數據挖掘技術在檔案分類工作中的具體流程是:從大量不同種類的數據集中選擇一些數據組合成訓練集,然后應用到沒有進行分類的檔案管理中,這樣可以幫助管理者根據借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數據分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數據的利用價值就能充分發揮出來。4.2在檔案收集管理中的應用。計算機數據挖掘技術可以根據數據庫內部的數據信息描述來構建一個相應的數據模型,然后比較計算機數據樣本和數據模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數據挖掘技術需要全面分析檔案數據信息庫中的數據,建立一個對已知數據有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應用在檔案收集管理中。
5結語
綜上所述,在科技技術不斷進步的時代背景下,在檔案信息管理中應用基于大數據的計算機數據挖掘技術已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發展。除了在檔案信息存儲和利用上確保基本的信息查詢服務外,還需要應用計算機數據挖掘技術整合檔案信息,建立眾多檔案管理服務數據之間的關聯,這樣才能為檔案信息管理提供更好的服務。
作者:陳皓穎 單位:昆明理工大學津橋學院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數據挖掘技術在檔案信息管理系統中的運用[J].內蒙古師范大學學報:哲學社會科學版,2012(4):44-46.
[2]曾雪峰.計算機數據挖掘技術開發及其在檔案信息管理中的運用研究[J].科技創新與應用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數據處理的新技術———數據挖掘[J].科技創新與生產力,2010(6).
2、國內外文獻綜述
挑選中國知網數據庫,以“知識管理”為主題關鍵詞進行精確檢索,共找到 31,324 篇文獻,其中 2004 年至2014 年間共發表文獻 24,895 篇,近十年是知識管理領域研究的高峰期。以“高校知識管理”或“大學知識管理”為主題關鍵字進行精確檢索,得到 248 篇相關文獻,可發現針對高校的知識管理研究較少。針對結果進行二次檢索,增加主題關鍵詞“數據挖掘”得到相關文獻 3 篇,表明對高校知識管理與數據挖掘技術結合的研究較少,所得文獻主要觀點包括:1.數據挖掘技術可用于高校知識發現;2.數據挖掘對知識管理體系建設有推動作用;3. 高校知識管理成果可通過數據挖掘技術進行評價。對國外學者的研究情況進行分析,挑選 Web ofScience 數據庫。以“knowledge management”為主題關鍵字進行檢索,共得到 62,474 篇文獻,以“knowledgemanagement of college”為主題關鍵字檢索,得到 647篇文獻,再結合關鍵詞“Data mining”,共得到文獻 5 篇。由此可見,國外相關研究比國內多出近一倍,并且研究的程度深、范圍廣。但關于高校知識管理與具體信息技術結合應用的文獻仍較少,且發表日期多為 2010 年后。
3、知識管理與數據挖掘結合的軟件要求
知識管理與數據挖掘技術的結合運用對高校相關設備提出了一定的要求,包括對服務器、客戶端計算機的硬件要求以及對知識管理平臺、數據挖掘工具的軟件要求,本文中將重點敘述軟件要求。
知識管理平臺要求
知識管理平臺是高校知識管理的實施基礎,它為高校人員提供了可視化的操作界面,其應實現的基本功能包括:1.數據接口;2.工具接口;3.數據挖掘(內置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內交流;8. 管理評價。一個知識管理平臺應分為:表現層、服務層、處理層、存儲層。表現層是面向用戶的可視化界面,用于人機交互,接受用戶的任務;服務層對任務進行調度、處理,直接執行無需數據挖掘的任務并反饋至表現層,調度需要數據挖掘的任務至處理層;處理層負責數據預處理、數據挖掘、知識發現等功能;存儲層包括校方數據庫及知識倉庫。具體層次如圖 1 所示。根據高校組織的特征,知識管理平臺應在實現基本功能的前提下具有以下特點:1. 接口質量高。高校集行政、科研、社會服務等任務于一體,需要處理海量數據,應提供接口以使用專業處理工具處理復雜任務,保證數據處理的效率與深度;2. 內置數據挖掘功能。高校所含數據種類多、范圍廣,對結構簡單、數據量小的數據可直接使用內置數據挖掘功能處理,節省時間;3. 交流功能強。高校為知識密集型組織,其學科、職能間存在交叉,優秀的交流功能保證了知識的共享及創新。4. 完善的激勵體系。激勵體系不僅體現在平臺的評價功能中,更體現在管理人員的管理中,通過提高人員的積極性促進知識管理進程的實施。
數據挖掘工具要求
高校所含知識從相關對象分類可分為兩類:1. 管理知識,指高校各部門(教學、后勤部門等)用于高校管理的知識;2. 科研知識,指各學科的專業知識。前者主要與高校行政、管理人員相關,后者則與高校學者、教授關系更大。針對不同的用戶,知識管理與數據挖掘的結合運用對數據挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數據多來自高校各類信息系統的記錄,如:校園卡消費信息、機房上機信息,具有量大、范圍廣、結構一致等特點。用于該類數據挖掘的挖掘工具可內置于知識管理平臺中,便于數據存取,提高挖掘速度。常用功能為預測、分類、評價三項,主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結合使用者特點,該類挖掘工具應提供獨立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結果應具有較強可視性,提供圖、表界面,以便用戶理解。高校科研知識主要來自于學者、教授的科學研究,包括:實驗數據、主觀推測描述等,具有專業性強、層次深、結構復雜等特點。針對挖掘要求較低的數據,可使用知識管理平臺中的內置挖掘工具,而針對挖掘要求高的數據,可選用專業數據挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進行對接。
4、知識管理與數據挖掘結合的具體策略
知識管理的基本職能可概括為外化、內化、中介、認知四大部分,其中前三項職能對信息技術的依賴較強,可用數據挖掘技術進行輔助。數據挖掘的過程分為條件匹配、選擇、激活、應用四部分,即對數據進行預處理后,選擇相關數據記錄,根據用戶要求選擇相應技術進行數據挖掘,得出并解釋數據挖掘結果,最終將這些記錄應用于實踐中。兩者的具體結合策略如下:
輔助知識管理體系建設
知識管理本質是一個周期性管理過程,在這一過程中實現組織知識共享、創新等,最終提升組織綜合實力,其中知識管理體系建設是實現知識管理的宏觀條件。知識管理體系建設是一個系統、全面的工程,包括組織結構調整、確定激勵制度、知識管理文化培養、成效評估等任務。數據挖掘技術,可以為知識管理體系建設提供依據,保證相關決策的科學性。數據挖掘對知識管理體系建設的幫助主要體現在以知識主管為主的知識管理部門對高校的管理、決策當中。知識管理部門收集并預處理外校、本校知識管理體系建設的相關數據,完成輔助決策的數據倉庫的建設。管理人員可根據要求,從數據倉庫中選擇數據,利用對應模型完成挖掘,通過挖掘結果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關的數據,如至少包含“部門”、“喜好”、“性別”字段,利用關聯算法對其進行計算,即可得出各部門工作人員的喜好,以此為據制定相應激勵制度。
知識外化
知識外化是指組織從組織外部獲取與本組織相關的知識、發現歸集組織內部存在的知識并進行存儲以備用的過程。完成知識外化的關鍵即知識發現,其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學界中較為認可、使用較普遍的方法即數據知識發現(KnowledgeDiscovery in Database, KDD),指從數據集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數據挖掘與知識管理結合應用的最重要部分。同時,數據挖掘技術只給定挖掘目標,不給出假設、前提,因此在使用數據挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發現不能僅僅依靠信息技術,更需要人員對挖掘結果進行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘對象需進行預處理,并轉化成邏輯數據。利用數據挖掘技術進行知識發現有多種可用方法:利用分類和聚類分析可提供知識索引和發現特殊情況下的離群值和孤立點,知識索引可細化知識所屬領域和確定挖掘范圍,離群值和孤立點可為挖掘人員提供歸納的線索,若其存在一定規律則可得出模型、規則;使用模糊技術、統計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發現中的主要特征,結合已有知識庫對不確定、不精準的知識進行細化;使用關聯規則發現大量數據集各字段中潛在的聯系。以關聯規則的使用為例,選擇 Apriori 算法,挖掘目的是發現學生學習情況中的潛在知識。首先從數據倉庫中選出與學生課程成績相關的數據集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進行預處理,將字段中的取值轉化為邏輯值,代表不同語義,如:性別字段,男設值 1,女設值 2。操作人員設置最小支持度、置信度,通過數據挖掘工具進行挖掘,得出關聯規則并進行解釋。若結果顯示 XX 院系、男生、A 類別 => 成績優秀構成管理規則,則表示XX院系的男生對于A類別科目較感興趣,學習成績優秀,可在歸納后存入知識倉庫。
知識內化、中介
知識內化是發現特定人員知識需求,并為其提供相應知識的過程,內化的關鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進行匹配,為兩者提供交流的途徑。數據挖掘在知識內化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數據挖掘技術發現知識后,通過知識管理平臺進行分類存儲、添加索引,作為備選。對高校人員數據庫中數據進行挖掘,可利用聚類分析、預測模型等,得出特定人員的特長領域、興趣愛好,從而根據先前設置的知識索引為其提供信息。若定期對人員特征數據進行挖掘,并根據結果為高校人員推送相關知識、信息,即可實現個性化推送,其推送內容由人員特征數據決定。高校組織中擁有大量教授、學者,其所擁有的知識是一筆巨大財富,加強相關領域間人員的交流、溝通,可以促進知識共享、創新,提升組織綜合實力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學者特征進行挖掘后,對他們的研究方向進行聚類分析,由挖掘結果,為相關人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學者提供交流的途徑,進而促進知識的共享。
數據挖掘技術推動圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實施。目前,已有不少圖書館專家將數據挖掘技術引入圖書館管理,提出了針對圖書館的數據挖掘應用理論。圖書館數據挖掘對象主要包括三個:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結果的綜合,可為圖書館資源建設、讀者服務、個性化服務提供幫助。根據挖掘結果分析,可做到客觀、合理引入資源,做到讓數據說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經費發揮最大效用;提升讀者服務質量,在讀者進行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數據挖掘為用戶提供主動的信息推送;提供個性化服務,以挖掘結果為依據,針對不同用戶提供不同服務,比如不同的圖書館系統管理界面。
充分發揮管理職能
知識管理是一個系統工程,包含平臺開發、體系構建、文化培養等,其在實踐中設計大量的數據操作。數據挖掘技術可在知識管理的實踐過程中為各項信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數據挖掘技術相結合可有效促進知識管理具體操作中的工作效率。兩者的結合對高校人員管理具有積極作用,數據挖掘與知識管理在實踐中相互影響,提升操作人員素養。數據挖掘需要專業人員進行操作,操作人員的綜合素養將決定挖掘成果的質量。知識管理可有效促進數據挖掘人員對知識的認知,使操作人員對不同要求所對應的挖掘技術、模型的選擇更為準確,提升挖掘成果的質量,使知識更加清晰、獨立、可接受。
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2012)12-0218-02
一、背景
“數據倉庫與數據挖掘”是國內外高等院校一門重要的課程,是國家基礎教育較為重視的一門學科,受到不同專業學生的喜愛。其教學目標是提高學生的數據分析水平和能力,除了教授學生數據分析的常見方法之外,還將引導學生如何對實際的問題進行建模,如何對模型進行簡化和求解。利用實例教學等方法,可以很好地將數據挖掘中的抽象概念、模型、公式等闡述清楚,讓學生易于理解和接受。近年來,數據挖掘技術在醫學領域中的應用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復、藥物開發、科學研究等方面都獲得了可喜的成果。運用各種數據挖掘技術了解各種疾病之間的相互關系、各種疾病的發展規律,總結各種治療方案的治療效果,以及對疾病的診斷、治療和醫學研究都是非常有價值的。因此,我們學院也把這門課程作為計算機專業及信息管理與信息系統專業的必修課。把計算機與醫學結合,使得學生的培養方案全面包括了計算機與醫學的知識點。由于該課程原本屬于研究生階段開設的專業課程,教材也大多側重于介紹體系結構、算法原理、效率分析與改進等理論知識,其中所涉及的內容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關理論在實際應用方面的說明也比較少,不利于安排實驗教學。因此要實現“數據倉庫與數據挖掘”課程的教學目標,必須在理論教學和實驗教學環節綜合考慮學時多少、教學條件以及學生的接受情況等因素,靈活地加以選擇安排。
二、存在的問題
主要包括以下幾方面:①課堂上以教師講、學生聽的教學形式為主,學生學習處于被動狀態,他們的創造性因此被嚴重扼殺;②教師對專業課程體系和學生的知識體系不夠重視,對課程體系的講解不到位,造成學生在學習時課程之間聯系不上,知識銜接不好,對知識的運用和融會貫通比較差;③實驗與理論脫節。“數據倉庫與數據挖掘”課程理論講授的算法與實驗軟件中的算法有很大差距,使得學生難以理解。比如對于理論上講授的關聯規則算法,實驗中使用SQL SERVER 2005中的商務智能工具做實驗,學生發現有很多參數與理論上講授的有很大不同;④醫學院校的學生對純粹計算機理論知識接受困難。由于該門課程是交叉學科,涉及計算機、數學、統計學等知識,如果學生的其他學科學得不好,就會對該課程的學習產生障礙;⑤教師講授沒有把理論課程結合到實際應用中。有很多學生不知道學習這門課的意義,老師沒有很好引導學生,激活他們的學習熱情。
三、目標驅動的教學框架
對于以上問題,本文提出了一個新的教學體系,設計了一套基于目標驅動的教學框架,把教師與學生緊密聯系起來,從教學大綱的設置,教材的選擇,理論教學,實驗教學,課程設計及畢業論文,全面引導學生從初步了解到深入學習的過程。對于我們學校的實際情況,有兩個專業的學生要學習這門課程。一個是計算機科學與技術專業,一個是信息管理與信息系統專業。對于兩個不同的專業,我們設置不同的教學大綱。比如對于計算機專業的學生,數據倉庫和數據挖掘教學總時數為72學時,其中理論為54學時,實驗為36學時。
1.理論教學。對于信息管理與信息系統專業的學生,我們可以設置如下的教學計劃,可分為三個主要部分。我們教材選擇韓家煒的《數據挖掘概念與技術》,第一部分:第一至四章為數據挖掘的基礎知識,包括數據倉庫和數據挖掘的基本概念和相關知識介紹;第二部分:第五、六章介紹了數據挖掘的算法和工具;第三部分:第七章是數據挖掘的聚類分析的實際應用。本課程是信息管理與信息系統專業本科生專業必修課。通過該課程的學習,要求學生掌握數據倉庫和數據挖掘的基本概念,了解基本方法和應用背景。掌握數據倉庫的設計和建立,掌握數據挖掘的主要步驟和實現方法,數據挖掘的常用算法,實現數據挖掘的具體操作。理論學時的安排,第一章緒論(6學時);第二章數據倉庫(4學時);第三章數據預處理(8學時);第四章數據挖掘發現知識的類型(8學時);第五章數據挖掘中常用算法(12學時);第六章數據挖掘的工具及其應用(8學時);第七章數據挖掘應用實例(8學時)。
2.實驗教學。本課程配合理論教學,通過系統的實踐教學鍛煉,著重培養學生的獨立分析問題和解決問題的能力,熟練掌握數據倉庫的設計和建立以及各類數據挖掘方法,使學生具有一定的數據分析和挖掘能力,能在認識基礎上,提出有效的數據挖掘方法,依據實際例子,寫出解決方案。學生應在實驗課前明確實驗的目的和要求,然后針對相關問題寫出解決方案。實驗時對實際方案的運行結果應能進行分析并提出改進方法,最終寫出實驗報告。通過實驗教學應達到以下基本要求:①理解數據倉庫的工作機理及其構建過程;②掌握典型的數據倉庫系統及其開發工具的使用;③理解數據挖掘技術的工作原理與流程;④掌握典型數據挖掘工具的使用;⑤掌握幾種典型的數據挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實際問題。實驗成績包括:實驗教學過程成績、實驗報告成績,各占50%。實驗過程表現成績包括:學習態度是否認真、實驗操作是否正確規范、基本技能掌握程度是否具有創新意識等方面。實驗報告成績包括:實驗報告格式是否正確、原理是否論述清楚、實驗結果分析討論是否符合邏輯,報告字跡是否清楚等方面。
3.課程設計。理論課和實驗課接近結束時,我們把最后三周作為本門課程的課程設計。課程設計的目的是讓學生進一步深刻理解所學知識。由于本門課程很多算法不容易理解,如何讓學生把所學知識結合到醫學應用中是課程設計的關鍵。比如我們對信息管理與信息系統專業的學生課程設計,要求學生每人選擇一個老師給定的題目,課程設計有詳細的要求,比如題目“數據挖掘在醫學診斷中的應用”要求學生能把本門課程相關的算法結合使用,最后給出詳細的分析。通過課程設計,我們發現,學生對本門課程更有興趣。
4.畢業論文。我們把課程一般開設在大三的下學期,也就是說學生學完這門課程后,就做了該門課的課程設計,使得學生對數據挖掘相關知識有了比較深刻的認識。這樣,我們可以引導學生畢業論文的選擇。畢業論文畢竟是反映學生大學四年所學知識,也對他們將來就業起到提前培訓的作用。把理論結合實踐,老師對學生的引導也十分重要。
我們根據醫學院校的特征,提出了一套目標驅動的教學理念,從學生認識這門課程到學生理論課的學習,實驗課的學習,課程設計及畢業論文的完成,在老師的指導下,使用我們的考核體系,可提高學生對所學課程的興趣。