時間:2022-09-19 12:49:44
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據挖掘技術探討論文范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
[2] (美)MICHAEL MILLER云計算(史美林?譯)[M].北京:機械工業出版社,2009年4月.
[3] 王鵬.云計算的關鍵技術與應用實例[M].北京:人民郵電出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
入分析,提出了具體算法。
網絡數據挖掘又稱Web數據挖掘,是數據挖掘技術在網絡信息處理中的應用,從與網絡相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網站的數據中發掘關系和規則。其挖掘對象是大量、異質、分布的Web文檔,可以對數據庫、Web服務器上的日志、讀者信息等數據展開挖掘工作。同時,由于Web在邏輯上是一個由文檔節點和超鏈接構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于Web結構的,或者是關于用戶行為模式的1。通過網絡數據挖掘對每個用戶的訪問行為、頻度、和內容等進行分析,能提取出每個用戶的特征,給每個用戶個性化的界面,提供個性化的Web信息服務。
本文以中國知網(CNKI)總庫為統計源,以主題“We數據挖掘”、“網絡數據挖掘”搜索到國內近六年的論文數量,從中可以看出相關領域的研究從2007年開始呈逐年上升趨勢,2009年達到峰值后,逐年有所下降。具體數據如表2所示:
根據對這些文章內容的分析,研究網絡數據挖掘算法及其實現的占大多數,國內關于網絡數據挖掘在圖書館的應用研究不多,大多是作為電子商務中數據挖掘研究的一部分。網絡數據挖掘在圖書館中的應用主要表現在以下幾個方面:
(1)圖書推薦系統。這類系統主要通過日志挖掘讀者的借閱習慣,推測讀者的閱讀需求,從而為不同興趣的讀者提供相應的推薦內容。這種個性化推薦系統能夠較好地把握讀者需求,通過聚類和關聯規則為讀者推薦借閱過的相似圖書或可能需要的其他文獻。但它的缺點在于,推薦的相似圖書,讀者已經借閱過,再借閱的幾率不大。因此,這個研究的重點和難點在使用的挖掘算法上2。
(2)網絡學習平臺。現代圖書館越來越重視讀者的學習需求,從而推出各種學習服務3。這類應用主要是針對網絡學習中的學習資源的挖掘。因為在圖書館提供的虛擬學習平臺中,資源是龐大的,而讀者的精力有限,同時每個人的興趣不同,需要對不同的讀者組織不同的教育資源。而網絡數據挖掘在其中所起的重要作用就是對讀者的借閱和瀏覽行為進行挖掘分析,根據分析結果為讀者匹配學習資源。
(3)文獻檢索系統。網絡數據挖掘技術也常見于文獻檢索系統的應用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網絡數據挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網絡數據挖掘在圖書館中應用的主要目的就是為讀者找到所需資源,滿足讀者的個性化需求。下面我們就針對網絡數據挖掘在圖書館個性化推薦中的應用進行探討。
1、 圖書館個性化推薦常用分析方法
1.1聚類算法
通常說來,許多圖書館的讀者建模方法是基于統計的,即對所有讀者的統計數據(比如基于平均值)進行分析。這樣的后果是對讀者的個性化行為視而不見,影響了讀者專業性和個性化需求,忽略了隱含的讀者信息的價值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對這類讀者建模,在建模質量相同或接近的條件下,聚類建模所需的數據量將遠遠低于對單個讀者建模的數據量,因為分類中的每個讀者(知識背景和生活閱歷貢獻具有很大的相似度)都貢獻了其數據。常用聚類算法如表3。
1.2 社會網絡分析
社會網絡分析已經有相當長的一段歷史了,近60年來,相關研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創了將社會網絡研究應用在Web范疇的先河。這兩種算法都來源于社會網絡分析,都利用了網頁的超鏈接結構并依據網頁的“威望”或者“權威”級別來對網頁進行分級排序。這在搜索引擎中得到了廣泛的運用。圖書館也同樣存在著這樣的社會網絡關系,這種關系主要通過讀者瀏覽和獲取文獻行為體現。這種關系和活動可以用網絡或圖來表示,其中,每一個頂點(結點)用來表示一個讀者,而一條邊的連接用來表示兩個讀者之間的關系。利用網絡圖我們可以研究該網絡的結構特征,以及每個讀者威望性、中心性等屬性。同時從中我們也可以找到各種類型的子圖,即社區。
2、 基于網絡數據挖掘的圖書館個性化推薦分析
2.1基于K-means聚類推薦分析
圖書館讀者聚類可以通過兩種方式進行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實現查詢信息和借閱信息的高效率、高準確率的自動分類,然后根據讀者興趣模型匹配,就可以完成其推薦過程。自動分類信息可以采用K-均值聚類算法實現,并根據圖書館相關信息結構的特點,對算法本身加以改進。具體流程如圖1。
2.2 基于PageRank社會網絡分析
在圖書館借閱場景下,讀者瀏覽和借閱行為反應了讀者的需求。PageRank算法關鍵在于測度每個對象的隨機訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應了讀者對于圖書的認可程度。在此,我們可以把訪問概率轉化為讀者推薦書目單的緊密程度,因此,問題轉化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權威度排名,進而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個讀者推薦書目單關系程度,使用其文本相似度 來度量,進而產生新的PageRank2算法。對于每個讀者推薦書目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實際應用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調整為:
其中a為衰減系數,設定為0和1之間,其本質是為了消除孤立讀者,給每個讀者增加一條指向所有其它讀者的鏈接,并且給予每個鏈接一個由參數a控制的轉移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、 結語
本文主要探討了網絡數據挖掘在圖書館中的應用問題,并對于社會網絡分析的應用進行了較為深入的分析,提出了具體算法。網絡數據挖掘廣泛應用于互聯網。隨著數字圖書館的不斷興起,其在圖書館領域的應用將更加廣泛4。但是,圖書館相對封閉的信息環境制約著網絡數據挖掘的應用。相信隨著Web2.0和讀者個性化需求不斷得到重視5,數字圖書館技術的不斷發展,網絡數據挖掘將會發揮更加重要的作用。
參考文獻
[1] 馬費成,王曉光.信息資源管理研究及國際前沿[J].情報學研究進展.武漢大學出版社,2007.
[2] 劉曉忠.數據挖掘技術在圖書館建設中的應用[J].硅谷,2012(6).
【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009―8097(2009)06―0104―03
數據挖掘技術可以從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術把獲取的信息和知識提供給決策支持系統。這種技術已廣泛地用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等[1,2,3] ,隨著信息技術的發展,數據挖掘在網絡教學中的應用研究也逐漸深入[4,5,6] 。網絡教學成為一種新型教學手段,理論上學習者可以在任何時間、任何地點以任何形式、從任何章節開始學習任何內容,實現個性化學習。但在網絡教學實施過程中,教學內容和組織活動卻不能隨著學生的學習狀況發生動態變化,導致了教與學脫離的現象,教學效果達不到預期效果。因此可以利用該技術對收集到的與學生學習相關的歷史數據進行分析,從而可以為教師深入理解學生的實際學習情況,制定相關的教學目標供 其學習提供有力的決策支持,是提升教學效果的有力手段。
一 擬解決的關鍵問題
本文探討 在現有的網絡教學平臺基礎上,以在教學信息數據庫中采集到的學生學習記錄為樣本,應用數據挖掘技術,挖掘有用的規則,探討學生的學習習慣, 學習興趣和學習成績間的關系,從而及時了解學生對每一章節知識的掌握程度并根據每個學生的情況制定下一章節的教學目標,為其提供不同的教學內容,從而使教學更適合學生
個性的發展,實現網絡分層教學,最終實現教學過程的動態調節。
二 數據預處理
由于人為的原因、設備的故障及數據傳輸中的錯誤,導致現實世界的數據含有臟的、不完整的和不一致的數據。數據預處理技術可以檢測數據異常,調整數據并歸約待分析的數據,從而改進數據的質量,提高其后挖掘過程的精度和性能。
本文數據源于《數據結構》網絡教學課程,48節理論課,24節實驗,4.5個學分。學生111人,其中06級信息與計算科學專業班合計64人,07級地理信息系統專業一個班計47人。針對1節提出的問題,本文通過對網絡教學平臺教學信息數據庫中的學生信息表、學生學習進度表、測試信息表等進行數據挖掘,說明其在網絡教學中的應用。各表結構如表1至表3所示(本文中學生信息經過掩飾處理)。
其中內容是指客觀性考題,如單項選擇題等。主觀性考題,如算法設計之類考題可以以教師組織的BBS討論為依據評分,在此以有效討論次數(有實質性的討論內容)計算。
首先去除數據表中的冗余信息,如學生信息表中除學號信息以外的各分項信息,每一章節學習進度表中的節、日期信息,每章測試信息表中的題號、內容、答案等信息;對某些匯總數據項進行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個組并概化為不及格,合格和優秀三個層次;學習時間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個組,單位:小時;學習次數匯總后分為(0,3),(3,6),(6,)等 三個組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個層次[7];同時下一章節的教學目標制定為三個層次,內容呈現分別表示為A類、B類、C類三個層次的內容,提供給學生學習。然后檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理。經過數據預處理工作,得到一張描述學生學習過程信息的數據表格,表4是我們整理出的某一章節的學生學習情況數據。
三 數據挖掘過程
主要是利用關聯分析、序列模式分析、分類分析和聚類分析等分析方法對數據庫中的潛在規則進行挖掘。針對1節中提出的問題,根據國內外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關聯規則挖掘算法進行關聯規則挖掘和用于 分類模型判定樹歸納算法進行數據挖掘。
1 關聯規則挖掘
關聯規則挖掘可以發現大量數據中項集之間有趣的關聯或相關聯系,通過這種挖掘技術對表4進行挖掘,可以發現學生的學習時間、學習次數及網絡課堂討論和學習效果之間的關系,使教師了解學生的網上學習行為和目標掌握程度,幫助教師調整教學計劃,如設計有意義的討論課題提升學生的學習興趣,從而間接增加學生的學習時間和學習次數。
首先給出關聯規則的形式化描述:設 是m個項的集合,D是數據庫事務的集合,每個事務有一個標識符。關聯規則就是形如 的蘊含式,其中 ,并且 。規則的支持度記為 ,是事務D中包含的 事務數與所有事務數之比,置信度記為 ,是指包含的 事務數與包含的 事務數之比。
給定事務數據庫D挖掘關聯規則問題就是產生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關聯規則。
表5是使用FP-Tree算法對學生學習情況表進行挖掘得到的一系列關聯規則(因篇幅限制,本文僅列出部分內容)。
從上表可以看出,學習時間在6小時以上并且成績為優秀的同學占全班的20.51%,學習時間6小時以上的同學中有34.78%的學生成績為優秀。學習時間在2小時以下的并且成績不及格的同學占全班的7.69%,學習時間2小時以下的同學中有75%的學生成績不及格。學習時間在6小時以上,學習次數多于6次且成績為優秀的學生占全班的7.69%,這部分同學中有75%也積極參與BBS討論,而學習時間少于2小時,次數少于3次,基本不參與討論的同學,不及格率為100%,這部分同學占全班的7.69%。比例明顯偏高,需要調整教學的內容和設計討論問題以提高學生的興趣。從表中還可以看出,學習次數多于6次的學生中有92.31%的學生其學習時間一般也會超過6小時,這部分學生占全班的61.54%,通過關聯規則的挖掘,可以掌握學生網上學習行為,從而為教師的教學策略調整提供依據,可以更好地進行學生的培養。
2 分類模型挖掘
著名的心理學家、教育學家布盧姆提出的掌握學習理論認為:“只要在提供恰當的材料和進行教學的同時給每個學生提供適度的幫助和充分的時間,幾乎所有的學生都能完成學習任務或達到規定的學習目標”。
通過構造判定樹可以建立學生分層教學模型,并依據判定樹為學生提供不同層次的教學內容而 實現對學生的網絡分層教學。分類模型判定樹歸納算法主要表述為計算每個屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創建樹的結點,并以該屬性標記,對屬性的每個值創建分支,并據此劃分樣本。由于樣本數據中存在噪聲或孤立點,通過樹剪枝去除不合理的分支,以提高在未知數據上分類的準確性。據此算法構造的判定樹如圖1所示。
判定樹的第一層條件為每一章節的單元測試成績,分別表示為優秀、合格和不及格。不及格的同學下一章節進入C類教學目標學習,優秀的同學則進入A類教學目標學習,合格的同學則根據學習的次數決定下一章節的教學目標。學習次數為0~2次的同學進入B類教學目標學習,3~5次的同學則需要根據學習時間判定,根據判定樹可知,所有同學進入B類教學目標學習,這和我們日常的判斷邏輯相符,因為學習次數較多,學習時間較長,但成績卻是合格的同學很有可能是因為方法不當等原因導致接受知識能力較差,進入A類目標學習顯然是不合理的。當學習次數大于6次時,可以根據學生參與BBS討論的次數決定學生的下一章節的學習目標,討論次數0~2次的同學其學習目標定為B類,3次以上的同學其學習目標則定為A類,這類學生表現出對知識的渴求,興趣較濃,理解知識的能力相對較強。
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
根據判定樹,可以根據學生學習本章節的實際情況對學生學習下一章節內容的效果進行預測,據此對學生進行分類,提供不同的教學內容供其學習,以提高整體教學質量。
參考文獻
[1] 湯小文,蔡慶生. 數據挖掘在電信業中的應用[J].計算機工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚勇等.電子商務網站推薦系統中關聯規則推薦模型的實現[J].計算機工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數據倉庫的聯機分析挖掘系統[J].計算機工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術及其在網絡教學評價中的應用[J].南京工業大學學報(自然科學版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數據挖掘的遠程學習過程評價系統設計與實現[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬浩.基于數據挖掘的遠程學習者網上學習行為研究[J].中國遠程教育,2008,(5):44-47.
[7] 龔志武.關于成人學生網上學習行為影響因素的實證研究[J].中國電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當數據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數據為基礎進行科學發現的第四范式[2],當數據開始變革教育[3],這些無不宣告著我們已經進入了大數據(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數據,顧名思義是大規模的數據集,但它又不僅僅是一個簡單的數量的概念,IBM公司指出,大數據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現的數據和內容中洞悉事物的機會,使業務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優化[5]。
由此可見,大數據強調的不單純只是數據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統計計算,而是深層的挖掘。大數據時代,如何充分利用好積累的數據和信息,以創造出更多的價值,已經成為企業管理者、政府機構以及科研工作者首要關注的問題。“業務就是數據”、“數據就是業務”、“從大數據中發掘大洞察”等意味著對數據分析提出了新的、更高的要求。可以這么說,大數據時代就是數據分析的時代。②多種數據的整合和融合利用。大數據時代,數據的多樣性是一種真實的存在,數據既包括結構化的數據,也包括非結構化的數據,表現方式可以是數據庫、數據表格、文本、傳感數據、音頻、視頻等多種形式。同一個事實或規律可以同時隱藏在不同的數據形式中,也可能是每一種數據形式分別支持了同一個事實或規律的某一個或幾個側面,這既為數據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數據,從多種信息源中發現潛在知識。只有如此,才能真正地提高數據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數據的突出特點,這必然會帶來數據獲取、整合、存儲、分析等方面的新發展,產生相應的新技術或者將已有的技術創新地應用于大數據的管理與分析。同時,大數據的這些特點也決定了傳統的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數據時代數據與信息分析的主流模式。
對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優勢不再。因此,如何把握住自身的優勢,并抓住機會有所拓展,是情報學在大數據時代需要思考的問題。
2 大數據環境下情報研究的發展趨勢
大數據帶來的新觀念,正在引報研究的新發展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰略環境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失敗;③要汲取更多外界的專業知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1 單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發展。
首先,表現在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹的結論。聯合國的創新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數據往往因為一些不可抗力的原因而不完整,如早期的科技數據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數據論數據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區人們對該技術的態度、當地的技術水平、物理條件、發展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環境不同,發展程度不同,要解決的問題也就不同。一些地區當前關注的問題不一定就是其他地區要關注的問題,某些欠發達地區當前不一定就必須照搬另一些所謂發達地區的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環境再做出判斷,否則可能會對決策者產生誤導。
2.2 綜合利用多種數據源
綜合利用多種信息源已經成為情報研究的另一大發展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發展、發現新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發現科技之間的轉換關系、預測技術發展方向,綜合利用政府統計數據、高校網站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發,系統化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數據的集合也可以是正式出版物與非正式出版物的集合等。
這一發展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發現自身優勢和差距,指導未來發展定位,同時也為廣大學生報考提供參考。可見,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數據上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網絡應用的深入,出現了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創建交換信息內容的基于網絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環境,并引導著技術、娛樂、政治等諸多主題的發展[11]。這些通過龐大的用戶社區來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現象[12]、預測未來發展方向[11]等提供了機會,有助于發現有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數據、移動傳感數據和設備傳感數據中獲取社會和社區情報(social and community intelligence,SCI),揭示人類行為模式和社群動態[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網絡信息聯盟的執行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發現隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發展走向等。但現有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數據環境下,加強這方面的研究也是必然趨勢。可以預見,隨著科技的發展和應用的深入,還會不斷的有新型資源出現,并不斷促進情報研究的發展。
2.4 強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數據和信息;信息驗證側重于數據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論。可見,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變為一門科學。
在大數據背景下,情報分析的嚴謹性,不僅體現在理念上,還暗含了對技術的要求。面對海量數據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統,而不是人工的收集,信息融合更多依賴數據倉庫等技術手段,如何在這樣的分析環境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案。可見,在大數據時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5 情報研究的智能化
大數據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數據的涌入,必然需要技術將這些數據轉化為結構化數據,以供后續分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統計分析已不能滿足現在社會的決策需求,需要從大量信息中發現潛在模式,指導未來的發展,這就涉及數據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐。可見,這一發展趨勢是大數據時代下的必然。而各國在積極建設的數字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創新。
目前,對情報研究中的智能化技術沒有統一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現在更多地依賴通過計算機自動化處理原始材料并獲得潛在數據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統計、數據挖掘等方法加以計算,獲取隱含的知識。可重復是指自動化分析技術消除了許多主觀因素,從理論上講,如果分析數據等條件一致,分析結論也應該是一致的,這也體現了智能化技術為情報研究帶來客觀性的一面。
3 情報研究中的技術問題
情報研究的上述發展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數據:創新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數據技術,并圍繞大數據分析技術、大數據技術和可視化三方面進行了闡述。在大數據分析技術中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間序列分析、無監督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯網的發展以及對大規模數據挖掘的需求,在原有技術的角度發展起來的,如眾包就是隨著Web2.0而產生的技術。
根據我們的理解,這些技術大致可以劃分為可視化分析、數據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規模及復雜數據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發及其應用[27],而可視化分析在此基礎上加入了知識發現過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當的可視化技術相結合,以達到輔助決策的目的。
目前的情報分析系統,雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現,系統內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發展要求。同時,現有的分析工具需要分析人員輸入各種繁雜的參數,又缺乏對情報分析認知過程的支持,這就對使用人員的專業化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數據管理和知識表示、統計分析、知識發現領域的成果進行自動分析,融入交互、認知等人的因素來協調人與機器之間的溝通,從而更好地呈現、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數據集特點,來確定可視化和自動分析方法的優化組合,從而達到最佳的效果[31]。可見,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數據、析取出的關系數據、深層挖掘的模式數據等的可視化手段,分析人員與系統交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數據環境下面臨哪些認知困難,需要在哪些環節加以支持,這些困難能否通過技術來解決。此外,從現有的可視化分析技術來看,主要是將各個相關領域的技術以優化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2 數據挖掘
廣義的數據挖掘指整個知識發現的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數據分析和知識發現的任務,從數據特征化與區分到關聯和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統計學、機器學習、模式識別、算法、高性能計算、可視化、數據庫和數據倉庫等領域的技術,并可以用于任何類型的數據,包括數據庫數據、數據倉庫等基本形式,也包括數據流、序列數據、文本數據、Web數據、圖數據等其他類型的數據[33]。
從數據挖掘的涵義看,它與情報研究有著天然的聯系;從數據挖掘的方法看,有其特定的含義和實現過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯規則發現的成功案例——超市的“啤酒+尿布”,嘗試用關聯規劃來分析研究主題的相關性,從科技論文與專利的關聯中發現科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統計、共詞計算層次上,在知識發現的過程中,這些工作僅僅是數據挖掘的數據準備,還有待于更為深入的發掘。可見,數據挖掘能夠也應該應用于情報研究領域,這不僅是數據挖掘應用擴展的結果,也是情報研究自身發展的需求。此外,由于較少有專門針對情報研究領域研發的挖掘工具,現有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯,因為工具的分割性,就導致潛在模式的丟失。由此,研發適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數據的挑戰,智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數據挖掘出現了交互挖掘這一發展趨勢,即構建靈活的用戶界面和探索式挖掘環境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發展,尋找情報分析的新模式,值得我們關注。
3.3 語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。數據的語義性支持了機器學習等技術的內在功能[36]。
從現有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數據集環境下,還可以接受,當面對大數據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態監測科研機構等的系統工具,但總體來說還處于起步狀態,目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數據,同樣也不利于大規模的數據分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規律性的準則以供指導分析工具的研發,這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯的有機整體,以便后續分析。
4 結語
正如本文引言中所談到的那樣,大數據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰。機遇巨大,挑戰更大,需要我們對此有清醒的認識。本文分析了大數據背景下情報研究的若干發展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
中圖分類號:G642 文獻標志碼:B 文章編號:1674-9324(2013)09-0253-03
一、引言
21世紀是國家全面推進學生素質培養的時期,計算機專業課既具有較強的理論性,又具有較深的實踐性。目前,計算機專業的教學過程中往往理論教育與實際脫節,很多學生通過了專業理論課的考試,卻不能將理論付諸于實踐,學生對課程知識并沒有深刻的理解和消化,對課程理論的實際應用沒有感觀上的體驗。經調查顯示,60%以上的學生認為在校期間的計算機理論課的學習對就業和實際工作幫助不大,這給學生學習計算機理論的積極性帶來了消極的影響,更有很多學生熱衷于參加社會上的計算機培訓機構,放棄在高校的課程學習。因此,在培養學生的理論創新能力的同時,提高學生的動手操作能力,加強學生理論聯系實際的能力是計算機教學十分緊迫和必要的任務。
隨著信息技術和網絡技術的快速發展,在短短幾年內數據倉庫和數據挖掘就已經成為IT信息領域廣泛應用和熱點研究的領域。該領域主要是研究如何從浩如煙海的海量數據中有效地提取并挖掘知識,對其進行自動分析和匯總,是計算機行業中最熱門、最有前景的領域之一[1]。數據倉庫與數據挖掘課程也順應計算機發展的需要,進入到高校計算機教育的專業課課程列表中。
本論文在深入研究了數據倉庫和數據挖掘課程的內容和特點的基礎上,采用B/S(Browser/Server)架構,即瀏覽器/服務器架構,開發了web課程教學實驗平臺。
二、數據倉庫與數據挖掘學科教學現狀
隨著數據倉庫與數據挖掘課程在各大高校成功試教后,近年來各大高校都為計算機專業都設立了數據倉庫和數據挖掘課程,時至今日,其課堂理論教學已經比較成熟。然而,絕大多數學生在經過該課程的學習后,普遍反映雖然基本了解了數據倉庫和數據挖掘相關理論知識,卻缺乏感性認識和實踐應用能力。這主要是因為該課程的實驗教學較難開展,缺乏一個符合以下特點的教學實驗平臺。
市場中通用數據倉庫和數據挖掘軟件昂貴且難以使用,大量的專業術語、專業業務理論、數學知識和挖掘模型讓人無從下手。因此我們需要的僅僅是一個實驗平臺,并非大型企業應用軟件,只要學生能通過它更簡易地完成該課程的實驗環節即可。
1.可視化、易操作。可視化和易操作可以提高學生的學習興趣,讓學生更直觀的參與到教學活動中來,而不是苦惱于如何使用該平成實驗。
2.交互性。一個好的教學平臺不僅是一個可以提供給學生傳授知識的平臺,還應該是一個可以和學生及老師有交互性的平臺,并且使學生和學生有交互性,老師和學生有交互性[2]。
3.教學與實驗相結合。我們需要不僅僅是一個數據倉庫與數據挖掘實驗軟件,而是綜合課程教學和課程實驗的平臺。教學與實驗相結合、理論與實踐并重,這才是計算機專業教育的核心。
4.擁有合理和充足的實驗數據。對于一個實驗平臺來說,數據的缺乏將使得實驗無法進行。尤其是對于數據倉庫與數據挖掘這個特殊的領域,數據不僅要足夠的多而且要合理,否則會嚴重影響實驗結果和教學效果。
三、數據倉庫與數據挖掘學科教學實驗平臺的構建
為適應教育發展需要,秉承深化教學改革的方針,改革數據倉庫和數據挖掘課程原有的普通教學模式,啟動了“數據挖掘課程設計平臺建設”教學改革項目。該平臺依托我校電信學院985平臺的優良硬件環境,由遠程開放實驗平臺服務器和終端PC機組成,其成本低廉、維護方便、部署容易。該實驗平臺服務器直接部署于本校的學院985實驗基地,具有操作穩定性、魯棒性和容錯性。通過該實驗教學平臺,學生對該課程的學習過程將不受場地限制,只要通過網絡就可以登錄該平臺。該平臺主要框架如圖1所示。
1.用戶管理模塊實現了對不同用戶的權限設置、登錄和注冊等功能,超級管理員可以為普通學生用戶分配權限。
2.實驗平臺模塊給學生提供了算法模擬和試驗的平臺,主要分為以下兩個部分。
(1)數據倉庫的維度建模設計模塊。雪花模型設計案例;星型模型設計案例;ETL抽取操作平臺。
(2)數據挖掘算法實驗模塊。數據預處理程序實現算法平臺;Apriori算法實驗平臺;ID3算法實驗平臺;BP算法實驗平臺;K-Mean和K-Medoid算法實驗平臺;C4.5算法和決策樹算法實驗平臺;KNN算法實驗平臺;貝葉斯算法實驗平臺。
維度建模設計平臺和數據挖掘算法實驗平臺模塊是該平臺的核心模塊。
3.實驗課程模塊主要向學生介紹該實驗課程的相關內容、教學大綱和教學任務,也包含數據倉庫環境的具體安裝和配置視頻演示。
4.作業提交模塊更是改變了傳統的提交紙質作業的模式,讓學生將動手完成的實驗和相關作業通過該平臺提交,一個學生一個賬戶,避免了作業抄襲和拷貝。學生提交的作業只要運行正確,按題目要求編程,不論采用何種語言或者何種算法都是可以的,并沒有唯一性的標準答案。當實驗課程考核的時候,學生能夠通過作業提交系統向服務器提交指定課程內容的作業,供教師在線評閱和打分。
5.教學資源下載提供給學生自學的資料,給感興趣的學生提供了進一步學習的捷徑。
6.當有學生對實驗環節和該課程有任何疑問,都可以登錄在線答疑系統,給授課老師留言,這些信息都會以郵件的形式發送到授課老師的收件箱,從而實現即時的答復,讓學生在第一時間接受老師的指導。當有問題重復出現三次以上,系統就會自動識別,將問題和答復展示在FAQ中,提供給更多的學生共享該問題和該問題的解答,避免重復提問,也給還未遇到該問題的學生共享和學習。在線答疑給學生和教師提供了交互、交流和學習的平臺。
7.數據挖掘實驗平臺的在線代碼編譯環境主要采用gcc編譯器,能夠對學生提交的各種代碼進行實時編譯,給用戶的感覺就像是在本地執行一樣。它能夠支持的在線運行編程語言包括java、C和C++等,給學生提供多樣化的語言實現方式,體現了非機械化的計算機應試理念。
四、數據倉庫與數據挖掘學科教學實驗平臺的教學效果
在數據倉庫和數據挖掘課程中使用該教學實驗平臺,具有教育的先進性和優越性。
(一)建設了數據倉庫和數據挖掘課程的實驗教學體系
1.數據倉庫和數據挖掘模型。本平臺可以培養學生自己動手創建多維星型模型、多維雪花模型、緩慢變化維、ETL模型、數據立方體模型及其實例等,還可以增加學生對各類重要挖掘算法的特點和應用場景的理解,讓學生在實驗平臺上體驗基于數據倉庫的主要數據挖掘算法。
2.模型評估。當學生創建完畢自己的數據倉庫和數據挖掘模型后,可以通過調整不同的參數值和更改數據集來檢驗算法的輸出結果,并通過記錄在不同的應用場景下的參數值和結果值得到最優值。
3.優化創建模型和算法的性能。學生通過使用計算機領域中的一些經典優化技術,如創建位圖索引、哈希索引、S-tree索引等來優化模型和算法的性能,并記錄和比較不同優化技術對模型和算法的效率和響應時間的影響。
4.定期對學生所學實驗內容進行測試,根據學生的實驗測試結果對平臺的遠程實驗操作功能進行改進和完善。
(二)部署和實施了基于網絡的數據倉庫和數據挖掘課程遠程實驗教學環境
本項目通過構建基于網絡技術的遠程實驗教學平臺,不僅給學生和教師提供這樣一個教學實驗平臺,而且還實現了實驗教學的網上開放式管理,改革原有相對封閉的實驗教學模式為開放的實驗教學模式,構建了一個符合實踐教學環節需求、虛擬和真實環境相結合、基于Web的多應用場景的遠程開放實驗平臺。
(三)基于采樣評估證明了遠程網絡實驗教學的可行性和優越性
根據采樣評估結果,該系統體現了遠程網絡實驗的可行性和優越性。在該平臺真正投入使用之前,我們將一批學生分為兩個組進行數據倉庫和數據挖掘課程的學習,A組學生使用現有的課程教學方法,而B組學生使用該平臺的遠程實驗教學環境。具體教學內容為多維數據模型和數據立方體的概念以及k-means聚類和Apriori關聯分析算法。兩組學生通過不同的教學方式學習后,對他們進行了問卷調查和統計,結果如圖2所示。
從圖2的數據結果可以看到,無論是從學生興趣程度、作業完成度還是考試成績的角度對兩組學生的學習效果進行評估,使用該數據倉庫與數據挖掘課程教學實驗平臺的教學方式都具有明顯的優勢。在實驗過程中學生是主體,用所學知識發揮創造性思維進行實踐。當實驗取得結果時,不論結果成功與否,都能帶給學生一定的鼓勵,從而在某種程度上激發學生的創造力和積極性,真正加速問題解決和理論創新。因此,我們有理由相信該平臺的使用可以極大地提高學生的學習興趣,促進教學目標的實現。
五、結論
在計算機專業的教學中,如何提高學生的實踐能力和獨立解決問題的能力是當前高等教育發展的新形勢下所面臨的主要問題。本文首先介紹了基于數據倉庫和數據挖掘課程的實驗平臺的整體架構,展示了該平臺的優點,證明了該平臺可以將課堂學習和課后練習、理論教育與工程實踐有機結合,為實施更加行之有效的教學組織和教學管理模式提供了可能。只有教育者和學生充分認識到計算機課程中實驗環節的重要性,更有效地利用現有的社會資源和計算機技術為我們的教育服務,專業學科教學模式和方法才能不斷推陳出新,不斷進步和發展。
參考文獻:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
1 科學數據開放共享中的出版商
1.1 科學數據開放共享
在科學研究過程中,有不同的利益相關者參與其中。這些利益相關者類別多樣,性質各異,共同形成科學研究的生態系統。根據各利益相關者的職能,圍繞研究人員,將這一系統進行分類研究,確定出4個利益相關者群體,即資助者、數據管理者、研究機構與出版商作為關鍵參與者,以促進和實現科學研究數據的開放共享。
在這一系統中,每類利益相關者都有各自不同的職能、驅動力及利益點,但總體利益與動機相同,即促進科學的進步。利益相關者的利益與行為動機與各自職能連接在一起,形成了科學研究系統的邊界。該系統本質上受到外部和內部因素的雙重影響:外部因素可能表現為政治、社會、經濟、科學和文化體系等;內部因素包括政治意愿、經濟及學術競爭、技術基礎設施、法律、道德等因素。該系統的價值與動機是外部和內部因素共同作用的結果,其中外部因素控制資源輸入到該系統中,內部因素控制這些資源的可用性和分配。如圖1所示:
在此科學開放系統中,利益相關者群體職能眾多并偶有重疊,總體上各利益相關方對研究數據的開放獲取的意義已達成共識,但各利益相關方對實現開放研究數據的方式的認識并不一致。本研究主要探討在推動科學數據開放共享中,出版商數據政策的現狀、問題,并構建相應模型,提出相應建議。
1.2 出版商在科學數據開放共享系統中的目標
在促進研究數據開放共享方面,各利益相關方發揮不同的作用。出版商通過期刊向作者提供數據共享政策,在數據開放中發揮著重要作用。研究出版商的數據政策,是因為這是在研究過程中將數據政策與研究人員密切關聯起來的點,為研究成果,研究人員有動力、有可能遵守數據政策。同時,研究發現,雖然包括出資者和研究機構都可能有適用于研究人員的政策,但遵守這些政策的研究人員的比例還很低。研究人員沒有遵守數據政策的直接動力;此外研究人員在需要進行數據存檔時,可能也沒有合適的機構知識庫可以選擇。出版商提出的數據政策,是在研究人員完成研究過程后發表研究成果前,研究人員有可能、有動力遵守出版商的數據政策。
1.2.1 科學數據開放共享的價值
科學的思想與科學的證據互相佐證,研究數據和科學實踐之間的聯系是不言自明的,因此,推動開放獲取研究數據,與促進科學嚴謹的目標相一致。更大程度地共享與獲取數據,能加強科學的基礎價值,即允許科學研究有效地自我校正,以便二次分析、檢驗、質疑或改進原有成果[3]。此外,開放獲取政策通過減少重復工作,最大限度地減少研究人員用在搜索信息和數據方面的精力,因而改善了他們的工作條件。
JISC以英國高等教育和研究機構為例,指出研究數據的監護與開放共享具有如下利益[4]: ①研究人員能夠更廣泛地獲得數據,從而促進更多的跨部門的合作,研究人員在行業、政府和非政府組織內有可能獲得大量的教育和培訓機會。數據的開放共享有助于實現數據使用和重用,降低數據的收集和復制成本,分擔數據收集的直接和間接成本(如避免調查疲勞,從而提高響應率等),創造出在數據收集時未曾預想到的新的利用方式,進行數據挖掘等。②在項目申請撥款和評估階段、出版和研究評估階段,更容易發現欺詐和抄襲,更容易進行評估和同行審查。因此將有機會創造更加完整和透明的科學記錄。③通過將研究人員、知識庫、資助者與有價值的資源相鏈接,從而有更多的機會提高研究的可見度。
科學研究系統中的各個利益相關者群體認識到走向開放數據的利益,認同將數據的開放共享置于戰略高度進行考慮。科學表現為知識積累的過程,數據在促進早期工作中起著重要作用。開放獲取研究數據,通過避免重復勞動,促進協作,有助于顯著加快這一科學過程,從整體上使科學成為更加透明的進程,實現推動公眾參與,激勵創新和改革公共服務的宗旨[5]。
1.2.2 基本情況
出版商作為利益相關者,越來越關注數據密集型研究,認同開放獲取研究數據的意義。很多出版商認同布魯塞爾宣言,即“所有的研究者應能自由地獲取原始研究數據。出版商鼓勵公開公布原始研究數據結果,將相關的數據集及子數據集與論文共同提交給期刊,應盡可能讓其他研究人員自由獲取”[6]。很多出版商的數據政策為強制性政策,要求作者將支持出版物的研究數據存儲在經認證的知識庫中,實現開放獲取。研究表明,如果期刊具有強制性數據政策,并且有可獲取數據的聲明,那么在線找到該數據的可能性,幾乎是沒有類似政策的期刊的1 000倍[7]。
盡管目前出版商已開始重視出版物的開放獲取,將開放獲取作為一種出版的商業模式,不過出版商參與研究數據的出版,特別是開放獲取研究數據,目前尚未形成規模。出版商關注研究數據及其開放,重要原因在于數據為出版商的主要產品即出版物增加了價值,數據有助于驗證研究成果,從而增強了所發表研究成果的可信性,而可信度對于研究具有重要意義[2]。此外,資助機構的政策要求公開獲取研究數據,實質上向出版商施加了壓力,出版商需要參與到研究數據開放獲取中,幫助作者和研究機構符合出資人的要求。現在,領先發展的出版商開始與其他利益相關方合作,試圖挖掘研究數據的潛能,形成以數據為基礎的新產品和服務,對研究數據進行同行評議,開展提高數據質量的其他服務。
2 出版商主要數據管理政策
本研究根據STM的年度報告[8],確定出以下出版商為主要分析對象(見表1)。這十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究將開放獲取出版商,科學公共圖書館(PLoS)、生物醫學中心(BioMed Central)的數據開放政策考慮在內。
2.1 出版商數據政策現狀
2.1.1 將開放獲取作為默認情況
出版商將數據的開放獲取作為訂立政策的基礎,如PLOS研究數據開放獲取強制性政策[9],指出除了極少數例外情況,支持PLOS出版物的所有研究數據都必須開放獲取。作者在向PLOS提交稿件時,要同時提交數據可用性聲明,在聲明中表明遵守PLOS的政策規定,在手稿成功提交后,數據作為最終手稿的部分內容。PLOS要求作者將數據存儲于推薦的經認證的數據中心或知識庫。小數據集可與稿件一并上傳。PLOS的編輯和投稿指南,向研究人員提供指導,協助研究人員遵守期刊開放數據政策。在限制數據獲取的情況下,PLOS有權修正說明,聯系作者的機構或資助者,甚至撤銷出版。
2.1.2 新的出版形式的出現
出版界越來越關注開放數據,產生了一種新型出版產品,即數據期刊。數據期刊的出現,與數據可以單獨緊密相關。數據的單獨可以確保數據作為科學記錄的基本組成部分,以可理解的形式向科學界提供。數據期刊是同行評議的開放獲取平臺,用于、分享和傳播各學科的數據。發表的數據論文包含數據集的具體相關信息,如收集、處理方式等。發表的數據論文與認可的知識庫互相關聯,數據論文引用存儲于知識庫或數據中心中的數據集。正如澳大利亞國家數據服務中心(ANDS)在其數據期刊指南中所指出的,“從根本上說,數據期刊尋求促進科學認證和再利用,提高科學方法和結果的透明度,支持良好的數據管理方法,并為數據集提供一個可訪問的、永久的、可解析的路徑”。ANDS指出,數據論文的出版過程包括對數據集的同行評議,最大限度地提高了數據再利用的機會,并為研究人員提供了學術認可的可能性[10]。
2.1.3 同行評審
對研究數據與數據出版物開放獲取的關注,彰顯了研究數據的科學質量及研究數據同行評審的重要意義。在此背景下,一些出版商將同行評議的范圍擴大到包括數據在內的同行評審。M. S. Mayernik等2014年進行了有關“數據同行評審”的研究,提出因為出版物或資源類型有所不同,進行同行評審的方式也必須有所變化。研究者對幾種類型的評審資源進行了區分,包括在傳統科學論文中分析的數據,在傳統科學期刊上的數據文章,以及通過數據期刊的開放獲取知識庫與數據集。M. S. Mayernik等針對數據的同行評審、數據的質量保證過程確定了一些共同因素,包括:可通過數據中心或知識庫獲取數據集;數據集有足夠的信息以備評審;期刊有明確的方針指明審核的要點,指導評審者進行數據審查等[11]。
開放考古學雜志(JOAD[12-13])對所有提交的數據論文采用同行評審程序,評審內容包括論文的內容與存儲的數據。論文的內容指與數據集的建立和重用相關的信息,以及對數據集的描述。存儲的數據指以可持續性模式提交到存儲庫的數據,包括其許可方式。
2.1.4 數據引用
除對數據進行同行評審外,出版商還逐步引入數據引用政策,以促進研究數據的標準化使用。研究數據對研究過程具有重要價值與意義,為擴大高質量研究數據的傳播,形成數據利用的規范方式,FORCE11[14]制定了數據引用的主要原則。FORCE11的引用原則的前提是數據引用需要實現人類和機器均可讀。該數據引用原則可能并不全面,主要目的是鼓勵各學科制定體現自身特點的引用方式。
FORCE11原則包括:說明數據引用的重要性;通過數據引用促進學術信用;數據引用要實現機器可操作性,包括全球永久唯一標識符;數據引用要促進對數據本身的獲取;數據引用應該具有持久性;便于識別,易于獲取,可以驗證;具有互操作、靈活性等特點。
2.1.5 內容發現和鏈接服務
出版商逐漸把發展方向轉移到內容發現和鏈接服務,專注于文本與數據挖掘(TDM)工具,以便能開發內容,進而提供相關服務。出版商越來越關注數據挖掘是研究人員利用大型數據庫的內容、數據和出版物的需求的直接結果。一份文本和數據挖掘專家小組的報告指出,TDM是一種重要技術,可用于從指數級增長的數字數據中,分析和提取新的見解和知識[15]。該報告的結論是,因為研究人員的技能和技術不斷提升,所研究的數據集的復雜性、多樣性及規模不斷擴大,因此TDM有可能會更加重要。但對于利用文本與數據挖掘工具是否應有所限制,目前仍有爭議。
2.2 期刊數據政策問題
2.2.1 數據格式與文件大小的差異
期刊要包括支持文章結果的所有數據,往往是很難實現的。研究的方法不同,產生的數據也大不相同,數據的格式和文件大小差異巨大。定性研究生成的數據,多以文本形式存在,例如實地觀察筆記,或采訪或報道的文字記錄等。定量研究生成的數據,多以電子表格的形式保存。一項研究可能產生多種類型的數據,而論文可能包括附加文本、數值數據集和數字圖像,這些都可能增加論文的大小。因此出版商表現出對集成到每篇論文中的數據集大小的關注。某些出版商開始嘗試出版在線期刊文章,以包括多種數據,例如愛思唯爾的有關未來的文章的探索[16]。然而,并不是每一種期刊都有包括各種數據的能力。這就要求期刊的辦刊方針應清楚說明,作為論文組成部分的數據,在何種程度上可以包括在論文中。
2.2.2 機構知識庫的成本
為解決出版商服務器超載的問題,將期刊文章的重要數據鏈接到一個特定的機構知識庫,可能是一個合理的選擇,但這將相關的長期運營成本轉嫁到了機構中。但資助者目前的基金中并不包括這部分資金,而機構可能也并不愿意在當前的管理費用中增加這種支出。這就使得在機構知識庫中存儲科學數據的可持續性有待探討。
2.2.3 研究人員對數據開放的認識
許多研究人員并不知道相關的知識庫,為此期刊數據政策應說明,數據是否應該在認可的知識庫中存儲,是否要使用永久統一資源定位符(URL),是否要采用某種形式的數據引用。數據的時間也是一個需要關注的問題,研究人員并不關心在出版過程中的什么時候數據可被公開訪問,而是關心在研究過程中何時數據應被公開訪問。研究論文并不是在研究結果全部產生后才會形成,而是在研究過程中逐步產生的。在的同時,是否適合研究數據取決于多種因素,諸如某些形式的數據有敏感性,要保護受試者等因素。
3 構建期刊研究數據策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定過程必然需要將注意力集中于數據共享過程中各利益相關方的意見,而目前的數字基礎設施在不斷變化,出版商、知識庫和系統之間,并沒有強有力的措施鼓勵共享數據。共同點包括:①出版商共享數據的方式差異很大;②在出版過程中,出版商對所接受的數據類型、數據應存儲的地點、應存儲的時間等說明,模糊不清;③研究人員普遍贊成共享數據,但研究人員不知道該如何克服共享障礙;④研究人員認為出版商和期刊有關數據格式和存放地點等清晰的政策,將有益于研究;⑤出版商也認為在數據的關聯與嵌入方面存在障礙。
科學數據共享的許多問題,能夠在出版過程中通過期刊強有力而明確的政策加以解決。因此,本研究的目標是確定能推薦給期刊使用的政策模型。研究收集到的期刊政策信息,對材料進行分析后,歸納出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的觀察,形成基本的期刊研究數據政策的模型框架。由資助者和研究機構作為一方,與出版商的另一方進行合作,發展數據政策。表3為所構建的期刊研究數據策略模型框架。
3.3 實施方式
3.3.1 逐步制定出版物的支持性數據的強制性開放共享政策
出版商應該支持期刊編輯制定研究數據的強制性政策,從而提高研究過程透明度,擴展研究數據的潛力。數據的編輯政策應解決諸如文檔、元數據、數據出版格式、許可、引用等問題。編輯政策要求作者在文章提交過程和同行評議過程中,提交數據的可用性描述。對提交的文章不符合規定的情況,政策應提出對應的措施,如撤銷發表的文章。
3.3.2 與認證知識庫和數據中心協作,簡化數據提交流程
出版商可按照相關標準考查知識庫與數據中心的可信度,與符合數據認證標準的數據中心與知識庫協作。類似的知識庫或數據中心可以是主題明確的學科知識庫,也可以是機構知識庫或綜合知識庫。二者的合作應該會產生積極影響,為研究人員和研究機構提供高品質的產品和服務,服務具有可操作性、技術上無縫的特點,從而實現以開放格式傳播和保存高質量的學術產品和研究數據。對于沒有公認的數據中心或知識庫的學科,出版商對研究人員提供指導和幫助,提供適合存儲與獲取的機構知識庫建議,或提供商業數據服務。在這方面,出版商的角色應該是更多地促使學術團體建立資源庫評估準則,從而幫助研究人員選擇合適的存儲庫。當學術界建立起知識庫的認可標準,出版商就可以通過期刊政策執行這些標準。
3.3.3 數據作為一流學術成果,接受同行評議
出版商的主要職責之一是確保出版物的高質量,而研究數據同行評審制度的建立,有助于提升出版產品的品質。同行評審過程,應詳細說明評審的標準,要評估研究數據的技術與質量問題,技術方面如考量數據集的完整性和一致性,收集數據的標準,使用的軟件等;研究數據的科學質量則由研究團體通過出版前與出版后的同行評審進行評估。同行評審流程中,出版商也應該探索對評審者的激勵方式,包括支付酬金,邀請編寫特稿,加入編輯委員會,甚至聘用一些專家進行內容評審。
3.3.4 發展有關研究數據引用的策略
研究數據通過傳統的出版過程傳播,為實現數據的長期可重用,需建立并使用數據的引用標準。在這方面,出版商應要求出版物及相關的數據可引用,并為數據的引用提供明確指導。在說明數據引用時,出版商可參照一些已有的實踐,如Force11[14]的原則,參與DataCite[17],加入到研究界和編輯討論的過程中。數據引用應包括DOI,以及使用許可信息,如創作共用許可,數據的引用方式最好是機器可操作的,可讓用戶知道可以如何處理研究數據。
3.3.5 建立許可政策鼓勵進行文本數據挖掘
出版商的編輯政策應以清晰的方式,說明研究數據的與獲取方式,如默認或建議開放獲取等。考慮到文本數據挖掘工具可帶來顯著經濟效益,鼓勵出版商調整策略,允許研究人員在研究中使用這種技術。
關鍵詞:
房地產批量評估,標準價調整法,多元線性回歸模型,數據挖掘
根據房地產批量評估技術中人工參與程度的多少,現行批量評估技術方法可分為:以人工為主、以計算機技術為主和以人工與計算機技術相結合三類。本文將對此進行討論,對如何選用房地產批量評估技術方法進行研究。
1以人工為主的技術方法之標準價調整法
1.1標準價調整法的概念標準價調整法,作為市場比較法派生出來的一種方法,類似于城市動拆遷評估中的基準價格修正法和香港的指標估價法,但又有其自身的特點。標準價調整法可定義為:一種批量估價方法,在一定區域范圍內進行估價分區,在每個估價分區內設定標準房地產并求其價值,利用房地產價格調整系數將標準房地產價格調整為各宗房地產的價值。標準價調整法適用于估價對象物業屬性和估價特性較為近似的物業,尤其適用于小范圍且價格影響因素少的樓棟批量評估。
1.2標準價調整法在不同物業類型中的應用標準價調整法的實施涉及到:估價分區的劃分、標準房的設定、價格修正系數的設定以及標準房價格的評估。無論應用于哪種物業類型,這四個步驟必不可少,差異在于各步驟的具體實施方法不盡相同。在住宅物業的評估中,往往以小區作為估價分區的劃分,在一個小區內根據一定規則設定一個標準房,再由有經驗的估價師根據實地調研情況設置標準房與其他房屋之間的價格差異系數。最后仍由估價師定期對標準房進行估價,并通過已設定的系數求得所有物業的價格。在辦公物業的評估中,差異在于分區是以樓棟或項目來劃分,后續步驟和住宅一致。在集中型商業物業或工業物業中,都可以借鑒上述方法來進行操作。但在沿街零售型物業中,由于沿街零售性物業分布廣泛,沒有明顯的集中趨勢,并且價格影響因素的差異較大,導致標準價調整法的應用也與其他物業類型有較大不同,主要表現在估價分區的劃分和價格修正系數的設定這兩個環節。現有的技術方案一般采集兩級調整的方案。按商圈(或類似因素)將城市區域劃分成諸多估價分區,在每個分區中設定一個標準商鋪,稱為區域基準商鋪。之后在分區內再進行一次估價分區的劃分,這一劃分以路段為分區,在每個路段中設定一個標準商鋪,稱為路段基準商鋪。估價人員經過現場調研后,需設置兩級修正系數,即區域基準商鋪與路段基準商鋪的價格調整系數,以及路段基準商鋪與路段內其他商鋪的價格修正系數。最后經估價師定期對區域基準商鋪進行估價,并通過兩級系數的修正求得所有商鋪的價格。
1.3標準價調整法的優點①在規模較小的城市中,可以實現絕大部分物業的批量評估需求,具有較強的實用性。②可以達到較高的批量評估覆蓋率。③估價準確性較好,并具有較好的質量可控性。④除建設初期投入的人員成本和時間成本較大,后續維護的成本適中。
1.4標準價調整法的缺點①由于人工作業的工作量太大,不適用大、中型城市。②對估價人員的經驗要求較高,尤其是系數設置與標準房的價格評估等環節對質量的要求很高。團隊運作時,需要具備較高的質量管理能力。③不同物業間的系數關系可能受到市場、規劃等因素的影響而改變,需要定期進行監控和維護,有一定的難度或容易疏忽和遺漏。
2以人工為主的技術方法之多元線性回歸模型
2.1多元線性回歸模型簡述多元回歸分析是目前在國外批量評估中占主流的校準技術,包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎上,通過對變量、誤差的假定,依靠最小二乘法來擬合因變量與自變量關系,從而建立數學模型。多元回歸是統計學方法,運用時要和經濟學理論結合,實踐中對多元回歸模型的應用是基于特征價格理論。國內關于運用特征價格理論來進行房地產價格批量評估也有較多的研究和學術論文,但絕大多數還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來預測售價,也可以用來預測租金,甚至可以用來統計其他中間參數。在步驟上不同類型的物業沒有明顯區別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預測辦公物業價格為例來進行闡述。①選取樣本:為了訓練預測辦公物業價格的模型方程,在目標范圍內選取一定數量的樣本,調研其價格信息和基礎信息。這里的重點是樣本對總體的代表性以及樣本數據采集的準確性。②構建辦公物業價格影響因素體系:通過調研分析以及房產專家意見調查,歸納出可能影響辦公物業價格的特征變量,并進行賦值量化。③模型擬合:觀察、分析特征變量的變動規律,采用統計分析軟件進行分析,對模型和特征變量賦值不斷地嘗試和修正,找出合理的價格和各特征變量之間的定量關系。④模型檢驗:最終得到的模型是否成功,取決于經濟意義檢驗、統計檢驗、計量經濟學檢驗以及模型預測檢驗。其中統計檢驗包括了擬合優度檢驗和顯著性檢驗;計量經濟學檢驗包括多重共線性檢驗及異方差檢驗等。但凡通過上述所有的檢驗,即可認為模型已成功建立。⑤模型應用:對辦公物業的特征變量進行賦值,代入最終的模型進行自動計算,即可評估辦公物業的價格。
2.3多元線性回歸模型的優點①多元回歸方法所涉及的工作量主要在于特征變量的數量以及特征變量的賦值容易程度,受城市規模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過擬合因變量與自變量關系從而建立數學模型,這個過程與何種物業類型無關,因此理論上多元回歸方法適合各類型物業的批量評估建模。③通過“調整R方”和“標準誤差”兩項指標,基本可以判斷和掌握模型價格估計的準確度,并且可以對模型進行持續改進,從而保證批量評估的準確性。④在市場穩定時期,由于自變量與因變量的關系也較為穩定,因此模型更新維護的成本較低,從而價格更新的成本也較低。
2.4多元線性回歸模型的缺點①在不同區域或不同市場,價格的影響因素不盡相同,建立的回歸模型也不相同。因此對每個城市每個物業類型的市場需要分別建立回歸模型。②多元回歸的建模研究過程中,在理論假設、建模方法、數據采集等各環節中,需要綜合的知識、經驗和技能要求。除了房地產估價師所需具備的估價理論知識、實務經驗、調研及價格判斷能力外,還需要統計學、經濟學等多學科知識。對人員和團隊的綜合能力要求很高,而這往往是傳統估價機構所欠缺的。③對樣本數據的準確性要求較高。如果沒有準確的樣本數據,建立科學的經濟學模型則為空中樓閣。而要獲得準確的樣本數據,長久以來一直是一個難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業物業的交易活躍度低)。④在市場波動大的時候,原有模型可能失效或者預測能力大幅下降,而模型的迭代或維護周期較長,可能無法及時調整。
3以計算機技術為主的技術方法
房地產批量評估領域中以計算機技術為主的技術方法主要是基于大數據的數據挖掘。這一技術的應用最早開始于房地產互聯網企業,如搜房、安居客等房地產房源網站,后來逐步被引入到房地產批量評估的技術或產品研發中來。
3.1數據挖掘的方法和原理首先,數據挖掘的前提需要有大量的數據可供挖掘。隨著互聯網在各行各業的不斷滲透,房地產中介行業中出現了大量房源網站,并逐步成為了房地產經紀人房源招攬客戶的主要渠道。一個房源網站中可以搜索的房源數量多達數十萬甚至上百萬條,并且每天都有數萬條以上的數據更新。這樣的網站有好幾家,為房地產的數據挖掘提供了可行的前提。其次,結構化的數據為數據的采集提供了便利。在房源網站中,房源已經按小區進行了分類,經紀人哪個小區的房源,則該房源將展現在該小區的搜索項下。至于面積、房型、價格、樓層以及裝修等參數,也都以格式化的方式來展現。因此,利用互聯網爬蟲等抓取技術,可以方便的將這些網站的房源抓取下來,并建立房源案例數據庫。最后,是數據挖掘工作。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。根據上述定義和描述可以發現,數據挖掘的核心是算法,而這個算法在不同的批量評估系數或產品中都不相同,算法的優劣也決定了不同系統或產品的優劣。
3.2數據挖掘方法的優點①高效無疑是數據挖掘方法的最大優點。一旦完成對算法的研究,價格估算的工作都可以交由計算機來完成。②對整體市場價格運行的反映具有較高的準確度。
3.3數據挖掘方法的缺點①對微觀市場價格運行的反映可能存在較大偏差。微觀市場中,例如一個住宅小區,其掛牌房源的數量就很有限了,即使規模最大的小區,也就是幾百的數量級。這樣大數據挖掘的數據數量前提已不滿足,從而影響了對微觀市場的價格估計。②批量評估的覆蓋面不完整。互聯網數據雖然總量巨大,但并非面面俱到。以住宅小區為例,一些體量較小的小區,或者一些遠郊區域,可能無法在互聯網上被搜索到。因此,基于互聯網數據挖掘的批量評估勢必在覆蓋面上存在缺陷。
4以人工與計算機技術相結合的技術方法
房地產批量評估,尤其是涉稅的批量評估對評估系統的要求主要有:全面覆蓋所有物業、估價結果準確以及系統維護成本適中。根據前文對各方法的論述,單一方法很難實現上述要求。如標準價調整法若在大型或超大型城市中應用,將面臨很高的運營成本;多元回歸建模的更新維護周期較長,當市場出現快速波動時可能無法及時調整;基于大數據的數據挖掘在估價精度與覆蓋面上都有所欠缺。總之,無論從技術上論證還是從實施效果來看,多種方法的有效結合是較為理想的,也是房地產批量評估技術的發展趨勢。實踐中各方法的結合已有普遍應用,并且各有巧妙,方法不盡相同。下面就幾種簡單的組合方式進行討論。
4.1標準價調整法與大數據挖掘技術的組合大數據挖掘可以滿足一些活躍小區的價格估算,因為活躍小區的掛牌房源較多,能滿足算法所要求的數據量前提,而不活躍的小區則無法為算法提供足夠的“原材料”,因此不適用數據挖掘的方法。這時就可以運用標準價調整法來彌補。按照標準價調整法的原理,在不活躍小區的臨近或相似區域內設置一個標準房,經人工調研后設置標準房與不活躍小區價格的調整系數。這樣在算法得出活躍小區價格的同時,可以利用預先設置好的系數一并計算不活躍小區的價格。此外,在算法可以計算的活躍小區的價格中,也有可能存在價格偏差。這時也可以應用標準價調整法的思路,設置活躍小區間的價格調整系數,來檢驗算法所得結果的合理性。這一組合的應用前提主要是看大數據挖掘的應用前提是否存在,即是否存在大量數據可供挖掘,因此適合房地產市場規模較大,“互聯網+”比較發達的城市和地區。此外,在結合了大數據挖掘技術后,標準價調整法可以應用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數據挖掘技術的組合除了對人員的能力要求以及對樣本數據的質量要求較高以外,多元回歸模型最大的弱點在于迭代問題。市場不斷變化,模型不可能一成不變,當市場發生變化并導致變量之間的關系也發生改變時,原有模型的價格預計精度必然下降,此時必須對模型進行重新構建。問題在于市場價格變化未必會導致變量間的關系也發生變化(或變化很小),或者當變量間關系發生變化時,人員主觀上可能無法及時發現。當主觀能夠感受到變量間的關系出現變化時,往往已經有了很大的變化。此時再進行模型的迭代就已近晚了,之前的價格估算可能已經出現了錯誤。大數據挖掘技術可以很好地彌補上述的缺陷。大數據挖掘不僅可以直接計算某些具體變量,任何數據內在的規律和關聯都可能應用大數據挖掘的方式進行探索和發現,并且能對極為細小的數值波動進行反應。利用數據挖掘的這一特性,可以建立對變量的波動監控,當波動超過一定的預設閥值即可啟動模型的迭代更新。這一組合的應用前提同樣取決于大數據挖掘的應用前提,除了城市規模等情況限制外,如商業物業、工業廠房等物業市場也不適用。
4.3標準價調整法與多元回歸模型的組合標準價調整法往往適用于特性相近的物業,如在一個小區中設定一個標準房,再設定標準房與其他房屋的價格修正系數。在價格更新時,求取標準房價格后,即可得到小區內所有房屋的價格。但當城市規模很大時,也就是有很多小區時,必須要求取所有小區的標準房價格,如僅以人工來評估得出的話,成本非常高。此時在求取小區標準房價格方面,采用多元回歸模型的方法可以極大地減少人工和時間成本。由于標準價調整法和多元回歸模型都屬于以人工為主的技術方法,因此理論上的應用幾乎不受限制。在結合多元回歸模型后,標準價調整法也可擴展應用到大中及以上城市。從上述三個組合中可以看到,原單一技術的某些弊端可以被克服,整體技術方案的適用范圍和效果可獲得較大提升和改進。實際研究和應用中可能有更多種的技術組合,且并不限于本文論述的主流技術方法。多種技術組合應用是房地產批量評估技術探索和創新的主要方向。
5房地產批量評估技術的選用
無論是單一技術還是多種技術方法的結合應用,房地產批量評估技術的選用依據主要是數據狀況、結果的質量狀況以及運行成本。數據狀況主要指數據的數量和質量。就技術方案來說,側重點有所不同。例如在多元回歸模型中,對于樣本案例的參數質量要求是所有技術方案中最高的;而大數據挖掘技術則對數據的數量要求最高。現實中不太會碰到數量又多質量又好的數據狀況,因此在技術選用時首先需要考慮是否可以穩定獲得所需要的數據。至于結果的質量狀況和運行成本,很難設定一個標準線。只能根據不同的需求目的來設定質量目標,以及根據組織的投入產出效益來選擇可行的技術方案。以上海城市房地產估價有限公司開發的VISS系統的運行情況來看,其在住宅物業批量評估方案中采用了標準價調整法與大數據挖掘相結合的方法,使其系統的評估精度基本控制在正負6%的誤差范圍,極端誤差范圍為正負10%。對于上海12000多個住宅小區,其價格更新周期為每月,其數據維護人員僅8-10人,每次價格更新的工作周期僅為兩周。在其新研發的辦公物業批量評估方案中,更是結合了標準價調整法、多元回歸模型以及大數據挖掘三種方法,使其系統的評估精度可以控制在正負10%的誤差范圍,極端誤差范圍為正負15%。對于上海3000多棟寫字樓物業,可以實現3個月的價格更新周期,而數據維護人員僅3人。因此,在選用何種技術方案時,主要有四個評價因素。一是技術方案所需的數據是否可以穩定獲得;二是批量評估的價格精度是否滿足目標需求;三是批量評估的物業覆蓋面是否完整;四是批量評估的運行維護成本企業(或組織)是否可以承受。以此為標準,運用多方法結合的思路進行技術的研發和創新才是房地產批量評估技術發展的正確道路。
采用計算機科學技術、現代信息技術和新的數學理論和工具處理復雜的信息,從各類文本、數據、表格、圖像、視頻等浩瀚的數據海洋中挖掘規律,發現有用的潛在知識,指導人們進行科學分類、預測、決策,是多年來美國及國際計算機、信息科學和數學家一直在探索的研究領域。知識獲取、知識表示和智能化的人機交互,甚至實現計算機可視化信息處理,建立新穎的知識庫,從而獲得領域信息和知識分析結果,將有助于商業活動、生物信息處理、蛋白質結構分析、科技研究動態分析,有助于科學家在復雜的科研信息中開辟新的未知領域,提供快速獨立科學判斷的客觀依據,探討和預測學科知識的發展前沿,準確把握學科研究方向,從事科學創新和研究。
多年來,我一直在智能信息處理這一研究領域進行探索。這次聯系到美國德雷克塞爾大學信息科學技術學院Tony• H教授,在他的指導下進行數據挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授現擔任國際學報《Data Mining and Bioinformatics》和《Granular Computing》等的主編和國際粒計算會議的程序委員會主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等內容,是近年來在世界智能信息分析中最具特色和影響力的研究領域。從2000年至今,他在這一研究領域中發表的研究論文達60多篇,出版的研究專著為3部。在為期一年的時間里,我與Tony•H進行了很好的合作研究,采用新的研究方法,對前沿領域進行了有益的探索研究,并接受了Tony•H等教授們的研究思想、研究方法、教學思想和教學方法的熏陶,對相關課程的教學方法、教學手段、教學組織方式進行了深入的交流和探討。此外,我還以志愿者的身份參加了在美國舉辦的兩個大型的全球性國際會議:美國工業數學聯合會舉辦的2006年國際知識發現與數據挖掘會議(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);國際知識發現和數據挖掘會議(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
這次訪問研究使我開闊了眼界,接觸到很多當今信息科學研究領域中最先進的思想和方法。對Rough Set Theory、Data mining、Bioinformatics等前沿性探索和預測的科學研究也有了更深入的認識。同時,能夠有機會和這一研究領域的世界知名專家和教授進行面對面的學術交流與探討,參加各種類型的學術研討會,我覺得受益匪淺。我所感受的學術氛圍、學到的教學思想和教學方法是一筆寶貴的精神財富,我會將他們直接應用到自己的教學和科研中。下面就我在訪美期間印象深刻的幾件事談談體會,以期對我們的工作有所啟示。
2優秀的學習環境
2.1優美的校園環境
我所訪問的德雷克塞爾大學地處美國費城的市中心西部,緊鄰世界著名的賓法尼亞大學(世界上第一臺電子計算機ENIAC在這里誕生,現在這里還保留有部分元件的展覽)。雖然離市中心較近,校園也沒有圍墻與外界明顯隔開,由跨南北東西幾條街和大道的建筑組成,但校區及周邊環境寂靜優雅。校園中央有一座代表性的龍雕塑,路邊插的許多旗桿上掛著印有龍的圖案和Dragon字樣的杏黃校旗,幾只松鼠在校園內的樹上自由地跳躍活動,小道邊或樹下都設有長凳,供教職工或學生休息、討論。
教學樓、實驗樓、辦公樓、圖書館、體育館內中央空調處于恒溫狀態,非常適合工作學習。每棟樓的大廳或較寬的走道邊的墻壁上都貼有各種名言及名畫,營造著好的學習環境,渲染著極其重要的文化氛圍。大廳內布置有椅子和圓桌,在上課、實驗或面談之前,教師或學生可在此休息等待,這一點的確做到了以人為本,給我留下了十分深刻的印象。
體育館內各種體育設施齊全,如健身、跑步、球類等,全年對學生免費開放。游泳也只需支付少量的費用(3個月只需25美元),全天多時段使用。
9月迎接新生、校際間的籃球比賽等活動舉辦得井井有條,充滿生機。
2.2完備的信息化建設
首先,信息化建設表現在數字資源的建設上。圖書館大廳內設有很多計算機,學生可在此上網瀏覽,查閱資料。書架周邊靠墻處設有自習的桌椅,供有網絡插口,學生可鏈接自己的筆記本電腦。圖書館資料豐富,如果在本館找不到相關資料,也可請圖書管理員在館際間查找,將返回的電子文檔通過郵件發送到學生校園網內的電子郵箱中,十分方便。
校園無線網覆蓋了整個校園,教室周圍也預設了網線插口,在教室內上課或自習的學生均可免費無線或有線上網。在校的本、碩、博學生都有自己的校內學號,憑該學號可直接在自己的實驗室登陸校園網的電子圖書館,查到僅在校園網上提供的論文資料。學生還可從校園網中心服務器上下載以學校或機構名義購買的正版軟件,這一點國內很多高校還沒能做到。
其次,信息化建設也體現在師生信息素養的建設上。無論在信息意識、信息知識、信息能力,還是在信息道德上,師生們都顯現出十分成熟的高水平。良好的信息化數字資源建設為師生的教學科研提供了良好的保障,師生們利用簡單的搜索機制或便捷的館際服務就可查到需要的資源。雖然本校師生可從校園網上下載正版軟件,但每個人都遵守不宜外拷的基本原則,這也體現了良好的信息素養。
3教師教學與學生學習
3.1教師教學情況
美國高校一般一年分為4個學期,每個學期大約3個月。按照校方的要求,每個教師至少3個學期要有教學任務,而且必須在每個學期完成平均3門課程的教學,個別教師甚至在一個學期要承擔4門課程的教學任務。一門課的教學約32學時,這樣,每個教師每學期(一學期不到3個月)約完成72~96學時的教學工作量。除非有科研課題,可以用科研任務充抵教學工作量,否則,教學任務就是相當飽滿的。除了承擔教學工作外,每個教師還要承擔科研、指導碩士及博士生進行研究的工作。年輕教師除了要完成教學任務,還要進一步深造,提高自己的學位和水平。教師的教學情況由學生來評價,學生填寫調查表格,收齊后交由學院教學秘書統計,最后由學院將統計結果通報給教師本人,類似國內高校的學生評教。所以教師同樣很有壓力,他們對教學一絲不茍、敬業,并非普通人所想象的美國教師工資高、工作輕松。
在課下,教師必須將所授課程的內容介紹、大綱、演示文檔資料、習題等組織好,全部掛在校園網的個人主頁上,以便學生隨時瀏覽。備課、批改作業、設計實驗題目等各個環節,教師都要十分認真地對待,每周有一次約定學生到辦公室進行問題討論或答疑,保證教學任務圓滿完成。教師對實驗項目的設計循循善誘,既不是全盤托出,也不是僅給一個題目,讓學生冥思苦想地琢磨。除了將學生建立成團隊,教師還布置與課程相關的大量文獻和資料閱讀,并要求學生寫出讀書報告。對于課程結束或評定成績用的大作業,甚至要求每個學生制作成演示文稿,并加以匯報、討論。我看到一位叫愛德華(中譯名)的老師,他承擔了數據庫、軟件工程等多門課程的教學任務,每天都在辦公室工作到很晚,有時甚至在教學樓大廳的休閑式自習間伏案研究。
在課上,每門課程開始的第一節課,教師就將學生分組,形成一個一個團隊。在布置學習和研討課題后,教師要求學生先獨立思考,不明白的東西可在團隊內討論,有問題還可及時問老師。也就是說,每門課都在培養學生的團隊協作精神。教師在課堂上的演示文稿經過精心準備,圖文并茂,層次分明,令人賞心悅目,但他們也不完全拘泥于演示稿,也在黑(或白)板上演繹關鍵的內容,突出重點,使學生感到他們備課充分,對教學內容十分精通。
3.2學生學習情況
在美國讀書的學生,普遍感到課外閱讀任務較重。學生不光要學好課內的基本教學內容,還要閱讀文獻,查找與主題相關的資料,并加以整理、歸納、匯總。這培養了學生自主學習的意識,清除他們完全靠老師課堂講授的依賴心理。
課堂上,學生們會踴躍發言,認真記筆記,回答老師的提問,在老師的引導下完成課堂練習。下課后,學生到圖書館查閱資料或自習,也會在網上下載老師在主頁上布置的作業,按時完成后及時提交給老師批改。如在課程結束時,教師會給學生布置大作業,學生要在一定時間內當面交給老師,并接受面試提問,作為考查依據的一部分。在接到作業任務后,學生要認真對待,完成后連帶其他作業一起交給老師。老師根據學生的總體完成情況給出五級分制的成績。
我曾遇到一位碩士生,她就接到這樣一個大作業。老師給的任務是一個較大的程序,要求她調試運行通過。經過一周的調試,程序始終沒能運行成功。在快要到期時,她正好碰到我,聽說我是從事這方面教學工作的,就向我請教。我很想了解美國教師采用什么樣的教學方法,出什么樣的題目讓學生做,于是答應幫他。我仔細閱讀分析和反復測試網上下載的源代碼,終于找出了問題所在。原來老師在程序中故意預設了兩個問題,這是學生在學習此類程序設計語言時容易忽略或犯錯的問題,程序在編譯中并不報錯,但就是運行結果不正確,得不到期望的結果,學生找不到出錯的地方,感到很困惑。經過修改,程序很快調試運行通過,進一步優化和調整后,她交給了老師。老師看了她的程序運行結果,并問了她的體會,得到非常滿意的回答后,表示十分高興。
其實,這就是教師在主導學生去主動學習,自己找資料,自己研究問題,形象地講,就是“逼”學生好好學習。這樣可以解決學生遇到較難問題時無從下手的迷惑,循循善誘他們找到解決問題的方法,避免了“越俎代庖”。
4 碩士生和博士生的培養過程
在碩、博研究生的指導過程中,如何對學生加以良好的指導,始終是困擾國內外導師們的問題,至今仍無絕對規范。
從導師與學生一見面,指導工作就已開始。導師一般提供很多必要的幫助,如幫助開設相互聯系的校園郵箱,確定聯系方式和時間,根據學生的知識結構制定研究方向等。作為一項基本約定,指導教師每周要有一個下午與學生見面,由學生匯報學習和研究情況,導師當面給出指導意見。導師有時還會幫助學生查找并提供最相關的研究論文或資料,必要時將研究論文的電子稿發送給學生,甚至將論文復印件放在學生的信箱中――這絕對有別于國內有的指導老師因兼職過多或擔任其他職務,指導缺乏或持久不到位現象。這種指導方式加強了導師與學生的交流,也便于將學生引導到相關研究領域的最前沿,而導師也始終站在研究的最高點。而通過不斷的交流和指導,學生能很快系統地了解相關領域的研究進展,較早找到問題的抓手,有興趣地開展有意義的研究,往往容易產生創新型成果,包括理論和應用性實驗成果等,并能。
當學生或導師認識到某個研究點的價值所在時,就會著力加以深入研究。如導師要求學生認真閱讀研究后再來參加討論,甚至有時要求學生將討論內容制成演示文檔講解,這樣他們對重要的概念和研究結果的掌握就會更加透徹,文獻跟蹤程度和研究思路水平就會得到提升。這種有意識的訓練大大強于“散放式”的指導方式。
5良好的學術氛圍
學科建設和課程教學離不開學術研究。在德雷克塞爾大學,給人留下深刻印象的就是每個教授(正教授、副教授和助理教授)都將自己的研究方向和最新論文或成果以一幅畫的形式貼在工作室的外墻上,上面有個人簡介、主要方法和結果說明。這樣就打出了自己的招牌,便于他人了解自己。此外,每個教授甚至普通教師都在校園網上建有自己的主頁,對自己的教學科研工作進行介紹,并將研究論文、著作等目錄列在其中,便于與他人交流或溝通。教師也經常根據教學內容聯系國際國內的專家做學術報告,始終用新知識武裝學生的頭腦。
重視營造活躍的學術氛圍,并使學術交流制度化、經常化,是我在美做訪問學者期間感受最深的一點。每個系或學院基本上每周都舉辦1~2次學術研討會,主講者有來自世界各地的專家教授,也有某個研究領域資深的校內教師。每次學術研討會的時間大都定在中午12:30,12:00就開始提供免費的午餐。這樣既充分利用了時間,又解決了聽報告者的午飯問題,也通過免費午餐吸引了不少聽眾,特別是一些來自第三世界國家的“窮”留學生們。通過網上邀請,大多數感興趣的學生甚至老師都會來參加研討會,在這里了解一些最新的研究進展和報告人的研究思路,并能與主講人交流自己的研究體會,視野隨之開闊,思想也隨之富有。有時,一些大的跨國公司或政府部門(如安全部門)的技術專家也被邀請來做專題報告,這樣學術交流的氛圍就比較活躍,研究工作也不會是一潭死水。
6結語
在美國德雷克塞爾大學訪問進修一年,我目睹了該大學在環境建設、教學科研等方面的好的做法,開闊了視野。回國后,我給我的學生們講解我的所見所聞,也給他們留下了深刻印象。這次進修不僅使我在業務上得到進一步修煉,也獲得了不少“精神財富”,如下所示:
(1) 抓實抓好教學工作的每個環節,是高校教師的永恒主題。任何一個環節,如教學方法、教學手段、實驗項目設計、主導學生學習、提出學習要求、組織討論答疑、批改作業等方面的提高,都會大大提高教學質量和教學效率,取得事半功倍的效果。
(2) 指導學生方向和過程并重,確保處于研究前沿。指導學生,特別是碩、博士生的導師,不僅在一開始就要幫助學生確定研究方向,而且要定期開展學習檢查和交流活動,必要時還要為學生提供前沿性的研究論文或資料,以便將他們早日引導到國際國內的前沿陣地,保持在高新水平上從事研究工作,取得創新性的研究成果。
(3) 創造活躍的學術氛圍和良好的學習環境,是高校各級領導及教師的基本責任。只有將教師和學生置于始終向前的滾滾波濤中,教學和研究才會具有不可估量的創造力,才會在科學的道路上獲得可持續發展。
【中圖分類號】G40-057【文獻標識碼】A【論文編號】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014
引言
2011年以來,在美國頂尖大學中迅速發展起來并迅速影響世界的MOOC(大規模開放在線課程)模式無疑給“在線學習”這一學習形式樹立了成功應用的典范,該模式證明了只有當大學的課程、課堂教學、學生學習進程、學生體驗、師生互動過程等被完整、系統地在線實現…,特別是當輔導教師的存在以及相關系統指導活動實現時,在線學習才是有效的。這從一個側面說明,在線學習并不是純粹的學生自主學習,還需要充分發揮輔導教師的主導作用。
在線學習模式下,師生活動在時空上相對分離,盡管有同步教學活動發生,但更多時候是異步教學活動,因為異步教學更有助于滿足學習者的個性化學習需要。不同于課堂面授教學,輔導教師難以把握一門在線課程學習者學習開展情況的全貌。但是,通過在線學習平臺對學習過程的記錄,輔導教師了解課程的教學過程是可能的,而且基于學習過程記錄開展在線教學的反思以不斷改進在線教學這一做法也是必要的。一文獻探討
“教學反思”,顧名思義,反思對象就是教學過程,反思的基礎是對教學過程的忠實記錄。波斯納(Poser)將教師的成長發展與其對自己經驗的反思結合起來,提出了一個教師成長的公式:經驗+反思=成長。由此可見反思對教師成長以及專業發展的重要性。
教學反思的方法是多樣的。王映學、趙興奎指出教學反思的途徑主要有錄像反思、日記反思、從學習者角度反思、與同事及專家的交流中反思以及通過向學生征詢意見反思。張大均將教師成長的途徑從觀摩教學、微格教學、教學決策訓練和教學反思幾個方面來說明。俞國良等則將教師的反思訓練列為錄像反思法、對話反思法和教學反思法。從上述方法中可以看到,教學反思的基礎是對教學過程的忠實記錄。在“日記反思法”中,第一步就是對教學中包含問題的教學事件進行詳細、忠實的描述。在“從學習者角度反思”中,第一步就是“簡要記下學習發生的時間、場合、涉及的學習內容和培訓(講授或主持)人員”。在微格教學法中,則通過錄像設備記錄教學全過程。
在信息化網絡時代,教師可以利用現代教育技術手段來實現教學過程的忠實記錄,進行有效的教學反思,從而更好地促進自身的專業發展。各種新的網絡技術工具給我們的生活帶來了新的便利,同時也為教師提供了新的教學反思工具。近年來興起的學習分析技術可以成為教師開展在線教學反思的有力工具。學習分析技術是對學生生成的海量數據進行解釋和分析,以評估學生的學術進展,預測未來的表現,并發現潛在的問題。對教師而言,學習分析技術可用來開展更為深入的教學分析,以便教師在數據分析的基礎上為學生提供更有針對性的教學干預。在線學習中,在線學習平臺詳細記錄了師生行為,猶如課堂教學錄像。借助學習分析技術,分析師生行為記錄數據,可以再現在線學習過程,使教師能夠把握在線教學過程全貌,并了解每個教學環節、重要教學活動以及每個學生的種種細節,使原本模糊的印象數字化、清晰化,輔助教師反思其在教學設計、資源制作、學習引導、學習評價等方面的可取之處與不足之處。
因此,本文選取基于Moodle平臺的在線課程為樣本,應用學習分析技術,具體包括話語分析、社會網絡分析等分析技術,統計分析與可視化、聚類、預測、關系挖掘、文本挖掘等數據挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分詞系統等工具,從一位輔導教師的視角,開展基于學習過程記錄的在線教學反思研究,探索一種全新的教學反思形式。
二 研究樣本
本文選取國家開放大學主辦的網絡教育從業人員培訓班為研究對象。該培訓班依托Moodle平臺開設(網址:http://),有“學生支持服務”、“在線學習輔導”和“在線課程設計”三門課,每門課的培訓時間為6周,學生通過Moodle平臺開展在線學習,輔導教師提供全程的在線輔導。本文具體選擇“在線學習輔導”課程第五期培訓班作為研究樣本。
三 數據分析與培訓反思
1 重溫整個教學過程――師生群體平臺訪問行為分析
通過對平臺模塊訪問、模塊訪問序列以及師生活動時間分布情況的分析,重新回顧教學過程,并對一些突出的數據表現加以解讀,使原本時空分離的師生活動再度整合,還原輔導教師的教學過程與學生學習過程的原貌。
(1)平臺模塊訪問總體情況
表l是該期培訓過程中,師生訪問Moodle平臺各模塊的頻次統計結果。
從統計結果可知,師生最常訪問的模塊是“forum”,占總活動頻次的近50%,說明課堂討論是最主要的學習活動,也是這門基于討論的探究式課程學習的突出特點。其次就是“wiki”、“resource”和“assignment”三類行為。這三類行為的頻次和比例較為平均,是位列“Forum”之后的重要學習活動。在討論的基礎上,課程設計中的“wiki”其實是為了給學生協作式小組學習的機會,是除“forum”外學生之間重要的交互空間。“resource”(瀏覽資源)是學習內容重要的組成部分,在此基礎上參加討論和wiki協作學習,最終的學習成果以“assignment”(小論文、大論文)的形式呈現。這幾個模塊的頻次和比例分配較為合理,較好地還原了教學過程。
(2)平臺模塊訪問序列分析
我們已經了解了不同模塊的訪問頻次,下面我們再來了解一些師生訪問平臺模塊的路徑。
這里采用Microsoft順序分析和聚類分析算法,數據來源則是用戶每天瀏覽課程頁面產生的過程數據。筆者選取5個頻繁訪問模塊包括forum、wiki、assignment,resource和user(course除外,因為在該模塊主要發生登錄行為,并沒有實際的學習行為)的數據來分析模塊訪問序列,得到如圖l所示結果。由圖l可知,從user、resource、assignment、wiki四個模塊跳轉到forum的條件概率均比較高(分別為0.40、0.32、0.26、0.16),可見forum是一個活動中心模塊,也是一個重要的活動中介模塊,諸如resource、assignment、wiki等活動可以從中再次啟動。而在由forum跳轉到其他模塊的情形中,forumresource的轉換組合的發生概率是最高的,達到0.06。在發帖參與討論的過程中,發現問題、深入思考再繼續學習相關資源,這符合學習常規,也形成了討論帶動資源的學習兩者之間的良性互動,從而實現深度學習和反思。另外,resource模塊對其他模塊的支撐作用還表現為assignmentresource,這一條件概率達到0.13,即學生在做作業的過程中要求助于資源模塊,這也是符合學習常規的。
(3)不同時期各模塊訪問特點
接下來結合時間維度,了解不同時期平臺各模塊訪問特點,以了解不同時期師生關注重點的變化。計算出本期培訓不同周此平臺模塊訪問頻次分布情況,并繪制師生在主要學習模塊的活動頻次占比隨時間分布的折線圖,得到如圖2所示結果。
從圖2可以看出,除高頻訪問模塊forum外,在正式學習開始前兩周及第1周,學生的訪問重點user模塊和resource模塊反映出學生在熟悉人和內容。這啟示我們,在網絡課程開始之前,輔導教師可能需要提前兩到三周就介入課程的學習,實時跟蹤學習進程,為他們提供相應的服務來進行預熱,這對于后面課程學習的順利發展和學生積極性的保持都很有幫助。進入第2周,開始主要的學習活動,主要模塊則是wiki以及forum。到第3周,wiki活動達到頂峰一一第3周出現本課程第一次wiki協作式小組學習活動,所以這時達到頂峰是正常的;另外,這些學生從沒有接觸過基于wiki的小組寫作式學習,所以他們有很強的好奇心和強烈的興趣參與。到第4周,assignment活動達到頂峰。這實際上是學生提交的第3周布置的assignment(小論文),這是本課程第一次提交assignment;課程結束后的三周,assignment模塊的活動逐漸增強,伴隨著resource模塊活動的增強,forum活動相對減弱,進入做作業(撰寫大論文)的狀態。
2 聚焦重點教學活動一一師生論壇交互分析
師生在論壇的討論發言是本課程的一項重點教學活動。通過這一活動,相關教學信息得以傳遞,各種其他教學活動得以依次展開,課程知識也在這里不斷呈現,支持服務也在這里相繼給出。
(1)師生交互的數量與內容
該課程討論活動在6個學習單元分散展開,本期培訓班發帖數量累計743個,如表2所示。由表2可知,輔導教師的發帖量基本呈緩慢下降的趨勢。從該趨勢我們可以看到,在第1周“學習指南”和第2周“第一單元:什么是在線輔導?”兩周的教學中,由于是在線教學的開始階段,輔導教師需要更多地引導學生進行討論,投入相對更多的時間。從第3周開始,數據顯示,輔導教師的發帖量開始有所減少,從將近50%的比例下降到40%左右。這是因為,經過前兩周的學習,由于輔導教師的有效引導,學生保持了較高的積極性,效果明顯。從第3周開始,輔導教師有意減少了發帖的量,注意留給學生更多的時間思考并參與討論,這時候學生明顯上升到了討論的主角這一角色,這說明輔導教師對于討論的把握和控制比較成功。
(2)師生交互發帖的內容
作者采用傅騫、魏順平等研發的術語提取算法從所發帖子中提取了約240個術語,如表3所示。這些術語的出現頻次為4909次(其中輔導教師使用976次,約占20%);在481個帖子中出現(其中教師帖為204個),占帖子總數的65%。從另外一個角度說,有1/3左右的帖子沒有出現任何術語。由此可見,論壇的主要功能是開展課程知識討論,次要功能則是激發并維持學生的學習動機,引導、鼓勵學生不斷參加學習。
在前10位術語中,“輔導”出現了3次,“在線(遠程)”出現了4次,這比較好地體現了本課程的特點,即在線學習輔導。而排在前兩位的是“輔導教師”和“電大”,這更能說明這次培訓的內容和對象的特點。無一例外,本次培訓的對象全部來自電大系統,所以他們對本系統是最關注的,另外他們對如何做好“輔導教師”也是最關心的,所以他們選擇了這門課。從這些術語可以看出,本期的討論比較成功,課程的設計也比較合理,能夠滿足學生的需求。
接著,作者對各單元使用的普通詞匯(包括動詞和名詞等實詞,不含虛詞,不含術語)使用頻次進行統計,以體現輔導教師的語言藝術和輔導特色。其中使用頻次排名前十的普通詞匯分別是“同學、加油、學生、謝謝、可以、學習、問題、課程、研究、討論”。“加油”和“謝謝”這兩個詞的大量使用反映了輔導教師為學生提供的情感支持。輔導教師時時刻刻不忘鼓勵、支持任何一位學生的發言和進步,處處對他們的討論表示感謝,無論發言是否精彩,無論對他們的觀點是否贊同,都通過“加油”和“謝謝”表示感謝。
(3)師生交互的動態過程與靜態結構
我們從師生交互發帖時間分布以及師生交互網絡分析來了解師生交互的動態過程與靜態結構。本培訓課程設有6個單元外加大論文指導環節(實際上是7個單元),計劃教學時間是6周,一個單元用時一周。理想情況下,學生應該在規定的學習時間內完成相應單元的活動,但事實并非如此。以每個單元的“話題討論”為例,某個單元的話題往往要持續3周才會真正結束。各單元討論活動隨時間分布情況如表4所示。
表4中帶*號的數字部分是在單元規定學習時間內的發帖數量,但是每個單元在規定學習時間后,在隨后的2至3周還陸續有帖子發出來。于是從第3單元開始,將會有3個單元的活動疊加在一起。出現這種疊加現象,可能較大程度上是由工學矛盾造成的。學生不能及時完成本周的學習活動,所以會往后拖延。其實,從學生的角度是可以理解的,這也要求我們的在線教學要有一定的靈活性。同時,也恰恰是在第3周開始出現第一個assgignment(小論文),學生的負擔開始加重。正是當“新債舊債”交織在一起的時候,出現了連鎖式疊加的現象。當然,這種現象也會無形中增加輔導教師的負擔。
根據輔導教師和學生發帖、回帖的關系,借助UCINET社會網絡分析工具,可繪制師生交互網絡圖,如圖3所示。從圖3可以看出,所有24個成員(包括輔導教師,如圖中編號為68的正方形節點)均在一個網絡中,不存在孤立的成員。
中圖分類號:R058 文獻標志碼:A 文章編號:1673-8454(2016)03-0094-03
一、引言
伴隨著大數據時代的到來,數據資源的承載形式、數量與類型都發生了巨大的變化,大數據同過去的海量數據有所不同,其基本特征可以用4個V來概括(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快。大數據技術是從各種各樣類型的巨量數據中,快速獲得有價值信息的技術,解決大數據問題的核心是大數據技術。“大數據”不僅指數據本身的規模,也包括采集數據的工具、平臺和數據分析處理系統。大數據最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息,所以大數據的分析方法在大數據領域就顯得尤為重要,是決定最終信息是否有價值的決定性因素。基于大數據的特點,大數據分析存在的方法理論通常包括如下幾個方面,如圖1所示。大數據時代獲取價值信息的難度增大,因此,對圖書館館員的專業級信息素質提出了更高的要求,館員需要學習和掌握數據采集、資源組織、統計分析和數據挖掘等多種大數據知識與技術,以便能為讀者提供高質量的信息服務和知識服務。信息素質(Information Literacy),是指明確信息需求、選擇信息源、檢索信息、分析信息、綜合信息、評估信息、利用信息的能力。信息素質的內涵包括4個方面――信息意識、信息能力、信息道德和終身學習的能力。信息素質是1974年由美國信息工業協會的會長Paul Zurkowski首先提出的,發展到今天,最為廣泛性的解釋是作為具有信息素質的人,必須具有一種能夠充分認識到何時需要信息,并且有能力有效地發現、檢索、評價和利用所需要的信息,解決當前存在問題的能力。
二、平臺架構方案
本平臺基于B/S模型,采用+SQL Server +IIS技術方案,充分結合主流的多層平臺架構技術,具備分布式、并發事務處理等能力,平臺架構模型如圖2所示,客戶端使用瀏覽器形式,因而不需要安裝特殊的客戶端軟件,使平臺在易用性、管理及運行等方面變得更為簡單、便捷,同時,平臺亦具有良好的可靠性、適應性和可移植性等特點。
三、平臺功能模塊構成
本平臺主要包括課程管理、測試管理、在線討論與留言管理、專家講座和用戶管理等5個主功能模塊,其中各功能模塊又下設多個子功能模塊,平臺功能結構如圖3所示:
(1)課程管理模塊:是平臺的核心功能模塊,包括課程管理、課件及資源下載、數據挖掘技術與工具、案例分析管理、多媒體視頻管理和常用術語等6個子功能。課程管理模塊使館員在有限的時間內,能自主地學習信息素質的基本知識,學會信息技術,提高信息服務能力。
課程管理模塊主要完成課程的展示、上傳、下載、修改、視頻在線實時點播和點擊量統計等任務。信息素質課程包括:數據采集、數據存取、基礎架構、數據處理、統計分析(差異分析、相關分析、T檢驗、偏相關分析、距離分析、回歸分析、曲線估計、因子分析、聚類分析、快速聚類法與聚類法、判別分析、多元對應分析或叫“最優尺度分析”、Bootstrap技術等)、數據挖掘(分類Classification、估計Estimation、預測Prediction、相關性分組或關聯規則Affinity Grouping or Association Rules、聚類Clustering、描述和可視化Description and Visualization)、復雜數據類型挖掘(Text、圖形圖像、視頻、音頻等)、模型預測、結果呈現(云計算、標簽云、關系圖)等類型。
課件及資源下載功能主要完成課程課件、教材、參考文獻和教學大綱等資源的顯示、上傳、下載等操作,模塊中集成了大量的培訓課程課件、數據庫的培訓課件以及第三方的培訓課件。
檢索知識與檢索技巧模塊主要包括檢索技術等相關文章的展示、上傳、下載和更新等任務。
案例分析管理主要完成典型案例的顯示、增加、修改、刪除和查詢等操作。
多媒體視頻管理包括教學視頻和專家講座視頻兩部分,平臺所支持的培訓視頻格式為.avi、.mp4、.flv和.rm等。
常用術語模塊包括各種信息知識和技術概念、重要人物、專有名詞、組織機構名稱縮寫以及英文對照等信息,館員可以利用術語表更順暢地進行學習。
(2)測試管理模塊:包括仿真練習和在線自我測試2個功能,用于館員對所學的信息知識和技術等進行課程復習、內容鞏固、知識擴展及自我測試;有助于館員了解自己信息素質的實際水平,并有針對性地專門強化某方面能力。
(3)留言、咨詢管理模塊:該模塊開拓了館員與教師之間進行交流的虛擬空間,通過該功能雙方可以通過同步或異步交流方式,實現信息交換和信息共享,是館員完成自主學習不可或缺的環節。
(4)專家講座模塊:模塊完成講座視頻的上傳、下載和播放等功能,講座主要包括數據庫的使用、檢索挖掘工具使用,專家講座有利于館員增加對熱點知識、前沿知識、處理技術及技巧的學習與掌握。
(5)用戶管理模塊:主要完成用戶的登錄管理、新用戶的注冊和密碼找回等功能。平臺中的用戶被分為館員、教師、專家和系統管理員四種類型,每種類型的用戶都具有不同的權限,查看、管理不同的功能模塊及其子模塊。平臺中的密碼均以密文形式保存,加強了平臺的安全性保障。
四、平臺核心模塊的實現
圖書館館員信息素質教育服務平臺的前臺主界面,如圖4所示,后臺管理界面如圖5所示。
課程管理模塊的實現:主要實現了課程和相關視頻的查看、上傳、下載、課程評價和點擊量統計等功能。這部分內容是經過精心設計、安排的,不但包括管理學的內容,例如管理學的經典案例分析、決策、預算、控制等課程內容,還包括信息檢索、重組、評價與利用等內容,主要培訓課程包括信息素質概論、信息檢索、數據挖掘、信息資源和信息評價與利用、大數據技術等,還包括如何查找期刊的影響因子,如何查找哪些期刊被SCI收錄,科技文獻類型有哪些、如何識別,如何查找哪些期刊被EI收錄,如何查找論文被引用的情況,如何查找各學科核心機構、科學家和研究熱點,如何查找全球學者信息,如何定期獲取所需某種期刊的目次信息,如何利用網絡學術交流平臺等檢索技術。前臺課程信息展示列表如圖6所示。
留言、咨詢管理功能模塊的實現:該功能是平臺的主要功能之一,實現了教師或專家與館員之間的答疑、討論等任務,通過該功能教師與館員能夠進行一對一的溝通與交流,同時該模塊還具有歷史記錄的增加、刪除、修改和查詢等操作功能。留言管理功能的留言板窗口如圖7所示:
五、平臺應用分析
信息素質教育服務平臺已成功進行相關系統測試,已與部署完成,運行狀況穩定,平臺性能表現良好。平臺的構建與應用給圖書館館員在信息服務工作中帶來了如下幾方面的益處:
(1)平臺的應用使圖書館館員學會了在大數據時代如何獲得各種各樣的信息源、如何有效地管理各種信息。
(2)平臺的應用使館員掌握了信息檢索的技巧與策略、信息倫理與科學道德等知識。
(3)平臺的應用提升了館員對信息的整體認知,拓寬了館員學習信息知識和技術的渠道,是集中信息素質教育培訓的有力補充。
(4)平臺的應用節省了館員學習的成本,突破了集中培訓的地域空間與時間上的限制,館員可以通過手機、電腦等終端設備進行自主學習,有效地提升了館員的信息素質。
(5)平臺的應用也方便了培訓課程、講座等信息的管理、查詢、統計和分析等工作。
六、結束語
圖書館館員信息素質教育服務平臺是集信息檢索知識及技巧、文獻寫作、信息能力自測、信息交流答疑于一體的信息服務空間。通過系統化的教學指導、大量的案例及講座視頻等讓館員學會專業級的信息檢索、采集、預處理,統計和分析、數據挖掘等大數據技術,以提高自身的信息素質、提升信息服務能力與水平。
參考文獻:
[1]黃麗霞,蔣永福,傅榮賢.基于新建構主義的高校信息素質教育模式研究[J].圖書情報工作,2014(7):35-39.
[2]崔雷,劉偉,閆雷,張晗,侯躍芳,黃瑩娜,張浩.文獻數據庫中書目信息共現挖掘系統的開發[J].現代圖書情報技術,2008(8):70-75.
[3]梁作明,張悅忍.大數據背景下高校圖書館的應對策略[J].中國管理信息化,2014(23):108-109.