- 相關推薦
網(wǎng)絡信息挖掘系統(tǒng)評價初探
【正文】
隨著電子商務的蓬勃興起,許多企業(yè)已經(jīng)開始意識到其所擁有的豐富的信息資源在商業(yè)決策中具有潛在的巨大商業(yè)價值。更好的決策支持需求和企業(yè)電子商務的開展正推動著網(wǎng)絡信息挖掘系統(tǒng)的研究與開發(fā)。
鑒于網(wǎng)絡信息挖掘是在數(shù)據(jù)挖掘的基礎上發(fā)展起來的,因此對于網(wǎng)絡信息挖掘系統(tǒng)的基本問題,本文仍將利用數(shù)據(jù)挖掘系統(tǒng)的基本理論來描述。
目前,由于網(wǎng)絡信息挖掘系統(tǒng)的發(fā)展正在起步階段,因此它的分類還無法達到數(shù)據(jù)挖掘系統(tǒng)分類那樣細致。具體而言,對網(wǎng)絡信息挖掘系統(tǒng)分類可以從商業(yè)能力、挖掘數(shù)據(jù)類型、挖掘功能、數(shù)據(jù)分析方法和應用領域角度進行。其中商業(yè)能力角度的分類與數(shù)據(jù)挖掘系統(tǒng)的商業(yè)能力分類完全相同,即分為商業(yè)產(chǎn)品和研究原型。而從另外幾個角度看,網(wǎng)絡信息挖掘系統(tǒng)的類型具有自身一些特點,例如從應用領域角度看,網(wǎng)絡信息挖掘系統(tǒng)可以分為面向電子商務型、面向遠程教育型、面向旅游型、面向廣告業(yè)型等。隨著網(wǎng)絡信息挖掘技術的進一步發(fā)展,將出現(xiàn)更加豐富的網(wǎng)絡信息挖掘系統(tǒng)類型。
1 系統(tǒng)評價現(xiàn)狀調(diào)查
據(jù)調(diào)查,目前國內(nèi)外還沒有出現(xiàn)完全針對網(wǎng)絡信息挖掘系統(tǒng)的評價成果,因而對網(wǎng)絡信息挖掘系統(tǒng)的評價具有一定的創(chuàng)新性。筆者認為,對網(wǎng)絡信息挖掘系統(tǒng)的評價可以充分地借鑒數(shù)據(jù)挖掘系統(tǒng)的評價方法。應該說這兩類系統(tǒng)在很多評價指標上都有重合。
從國外來講,1998年前后已經(jīng)有一些研究人員和機構對數(shù)據(jù)挖掘系統(tǒng)進行了一定的評價研究。他們所采用的評價體系各有特點,以下是一些簡要介紹。
1)J.F.Elder等人主要對17種數(shù)據(jù)挖掘系統(tǒng)進行了評價[1],其中包括了著名的Clementine、IntelligentMiner系統(tǒng)。這些系統(tǒng)具有以下共同的特點:單平臺(StandAlone)、多用途、支持多種模式和分類算法,并支持模式構建中的項目階段。他們主要從6大方面對這些系統(tǒng)進行比較,除此之外,他們還單獨從用戶端角度對數(shù)據(jù)挖掘系統(tǒng)性能進行評價。他們認為并非支持的算法越多越好,各種算法面對不同的問題其解決能力也是不同的,它們具有自身的優(yōu)點與缺點。在文章的最后,還對這17種產(chǎn)品的優(yōu)勢/劣勢作了總體的描述性評價。
2)M.A.King等人針對14種桌面型數(shù)據(jù)挖掘系統(tǒng)[2],重點對各個系統(tǒng)的特征和性能進行比較。他們選用了20個評價指標,并設計了一個標準的評價過程——6分制評分標準來評價各種軟件工具的優(yōu)點和缺點。他們評價的特色在于針對4種算法的產(chǎn)品分別評價,并采用4類數(shù)據(jù)集測試系統(tǒng)的性能。他們認為網(wǎng)絡法(PolynomialandNeural)要比分割法(TreesandRules)更精確,另外也提出可以加入計算機環(huán)境、數(shù)據(jù)庫連接性、提供商的穩(wěn)定性等指標進一步評價。
3)D.W.Abbott等人主要針對高端型(High-end)用于欺詐甄別的數(shù)據(jù)挖掘系統(tǒng)進行了評價[3]。盡管僅選擇了5個系統(tǒng)(Clementine、IntelligentMinerforMata、Darwin、En-terpriseMiner、PatternRecognitionWorkbench)進行評價,但是他們針對這5個專門應用于欺詐甄別的系統(tǒng)進行了細致的比較。
4)M.Goebel等人將數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)與數(shù)據(jù)挖掘結合到一起評價[4]。他們在介紹一般知識發(fā)現(xiàn)任務以及解決這些任務的方法基礎上,主要調(diào)查了43種提供這類功能的軟件工具。這些工具既包括研究的原型系統(tǒng),也包括已經(jīng)商業(yè)化的產(chǎn)品。其中有較為著名的Clementine、DBMiner、IntelligentMiner系統(tǒng)。他們采用了一個系統(tǒng)特征分類體系對上述產(chǎn)品進行比較,并提出一些尚待解決的問題:如不同技術的集成、可擴展性、與數(shù)據(jù)庫的無縫集成、對正在變化中的數(shù)據(jù)進行管理以及非標準的數(shù)據(jù)類型等問題。
5)J.Hah博士沒有針對個別的數(shù)據(jù)挖掘系統(tǒng)具體評價,但他認為評價一個數(shù)據(jù)挖掘系統(tǒng)應包括如下幾個方面[5]:數(shù)據(jù)類型、系統(tǒng)問題、數(shù)據(jù)源、數(shù)據(jù)控制的功能與方法、數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的結合、可伸縮性、可視化工具、數(shù)據(jù)挖掘查詢語言和圖形用戶接口。
6)A.Berson等認為數(shù)據(jù)挖掘軟件產(chǎn)品因為不同的目標用戶和不同類型的解決問題而具有不同的重點[6]。主要可以分為目標解決方案、商業(yè)工具、商業(yè)分析工具、研究分析工具4類。另外,從目前整個數(shù)據(jù)挖掘市場看也可以分成3個主要組成部分:通用的工具、綜合DSS/OLAP/數(shù)據(jù)挖掘工具和快速成長的面向特定應用的工具。他們還進一步提供了一套專門用于數(shù)據(jù)挖掘工具評價的屬性和方法,對11種具體的工具進行了評價,其中包括Clementine、IntelligentMiner等著名的工具。
從國內(nèi)來看,數(shù)據(jù)挖掘系統(tǒng)的評價研究不如國外活躍,這與數(shù)據(jù)挖掘系統(tǒng)在國內(nèi)的應用仍處于初步階段有直接關系。目前這方面的研究狀況如下。
朱愛群提出了一種高級記分卡系統(tǒng)[7],采用該記分系統(tǒng)有助于商業(yè)用戶更好地比較不同的數(shù)據(jù)挖掘技術,并以此作出正確的選擇。該系統(tǒng)共有3種不同的記分卡:商業(yè)記分卡、算法記分卡、應用記分卡。
從上述文獻的調(diào)查看,國內(nèi)外數(shù)據(jù)挖掘系統(tǒng)評價普遍具有的特點是:
1)重視系統(tǒng)算法能力的評價。在7個調(diào)查對象中,其中6個都明確采用了算法評價指標,特別是J.F.Elder、D.W.Abbott、朱愛群等人,對算法指標的分析尤為細致。
2)突出或者具有從商業(yè)能力角度的評價。朱愛群和A.Berson都明確提出采用商業(yè)能力指標,而其他研究者提供的從用戶端角度對系統(tǒng)易用性的評價實際上可以作為系統(tǒng)商業(yè)能力評價的一部分。
3)缺少對數(shù)據(jù)挖掘流程的評價。數(shù)據(jù)準備、數(shù)據(jù)預處理、數(shù)據(jù)建模、模型評估、模型應用等一系列步驟是幾乎每個數(shù)據(jù)挖掘系統(tǒng)所必須經(jīng)歷的,往往各種系統(tǒng)在每個階段表現(xiàn)的能力各有不同,因此有必要對過程中的每個階段進行評價。
4)缺少從應用能力角度的評價。從所有的調(diào)查對象中看,僅有國內(nèi)的一個評價提到了應用評價,而且其具體的指標并不是直接針對如保險業(yè)、零售業(yè)、電子商務等實際應用領域的。
由此可見,本文所要進行的網(wǎng)絡信息挖掘系統(tǒng)的評價應當積極吸取已有數(shù)據(jù)挖掘系統(tǒng)評價的優(yōu)點,同時結合網(wǎng)絡信息挖掘的特點來彌補評價中的不足。
2 評價系統(tǒng)的選擇
由于目前許多數(shù)據(jù)挖掘系統(tǒng)也同時提供網(wǎng)絡信息挖掘功能,因此本文所要評價的網(wǎng)絡信息挖掘系統(tǒng),一方面從一些著名的數(shù)據(jù)挖掘系統(tǒng)中選擇,一方面將參考KD-nuggets上有關網(wǎng)絡信息挖掘軟件的最新統(tǒng)計報道。
從文獻調(diào)查看[8],Int
【網(wǎng)絡信息挖掘系統(tǒng)評價初探】相關文章:
關于網(wǎng)絡教學評價要素初探02-23
網(wǎng)絡信息分類系統(tǒng)的詞匯控制03-28
信息網(wǎng)絡傳播權案初探03-24
學科信息門戶中網(wǎng)絡信息導航系統(tǒng)的規(guī)范建設12-08
信息系統(tǒng)環(huán)境下內(nèi)部控制評審內(nèi)容和方法初探03-21
電力企業(yè)網(wǎng)絡和信息安全管理初探論文11-13
基于XBRL技術的財務信息挖掘系統(tǒng)構建探討11-14
信息成本核算初探03-25