- 相關(guān)推薦
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究
[摘要]當(dāng)今互聯(lián)網(wǎng)擁有海量的數(shù)據(jù),如何對(duì)這些Web上的數(shù)據(jù)進(jìn)行挖掘提取有用的模式,輔助企業(yè)獲得成功,是一個(gè)刻不容緩的題目。本文對(duì)Web數(shù)據(jù)挖掘的基本內(nèi)容和相應(yīng)的技術(shù)作了先容,并對(duì)Web數(shù)據(jù)挖掘在電子商務(wù)中可應(yīng)用的范圍作了說(shuō)明。[關(guān)鍵字]Web數(shù)據(jù)挖掘、電子商務(wù)
引言
在電子商務(wù)領(lǐng)域,通過(guò)Web數(shù)據(jù)挖掘,不僅可以從大量多種多樣信息的Web頁(yè)面中提取出我們需要的有用的知識(shí),還可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí),用以改進(jìn)Web服務(wù)設(shè)計(jì)。更重要的是,通過(guò)對(duì)用戶特征的理解和分析,如對(duì)用戶訪問(wèn)行為、頻度、內(nèi)容等的分折,提取出用戶的特征,從而為用戶定制個(gè)性化的界面,有助于開(kāi)展有針對(duì)性的電子商務(wù)活動(dòng)。[1][2]
1.Web數(shù)據(jù)挖掘簡(jiǎn)介
當(dāng)今Web上存在著大量的數(shù)據(jù),獲取有用信息成為人們關(guān)注的焦點(diǎn)。但Web 是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,Web 頁(yè)面極其復(fù)雜。這樣就使得人們從成千上萬(wàn)的 Web 站點(diǎn)中找到有用的數(shù)據(jù)變得比較困難。于是,人們就越來(lái)越關(guān)注如何開(kāi)發(fā)和利用 Web 上的數(shù)據(jù)資源。
Web 數(shù)據(jù)挖掘就是解決上述題目的一個(gè)途徑。當(dāng)數(shù)據(jù)挖掘技術(shù)應(yīng)用于網(wǎng)絡(luò)環(huán)境下的 Web 中就成為 Web數(shù)據(jù)挖掘。 Web數(shù)據(jù)挖掘就是從 Web 文檔和 Web活動(dòng)中抽取感愛(ài)好的潛伏的有用模式和隱躲的信息。
Web挖掘可以分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘 [3]。Web內(nèi)容挖掘是用來(lái)提取文字、圖片或其他組成網(wǎng)頁(yè)內(nèi)容成分的信息;Web結(jié)構(gòu)挖掘是用來(lái)提取網(wǎng)絡(luò)的拓?fù)湫畔,即網(wǎng)頁(yè)之間的銜接的信息;Web使用挖掘是用來(lái)提取關(guān)于客戶如何運(yùn)用瀏覽器瀏覽和使用這些銜接的信息。
2.Web數(shù)據(jù)挖掘的技術(shù)先容
從電子商務(wù)的角度出發(fā),進(jìn)行Web上的數(shù)據(jù)挖掘,主要就是進(jìn)行客戶訪問(wèn)信息的挖掘,得到客戶端瀏覽行為和訪問(wèn)模式,從而找到有用的市場(chǎng)信息。在Web數(shù)據(jù)挖掘的模式發(fā)現(xiàn)中,常有以下幾種數(shù)據(jù)挖掘技術(shù)的使用:
2.1路徑分析:使用路徑分析技術(shù)進(jìn)行Web使用模式挖掘,最常用的就是網(wǎng)站結(jié)構(gòu)圖。它可以被用于判定在一個(gè) web 站點(diǎn)中最頻繁訪問(wèn)的路徑,還有一些其他的有關(guān)路徑的信息通過(guò)路徑分析可以得出,比如:70%的用戶端在訪問(wèn)/class/book2 時(shí),是從/class 開(kāi)始,經(jīng)過(guò)/class/new, /class/book,/class/book1,最后才到的/class/book2。這條規(guī)則說(shuō)明在/class/book2 頁(yè)面上有有用的信息,但由于客戶對(duì)站點(diǎn)進(jìn)行的是迂回繞行的訪問(wèn),所以這個(gè)有用信息并不明顯。假如這個(gè)頁(yè)面對(duì)網(wǎng)站來(lái)說(shuō)比較重要,可以通過(guò)此路徑分析改進(jìn)頁(yè)面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì),從使客戶更輕易的訪問(wèn)/class/book2。
2.2關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則主要關(guān)注事物內(nèi)的關(guān)系。在Web使用挖掘中,關(guān)聯(lián)規(guī)則挖掘就是挖掘出用戶在一個(gè)訪問(wèn)期間從服務(wù)器上訪問(wèn)的頁(yè)面/文件之間的關(guān)系,找出在某一次服務(wù)器會(huì)話中最經(jīng)常一起出現(xiàn)的相關(guān)畫面。例如,40%的客戶再購(gòu)買了CD之后又購(gòu)買了CD清潔劑。利用挖掘出來(lái)的這些相關(guān)性,我們可以更好的組織站點(diǎn),實(shí)施有效的市場(chǎng)策略。
2.3序列模式:序列模式挖掘就是挖掘出交易集之間有時(shí)間序列關(guān)系的模式,在Web日志中發(fā)現(xiàn)所有滿足用戶規(guī)定的最小支持度的大序列模式。序列模式的發(fā)現(xiàn)就是在時(shí)間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一個(gè)項(xiàng)”的內(nèi)部事務(wù)模式。例如:在/class/book1上進(jìn)行過(guò)在線定購(gòu)的顧客,有60%的人在過(guò)往15天內(nèi)也在/class/bag1處下過(guò)訂單。發(fā)現(xiàn)序列模式能夠便于進(jìn)行電子商務(wù)的組織猜測(cè)客戶的訪問(wèn)模式,對(duì)客戶開(kāi)展有針對(duì)性的廣告服務(wù)。通過(guò)系列模式的發(fā)現(xiàn),能夠在服務(wù)器方選取有針對(duì)性的頁(yè)面,以滿足訪問(wèn)者的特定要求。
2.4分類規(guī)則:分類技術(shù)主要是根據(jù)用戶群的特征挖掘用戶群的訪問(wèn)特征。在Web數(shù)據(jù)挖掘中,分類規(guī)則的發(fā)現(xiàn)就是給出識(shí)別一個(gè)特殊群體的公共屬性的描述,這個(gè)描述可以用來(lái)分類新的項(xiàng),例如:在/class/book2 進(jìn)行過(guò)在線定購(gòu)的顧客中有 55%是20-30歲生活在南方的年輕人。得到這一分類后,就可以進(jìn)行適合這一類客戶的商務(wù)活動(dòng)。
2.5聚類:聚類技術(shù)是對(duì)符合某一訪問(wèn)規(guī)律特征的用戶進(jìn)行用戶特征挖掘。聚類分析可以從 Web 訪問(wèn)信息數(shù)據(jù)中聚集出具有相似特性的那些客戶。在 Web 事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng)能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)戰(zhàn)略。這種市場(chǎng)戰(zhàn)略包括:自動(dòng)給一個(gè)特定的顧客聚類發(fā)送銷售郵件,為一個(gè)顧客聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)等。 3.在電子商務(wù)中的應(yīng)用先容
盡管Web挖掘的形式和研究方向?qū)映霾桓F,但隨著電子商務(wù)的興起和迅猛發(fā)展,未來(lái)Web挖掘的一個(gè)重要應(yīng)用方向?qū)⑹请娮由虅?wù)系統(tǒng)。而與電子商務(wù)關(guān)系最為密切的是Web訪問(wèn)信息挖掘。下面是Web訪問(wèn)信息挖掘在電子商務(wù)中的幾點(diǎn)具體的應(yīng)用。
3.1發(fā)現(xiàn)潛伏客戶:在對(duì)Web的客戶訪問(wèn)信息的挖掘中,利用分類技術(shù)可以在Internet上找到未來(lái)的潛伏客戶。通常的策略是先對(duì)己經(jīng)存在的訪問(wèn)者進(jìn)行分類,對(duì)于一個(gè)新的訪問(wèn)者,通過(guò)在Web上的分類發(fā)現(xiàn),識(shí)別出這個(gè)客戶與己經(jīng)分類的老客戶的一些公共的描述,從而對(duì)這個(gè)新客戶進(jìn)行正確的分類。然后從它的分類判定這個(gè)新客戶是屬于有利可圖的客戶群,還是屬于無(wú)利可圖的客戶群,決定是否要把這個(gè)新客戶作為潛伏的客戶來(lái)對(duì)待。客戶的類型確定后,就可以對(duì)客戶動(dòng)態(tài)地展示W(wǎng)eb頁(yè)面,頁(yè)面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品和服務(wù)之間的關(guān)聯(lián)。
3.2提供優(yōu)質(zhì)個(gè)性化服務(wù):對(duì)客戶來(lái)說(shuō),傳統(tǒng)客戶與銷售商之問(wèn)的空間間隔在電子商務(wù)中己經(jīng)不存在了。在網(wǎng)上,每一個(gè)銷售商對(duì)于客戶來(lái)說(shuō)都是一樣的,那么如何使客戶在自己的銷售站點(diǎn)上駐留更長(zhǎng)的時(shí)間,對(duì)銷售商來(lái)說(shuō)將是一個(gè)挑戰(zhàn)。為了達(dá)到這一目的,就應(yīng)該了解客戶的瀏覽行為,知道客戶的愛(ài)好及需求所在,動(dòng)態(tài)地調(diào)整Web頁(yè)面,以滿足客戶的需要。通過(guò)對(duì)客戶訪問(wèn)信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的愛(ài)好及需求。
3.3 改進(jìn)站點(diǎn)設(shè)計(jì):對(duì)Web站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可從三方面來(lái)考慮:(1)通過(guò)對(duì)Web Log的挖掘,發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的相關(guān)性,從而對(duì)密切聯(lián)系的網(wǎng)頁(yè)之間增加鏈接,方便用戶使用。(2)利用路徑分析技術(shù)判定在一個(gè)Web站點(diǎn)中最頻繁的訪問(wèn)路徑,可以考慮把重要的商品信息放在這些頁(yè)面中,改進(jìn)頁(yè)面和網(wǎng)站結(jié)構(gòu)的設(shè)計(jì),增強(qiáng)對(duì)客戶的吸引力,進(jìn)步銷售量。(3)通過(guò)對(duì)Web Log的挖掘,發(fā)現(xiàn)用戶的期看位置。假如在期看位置的訪問(wèn)頻率高于對(duì)實(shí)際位置的訪問(wèn)頻率,可考慮在期看位置和實(shí)際位置之間建立導(dǎo)航鏈接,從而實(shí)現(xiàn)對(duì)Web站點(diǎn)結(jié)構(gòu)的優(yōu)化。
3.4聚類客戶:通過(guò)把具有相似瀏覽行為的客戶分為一組,并分析組中客戶的共同特征,可以幫助電子商務(wù)的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務(wù)。如有一些客戶都花了一段時(shí)間瀏覽“房屋裝修”,“家具”頁(yè)面,經(jīng)過(guò)分析這些客戶被聚類成為一組。銷售商根據(jù)分析出來(lái)的聚類信息,就可以知道這是一組“新購(gòu)房族”客戶,對(duì)他們所進(jìn)行的業(yè)務(wù)活動(dòng)當(dāng)然也就不可能等同于其他被聚類了的客戶如“大學(xué)生”,“購(gòu)車族”,應(yīng)及時(shí)調(diào)整頁(yè)面及頁(yè)面內(nèi)容使商務(wù)活動(dòng)能夠在一定程度上滿足客戶的要求,使商務(wù)活動(dòng)對(duì)客戶和銷售商來(lái)說(shuō)更具意義。
3.5 搜索引擎的應(yīng)用:通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類和分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過(guò)用戶使用的提問(wèn)式歷史記錄分析,可以有效地進(jìn)行提問(wèn)擴(kuò)展,進(jìn)步用戶的檢索效果(查全率、查準(zhǔn)率);通過(guò)運(yùn)用 Web 挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,可以進(jìn)步網(wǎng)絡(luò)信息的標(biāo)引正確度,改善檢索效果。
3.6 網(wǎng)絡(luò)安全:分析網(wǎng)上銀行、網(wǎng)上商店交易用戶日志,可以防范黑客攻擊、惡意詐騙。
參考文獻(xiàn):
[1].韓家煒,孟小峰,王靜等.Web挖掘研究[J].計(jì)算機(jī)研究與友展.200 1,3H (4):405-414.
[2].郝先臣,張德干,尹國(guó)成等.基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究[J],小型微型計(jì)算機(jī)系統(tǒng),2001, 22 ( 7 ):785-788.
[3].Han J,Kamber M.Data Mining:Concepts and Techniques[J].San MateoCA:Morgan Kaufmann,2000
【Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究】相關(guān)文章:
網(wǎng)絡(luò)經(jīng)濟(jì)數(shù)據(jù)挖掘在工商管理中的應(yīng)用論文07-29
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18
語(yǔ)言藝術(shù)在英語(yǔ)文學(xué)中的應(yīng)用研究論文09-23
價(jià)值管理在現(xiàn)代企業(yè)管理中的應(yīng)用研究論文04-30
民間繪畫色彩在現(xiàn)代藝術(shù)設(shè)計(jì)中的應(yīng)用研究論文09-23
談智能決策支持系統(tǒng)及其在林業(yè)中的應(yīng)用研究08-21
淺析貝葉斯網(wǎng)絡(luò)在自適應(yīng)超媒體系統(tǒng)中應(yīng)用研究05-29