久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

談聚類挖掘在電子商務中的應用

時間:2024-08-23 02:26:55 電子商務畢業(yè)論文 我要投稿
  • 相關推薦

談聚類挖掘在電子商務中的應用

摘 要:闡述了在電子商務系統(tǒng)中的研究和應用中,利用基于關聯(lián)規(guī)則的多層次、超圖分割聚類方法,對Web網(wǎng)頁和用戶進行有效聚類。該方法借助網(wǎng)站層次圖,可以根據(jù)實際需要,在各個層次上進行聚類分析,僅將高度相關的網(wǎng)頁和用戶聚在同一類,而將關聯(lián)性較小的網(wǎng)頁排除在聚類外。

關鍵詞: 聚類挖掘 電子商務 關聯(lián)規(guī)則 超圖
  
  由于Web具有方便、易用、高效的特點,電子商務顯示出越來越強大的生命力,同時各種商業(yè)Web站點也面臨越來越激烈的競爭。
  有效聚類Web用戶和網(wǎng)頁對改進網(wǎng)站質量、完善電子商務中產(chǎn)品銷售策略具有十分重要的意義。在電子商務中,瀏覽模式相似的用戶具有相似的購買習慣,通過聚類挖掘,將這些用戶聚集在同一類,可以制定相似的銷售策略。根據(jù)瀏覽模式聚集在同一類中的網(wǎng)頁,是大多數(shù)用戶共同訪問的網(wǎng)頁,在這些網(wǎng)頁之間建立超鏈接,以方便用戶使用。
  現(xiàn)有的基于瀏覽模式的Web聚類挖掘研究方法中,只要用戶請求了一個網(wǎng)頁,便認為用戶閱讀了該網(wǎng)頁,事實上有些被請求的網(wǎng)頁用戶并不關心,不會認真閱讀的。通常一個實用網(wǎng)站包含大量的網(wǎng)頁,現(xiàn)有的Web聚類方法將每個網(wǎng)頁當作一個被聚項,無論用戶訪問的頻繁與否,總是歸入一個類中,結果造成有些類中的網(wǎng)頁之間幾乎沒有相關性。
  鑒于以上考慮,本文提出了基于關聯(lián)規(guī)則和超圖分割的聚類Web網(wǎng)頁及用戶的方法,不僅考慮了用戶瀏覽網(wǎng)頁的時間長短,還考慮了聚類層次(級別),將不相關網(wǎng)頁項排除在聚類之外,使每個類中的網(wǎng)頁具有較高的相關性。采用這種方法,可以優(yōu)化Web站點拓撲結構,指導企業(yè)調整營銷策略,給客戶提供動態(tài)的個性化的高效率服務。
  
  一、建立電子商務網(wǎng)站的層次模型
  
  建立電子商務網(wǎng)站的層次模型出于三點考慮。第一,網(wǎng)站中網(wǎng)頁內容組織呈現(xiàn)樹狀結構。第二,在進行關聯(lián)規(guī)則挖掘過程中,可能最下一級挖掘不出達到指定Support的強規(guī)則,但是能從上級層次挖掘出達到指定Support的強規(guī)則,或根據(jù)實際需要在某一個層次進行聚類分析。第三,對于電子商務網(wǎng)站,有些用戶雖然訪問了某網(wǎng)頁,但是對其內容并不感興趣,可能只是掃一眼就放棄。在此情況下,不應該認為用戶認真閱讀了該網(wǎng)頁,所以應該記錄網(wǎng)頁的長度,通過計算用戶的瀏覽時間和網(wǎng)頁長度的比值來判斷用戶是否真正認真閱讀了該頁內容。
  層次模型采用樹狀結構來描述,節(jié)點的數(shù)據(jù)域包含對應網(wǎng)頁的層次名稱(編號)和網(wǎng)頁長度。樹根應該取所研究的網(wǎng)站根目錄(研究整個網(wǎng)站)或所研究的網(wǎng)站分支的最上層目錄。在建立層次模型時,應根據(jù)網(wǎng)站的具體情況決定采用的方法。通常情況下,網(wǎng)頁文件名能完全反映網(wǎng)頁所在的層次,可以采用完全自動方法進行轉換。
  
  二、基于關聯(lián)規(guī)則的聚類挖掘
  
  1.預處理
  在Web站點中,服務器日志文件記錄用戶的訪問方式、所訪問的頁面、訪問時間、用戶IP地址等信息,通過收集Web日志所記錄的用戶瀏覽信息可以對網(wǎng)頁和用戶聚類。首先要對收集到的數(shù)據(jù)進行預處理,獲得每個用戶所訪問的網(wǎng)頁序列。將一個用戶對某個特定網(wǎng)站的一次連續(xù)瀏覽(從登錄該網(wǎng)站一直到離開該網(wǎng)站)所訪問的網(wǎng)頁序列稱為一個用戶瀏覽事務。如果用戶中途訪問了另一網(wǎng)站,而后又返回該網(wǎng)站,返回后所瀏覽的網(wǎng)頁序列將組成另一個用戶瀏覽事務。處理后的事務序列將具有如下的形式:
  u_id(用戶標志編號),p_id(頁面編號)序列
  2.挖掘關聯(lián)規(guī)則并計算關聯(lián)規(guī)則可信度的平均值
  對經(jīng)過預處理的瀏覽事務進行關聯(lián)規(guī)則挖掘,挖掘出滿足一定支持度的關聯(lián)規(guī)則。關聯(lián)規(guī)則是在挖掘出頻繁網(wǎng)頁集的基礎上發(fā)現(xiàn)的,由于頻繁網(wǎng)頁集是大多數(shù)用戶在一個事務,即一次網(wǎng)站訪問中所共同瀏覽的頁面,所以頻繁網(wǎng)頁集反映了這些網(wǎng)頁或共同訪問這些網(wǎng)頁的用戶之間存在一定的聯(lián)系,如網(wǎng)頁內容高度相關。在進行聚類時,應該首先考慮將頻繁網(wǎng)頁集中的網(wǎng)頁聚合在一個類中。
  通常挖掘頻繁網(wǎng)頁集的方法是在給定某一支持度的基礎上進行的,滿足該給定支持度的一個頻繁網(wǎng)頁集中的網(wǎng)頁可能是另一個或另幾個頻繁網(wǎng)頁集中的元素,那么將這些網(wǎng)頁應該聚合到前一項目集還是后面的某一項目集?正確的選擇應該是看這些網(wǎng)頁和哪一項目集聯(lián)系更為密切,可采用的方案有兩種:提高支持度繼續(xù)挖掘頻繁網(wǎng)頁集直到每一網(wǎng)頁僅處于一個項目集或利用各頻繁網(wǎng)頁集中網(wǎng)頁之間關聯(lián)規(guī)則的可信度。進一步仔細分析,前一方案不可取,首先可能不存在一個支持度使每個網(wǎng)頁僅位于一個頻繁網(wǎng)頁集中;其次即使存在這樣一個支持度,再進行多次的頻繁網(wǎng)頁集挖掘代價也太高,實際中是不可行的。
  相比之下,后一方案可行度高,在挖掘出滿足指定支持度的頻繁網(wǎng)頁集的基礎上,可以較為方便地計算出每一個頻繁網(wǎng)頁集中的每個關聯(lián)規(guī)則的可信度?尚哦鹊拇笮∫卜从沉司W(wǎng)頁之間關聯(lián)的密切程度。為此,計算每個頻繁網(wǎng)頁集中所有的關聯(lián)規(guī)則的可信度,在此基礎上計算其所有關聯(lián)規(guī)則可信度的平均值,用可信度的平均值反映網(wǎng)頁與不同的頻繁網(wǎng)頁集之間聯(lián)系的密切程度。
  3.利用超圖進行網(wǎng)頁聚類
  超圖是對圖的擴充,允許一條邊連接三個或三個以上的點。每條邊帶有權的超圖稱為加權超圖,在挖掘出頻繁網(wǎng)頁集和關聯(lián)規(guī)則的基礎上,可以得到網(wǎng)站的加權超圖。超圖中的一個頂點代表一個網(wǎng)頁,超圖的邊稱為超邊,超邊連接的頂點是頻繁網(wǎng)頁集中的網(wǎng)頁。每個超邊的權取該邊所對應的頻繁網(wǎng)頁集中所有關聯(lián)規(guī)則可信度的平均值!
  上圖為超圖的示意圖,代表A,B和C所組成的頻繁網(wǎng)頁集的超邊的權值,0.7是A,B和C三個網(wǎng)頁所組成的所有關聯(lián)規(guī)則可信度的平均值。
  為了使聚集結果的每個類中的網(wǎng)頁具有高度相關性,超圖中僅包含出現(xiàn)在強關聯(lián)規(guī)則中的網(wǎng)頁。利用超圖進行聚類的方法是逐步切割超邊將超圖進行分割,分割成多個子超圖,分割的原則是被切割的超邊的權值和盡可能小,從而保證將相互關聯(lián)比較小的網(wǎng)頁分割在不同的子圖,而將關聯(lián)比較密切的網(wǎng)頁保留在同一子圖內。分割過程繼續(xù)進行直到被切割超邊的權值和與留下的超邊權值和的比值大于某一臨界值,或所得到的子超圖數(shù)目達到某指定值,分割過程結束,留下的各子超圖便是聚類的結果。每一個子超圖對應一個聚類,超圖中的各頂點代表該聚類中所包含的網(wǎng)頁。
  4.事務和用戶聚類
  在將網(wǎng)頁進行聚類的基礎上,可以將瀏覽網(wǎng)站的事務和用戶進行聚類。瀏覽事務聚類的原則是根據(jù)事務和網(wǎng)頁聚類的相似度進行,將事務聚合在相似度最高的網(wǎng)頁類中。事務和網(wǎng)頁類的相似度可以按照如下公式計算:
  |Tj∩Ci|/|Ci|
  其中,Tj為一個事務,Ci為一個聚類,|Tj∩Ci|為Tj和Ci中所包含的相同頁面的數(shù)目,|Ci|為Ci中所包含的頁面數(shù)目。
  在記錄網(wǎng)站用戶標志的情況下,可以通過用戶的瀏覽事務聚類將用戶進行聚類,即將訪問相似網(wǎng)頁的用戶聚在同一類。
  5.聚類挖掘結果的可視化
  聚類挖掘的結果是多維的,由于笛卡兒坐標系最多只有三個坐標,所以不能用通常的方法作圖。而且這

談聚類挖掘在電子商務中的應用

【談聚類挖掘在電子商務中的應用】相關文章:

談數(shù)據(jù)挖掘技術在電子商務中的應用03-21

Web數(shù)據(jù)挖掘在電子商務中的應用.03-21

數(shù)據(jù)挖掘在旅游電子商務中應用論文11-28

用戶訪問模式挖掘及在電子商務中的應用03-22

數(shù)據(jù)挖掘技術在電子商務網(wǎng)站中的應用03-28

Web數(shù)據(jù)挖掘在電子商務中的應用研究03-07

談數(shù)據(jù)挖掘在中醫(yī)學術流派研究中的應用03-19

Web結構挖掘在電子商務網(wǎng)站結構優(yōu)化中的應用03-21

數(shù)據(jù)挖掘在CRM中的應用分析03-22