淺談基于web日志挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
論文關(guān)鍵詞:web日志挖掘 網(wǎng)絡(luò)教學(xué) 聚類
論文摘要:現(xiàn)有的網(wǎng)絡(luò)教學(xué)系統(tǒng),雖然自身信息量極其豐富,但教師對(duì)學(xué)生的學(xué)習(xí)情況缺乏了解,無法滿足學(xué)生個(gè)性化的學(xué)習(xí)需求。Web日志全面記錄學(xué)生網(wǎng)上學(xué)習(xí)的行為,是解決問題的有效方法,文章設(shè)計(jì)并實(shí)現(xiàn)了Web日志挖掘系統(tǒng),從中發(fā)現(xiàn)相似的學(xué)生群體,以及瀏覽興趣路徑,幫助教師及時(shí)調(diào)整站點(diǎn)結(jié)構(gòu)提供寶貴的建議參考。
一、引言
針對(duì)某課程的網(wǎng)絡(luò)教學(xué)系統(tǒng)網(wǎng)站的服務(wù)器上每天記錄了大量的學(xué)生網(wǎng)上學(xué)習(xí)的行為記錄的,通過對(duì)Web日志進(jìn)行挖掘可[1]以幫助任課教師了解哪些教學(xué)內(nèi)容學(xué)生比較感興趣,網(wǎng)站的使用情況,根據(jù)發(fā)現(xiàn)的信息對(duì)網(wǎng)站結(jié)構(gòu)進(jìn)行改進(jìn),以吸引更多的學(xué)生來進(jìn)行網(wǎng)上學(xué)習(xí),提高網(wǎng)站的服務(wù)效率。
二、系統(tǒng)需求分析
基于以上的目的,以某職業(yè)院校的某課程的網(wǎng)絡(luò)教學(xué)系統(tǒng)為研究對(duì)象,設(shè)計(jì)并實(shí)現(xiàn)了Web日志挖掘系統(tǒng),取得了較好的實(shí)驗(yàn)效果。系統(tǒng)主要是對(duì)該網(wǎng)絡(luò)教學(xué)系統(tǒng)的日志數(shù)據(jù)進(jìn)行采樣、預(yù)處理[2],然后運(yùn)用基于選擇路徑和瀏覽頁面的`聚類算法對(duì)處理后的數(shù)據(jù)進(jìn)行模式分析,獲得Web站點(diǎn)用戶的瀏覽興趣路徑和用戶聚類群。
三、系統(tǒng)功能模塊
系統(tǒng)的功能包含員和用戶兩部分。管理員主要是設(shè)置采樣時(shí)間、配置挖掘參數(shù),修改網(wǎng)站拓?fù)浣Y(jié)構(gòu)信息;用戶主要是實(shí)施Web日志挖掘,進(jìn)行用戶[3]識(shí)別、會(huì)話識(shí)別、事務(wù)識(shí)別、最后得到用戶瀏覽興趣路徑。
(一)管理員功能
管理員主要是該網(wǎng)站的建設(shè)者以及該課程的實(shí)訓(xùn)教師負(fù)責(zé)設(shè)置采樣時(shí)間、設(shè)置挖掘參數(shù)、添加網(wǎng)頁改變網(wǎng)站結(jié)構(gòu)。
1.設(shè)定采樣時(shí)間:實(shí)現(xiàn)從大量的Web日志數(shù)據(jù)中選取基于配置文件中的采樣時(shí)間段的日志數(shù)據(jù)的功能,并將獲取該時(shí)間段的日志數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。管理員通過修改配置文件更改采樣時(shí)間段(以天為單位)。
2.設(shè)置挖掘參數(shù):挖掘參數(shù)包括會(huì)話超時(shí)時(shí)間、選擇路徑興趣度所占的權(quán)重wr、瀏覽頁面興趣度所占的權(quán)重wn、瀏覽興趣[4]路徑使用的閾值。會(huì)話超時(shí)時(shí)間前人實(shí)驗(yàn)得到的經(jīng)驗(yàn)值為25.5分鐘,管理員可重新設(shè)定;選擇路徑興趣度所占權(quán)重與瀏覽頁面興趣度所占權(quán)重之和為1。默認(rèn)設(shè)定為wr=0.5,wn=0.5,可進(jìn)行更改。
3.調(diào)整網(wǎng)站拓?fù)浣Y(jié)構(gòu):包括調(diào)整頁面順序,添加新的頁面,刪除過時(shí)的頁面等。
(二)普通用戶功能
普通用戶主要指該課程的任課教師、學(xué)生以及該系部的教務(wù)員。
1.用戶識(shí)別:依據(jù)規(guī)則從日志中識(shí)別不同用戶,并保存用戶訪問信息。主要有2個(gè)規(guī)則:第一,不同的用戶名(UserID)代表不同的用戶;第二,不同的IP地址代表不同的用戶。
2.會(huì)話識(shí)別:根據(jù)會(huì)話識(shí)別規(guī)則,對(duì)用戶數(shù)據(jù)進(jìn)行會(huì)話識(shí)別,得到用戶一系列的會(huì)話數(shù)據(jù)。同時(shí)提供了基本的會(huì)話信息,如用戶的瀏覽路徑序列。會(huì)話識(shí)別后,將會(huì)話信息保存會(huì)話信息表中,以備事務(wù)識(shí)別使用。
3.事務(wù)識(shí)別:根據(jù)規(guī)則將用戶會(huì)話序列分割為事務(wù),并將事務(wù)序列信息存儲(chǔ)事務(wù)信息表中,作為用戶聚類的數(shù)據(jù)輸入。
4.用戶聚類:依照聚類算法,把所有用戶劃分為不同的用戶群,并將用戶群信息存入用戶群表中,作為系統(tǒng)的最終數(shù)據(jù)。
5.瀏覽興趣路徑:找出用戶瀏覽興趣模式,同時(shí)得到瀏覽興趣路徑的相關(guān)信息,包括瀏覽興趣路徑序列。
四、系統(tǒng)結(jié)果分析
實(shí)驗(yàn)以某職業(yè)院校網(wǎng)絡(luò)教學(xué)管理系統(tǒng)服務(wù)器上的日志為研究對(duì)象,搜集了8周的數(shù)據(jù),作為系統(tǒng)的測試用例。從實(shí)驗(yàn)結(jié)果中可以看到,瀏覽興趣路徑的長度一般不超過5。這就表示在設(shè)計(jì)教學(xué)網(wǎng)站時(shí)網(wǎng)站深度不要太深,避免給用戶訪問造成不便。從總體來看,學(xué)生瀏覽的路徑分為3大類,分別是查看作業(yè)、通知、課件。而教學(xué)大綱以及視頻查看的人寥寥無幾。本算法的執(zhí)行時(shí)間與網(wǎng)站的URL數(shù)目n有關(guān)系,它的時(shí)間復(fù)雜度為O(n2)。因此在該網(wǎng)站中當(dāng)不斷的增加新的頁面時(shí),算法的執(zhí)行時(shí)間也會(huì)隨之增加。當(dāng)網(wǎng)站的頁面數(shù)目超過20時(shí),該算法有待于進(jìn)一步驗(yàn)證。
參考文獻(xiàn):
[1]胡迎松,寧海霞.一種新型的Web挖掘數(shù)據(jù)采集模型[J].工程與科學(xué),2007,29(2):36-39
[2]陳峰.基于Web日志的用戶興趣聚類研究[D][碩士學(xué)位論文].合肥:合肥大學(xué),2008
[3]任曉霞.一種Web日志數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D][碩士學(xué)位論文].北京:北京郵電大學(xué),2008
[4]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖據(jù)理論與應(yīng)用[M].北京:清華大學(xué)出版社,北京大學(xué)出版社,2008
【淺談基于web日志挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)】相關(guān)文章:
1.網(wǎng)絡(luò)設(shè)計(jì)與管理簡歷范文
3.系統(tǒng)設(shè)計(jì)與分析個(gè)人簡歷表格
4.教學(xué)設(shè)計(jì)之廣告詞的賞析與寫作