久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

基于WEB文本挖掘的統(tǒng)計(jì)分析VB+ACCESS

  • 相關(guān)推薦

基于WEB文本挖掘的統(tǒng)計(jì)分析VB+ACCESS

畢業(yè)論文

基于WEB文本挖掘的統(tǒng)計(jì)分析
---用戶(hù)興趣建模與中文網(wǎng)頁(yè)自動(dòng)分類(lèi)
 
摘  要  本文介紹了運(yùn)用Web文本挖掘技術(shù),在Windows平臺(tái)上實(shí)現(xiàn)用戶(hù)興趣建模和智能網(wǎng)頁(yè)推薦系統(tǒng)的方法和過(guò)程。首先簡(jiǎn)要介紹了目前國(guó)內(nèi)外的研究動(dòng)態(tài)和水平,然后介紹了興趣模型的相關(guān)知識(shí),主要包括:web文本挖掘的分類(lèi),web文本挖掘的靜態(tài)和動(dòng)態(tài)統(tǒng)計(jì)分析,興趣模型的發(fā)現(xiàn)與建立,用戶(hù)興趣模型的獲得與實(shí)現(xiàn),中文分詞技術(shù)等內(nèi)容。在簡(jiǎn)單介紹現(xiàn)有算法的基礎(chǔ)上,經(jīng)過(guò)實(shí)踐調(diào)查統(tǒng)計(jì),根據(jù)課題的需要和實(shí)際情況,提出1種相對(duì)簡(jiǎn)單的用戶(hù)興趣模型的建立和實(shí)現(xiàn)的方法。并用VB 6.0 和Access 2003實(shí)現(xiàn)了相關(guān)功能。

關(guān)鍵詞: Web文本挖掘; 網(wǎng)志分析;統(tǒng)計(jì)分析;用戶(hù)興趣模型; 中文分詞
 
Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify
 
Abstract  In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords:Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split

 
目  錄
1 前  言 1
1.1 課題背景 1
1.2 國(guó)內(nèi)外研究動(dòng)態(tài)和水平 1
1.3 本文的主要工作 2
1.4 課題研究的意義 3
1.5 論文的大致結(jié)構(gòu) 3
2 WEB文本挖掘 4
2.1 數(shù)據(jù)挖掘 4
2.1.1 WEB挖掘的概述及分類(lèi) 4
2.1.2 Web 挖掘的任務(wù) 5
2.1.3 Web數(shù)據(jù)挖掘幾個(gè)步驟 6
2.1.4 Web數(shù)據(jù)挖掘的分類(lèi) 7
2.2 WEB 文本挖掘 9
3 興趣模型的發(fā)現(xiàn)與建立 11
3.1 現(xiàn)有算法介紹 11
3.1.1 用戶(hù)主動(dòng)提供 11
3.1.2 相關(guān)反饋 12
3.1.3 現(xiàn)有興趣發(fā)現(xiàn)算法的缺陷 13
3.2 靜態(tài)和動(dòng)態(tài)相結(jié)合的方法 13
3.2.1 Web訪問(wèn)動(dòng)機(jī)的靜態(tài)分析 14
3.2.2 Web訪問(wèn)動(dòng)機(jī)的動(dòng)態(tài)分析 17
3.3 結(jié)論與模型的建立 17
3.3.1 根據(jù)隱式反饋[6]建立和更新用戶(hù)興趣模型 17
4 用戶(hù)興趣模型獲得與實(shí)現(xiàn) 22
4.1 COOKIES 22
4.1.1 Cookies的概述及屬性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威脅 24
4.1.4 Cookies的作用 25
4.2 收藏夾分析 26
4.1.1 獲取 “收藏夾”文件 26
4.1.2 收藏夾的目錄結(jié)構(gòu) 28
4.1.3 如何分析網(wǎng)志中的頁(yè)面 28
4.3中文分詞技術(shù)介紹 30
4.3.1 中文分詞和對(duì)興趣收集的重要意義 30
4.3.2 CSW 5.0 中分詞組件簡(jiǎn)介 32
4.3.3本系統(tǒng)調(diào)用CSW5. DLL 示例 33
4.4 VB中的鉤子 34
4.4.1 鉤子的概述和分類(lèi) 34
4.4.2 VB中鉤子的實(shí)現(xiàn) 36
5 中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù) 38
5.1 文檔自動(dòng)分類(lèi)算法的類(lèi)型 38
5.2 實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的1般過(guò)程 39
5.3 影響自動(dòng)分類(lèi)的關(guān)鍵因素 40
5.3.1 分類(lèi)體系 40
5.3.2 特征提取 41
5.3.3 分類(lèi)算法介紹 41
6 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 42
6.1系統(tǒng)可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4進(jìn)行可行性研究的方法 42
6.1.5設(shè)備 42
6.1.6 局限性 43
6.1.7 技術(shù)條件方面的可行性 43
6.1.8 社會(huì)因素方面的可行性 43
6.1.9 結(jié)論 43
6.2需求分析 43
6.2.1任務(wù)概述 43
6.2.2需求規(guī)定 44
6.2.3 數(shù)據(jù)管理 45
6.2.4 故障處理要求 45
6.2.5 運(yùn)行環(huán)境規(guī)定 45
6.3總體設(shè)計(jì) 45
6.3.1 系統(tǒng)實(shí)現(xiàn)方案 45
6.3.2 功能模塊分解 45
6.3.3 數(shù)據(jù)庫(kù)設(shè)計(jì) 46
6.4詳細(xì)設(shè)計(jì) 47
6.4.1 結(jié)構(gòu)程序設(shè)計(jì) 47
6.4.2 人機(jī)界面設(shè)計(jì) 53
6.5系統(tǒng)實(shí)現(xiàn) 53
7 結(jié)  論 54
致  謝 55
參考文獻(xiàn) 56
附錄1 CSW 5.0分詞軟件DLL介紹 57
附錄2 漢語(yǔ)詞性對(duì)照表[北大標(biāo)準(zhǔn)/中科院標(biāo)準(zhǔn)] 61
附錄3 部分程序源代碼 63

 
1 前  言
1.1 課題背景
    近年來(lái),Internet的網(wǎng)絡(luò)和應(yīng)用都在以驚人的速度在發(fā)展。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2003年1月公布的中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r的統(tǒng)計(jì)數(shù)據(jù),在中國(guó),上網(wǎng)計(jì)算機(jī)總數(shù)達(dá)到2083萬(wàn),上網(wǎng)用戶(hù)總數(shù)達(dá)到5910萬(wàn),WWW站點(diǎn)數(shù)約為371600個(gè)。而就全世界而言,上網(wǎng)用戶(hù)數(shù)達(dá)到數(shù)億。同時(shí),各種各樣的網(wǎng)絡(luò)應(yīng)用早己走進(jìn)各行各業(yè),尤其是遠(yuǎn)程教育、電子商務(wù)、搜索引擎等等。但是由于 Internet是1個(gè)開(kāi)放、分布的信息空間,它本身所固有的 3個(gè)特點(diǎn)己經(jīng)明顯地阻礙了人們充分地使用 Internet上的信息資源:[1](1) Internet上可利用的信息是無(wú)組織的,多種結(jié)構(gòu)形式的,并且分布在全世界的各個(gè)站點(diǎn)上;(2)數(shù)據(jù)和服務(wù)的類(lèi)型以及數(shù)量每天都在大量增加,因而信息可利用性和可靠性也在不斷地變化;(3)由于信息源的動(dòng)態(tài)性以及潛在的有用信息的更新和保存問(wèn)題,信息常常是模糊的:有時(shí)甚至是錯(cuò)誤的。由于上述原因,在 Internet上進(jìn)行信息檢索經(jīng)常會(huì)出現(xiàn)“信息過(guò)載”,即網(wǎng)上的信息是海量和無(wú)組織的,易發(fā)生“資源迷向”,即用戶(hù)不知道如何更加有效地利用資源等問(wèn)題。
    人們迫切需要1些智能的和個(gè)性化的工Internet系統(tǒng),能學(xué)習(xí)和了解用戶(hù)的興趣愛(ài)好,成為用戶(hù)的助手或秘書(shū),能幫助用戶(hù)從浩如煙海的工Internet信息中快速而準(zhǔn)確地搜索出他們感興趣的內(nèi)容:
能為用戶(hù)提供主動(dòng)的、最新的信息服務(wù)和推薦;能幫助用戶(hù)實(shí)現(xiàn)個(gè)性化的遠(yuǎn)程學(xué)習(xí)等。而這些系統(tǒng)的基礎(chǔ)都離不開(kāi)1個(gè) “個(gè)性化的用戶(hù)興趣模型”。
    電子商務(wù)(E-Business)發(fā)展到現(xiàn)在,它提供的高效和安全的服務(wù),讓人們體會(huì)到了Internet應(yīng)用的神奇。但是,電子商務(wù)服務(wù)提供商和用戶(hù)同時(shí)對(duì)它的提出了新的要求:如何才能象現(xiàn)實(shí)生活中的商家和客戶(hù)交流1樣,商家為客戶(hù)推薦適合其興趣愛(ài)好的商品和服務(wù),這在現(xiàn)實(shí)生活中,是靠商家與客戶(hù)的多次不同形式的交流達(dá)到的,然而,通過(guò)什么的途徑,能夠在Internet上,在商家與客戶(hù)沒(méi)有見(jiàn)面的環(huán)境下達(dá)到這1點(diǎn)呢。根據(jù)用戶(hù)顯式反饋的信息,進(jìn)行綜合整理,也許是1條途徑,但是這里面包含了太多的主觀和不確定因素。隱式反饋成了人們關(guān)注的焦點(diǎn),通過(guò)對(duì)用戶(hù)靜態(tài)的動(dòng)態(tài)的興趣體現(xiàn),通過(guò)統(tǒng)計(jì)分析得到用戶(hù)興趣,從而為用戶(hù)量身定制web服務(wù)和page推薦,當(dāng)然,這不可避免地涉及到個(gè)人隱私問(wèn)題。本課題就是在這樣的背景下提出來(lái)的。

【基于WEB文本挖掘的統(tǒng)計(jì)分析VB+ACCESS】相關(guān)文章:

基于WEB的在線考試系統(tǒng)03-09

基于Web服務(wù)的集成研究03-08

基于Web技術(shù)的網(wǎng)絡(luò)考試系統(tǒng)03-18

基于PHP的Web數(shù)據(jù)庫(kù)訪問(wèn)03-19

基于Web服務(wù)的短信網(wǎng)關(guān)設(shè)計(jì)03-26

基于聚類(lèi)分析的數(shù)據(jù)挖掘方法03-08

基于WEB的網(wǎng)絡(luò)考試系統(tǒng)ASP+SQL03-08

基于粗糙集的文本分類(lèi)研究03-03

基于Web的嵌入式數(shù)控系統(tǒng)實(shí)現(xiàn)03-07