久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

VFP技術在網頁數(shù)據(jù)采集中開發(fā)的方向分析

時間:2024-06-03 03:25:11 論文范文 我要投稿

VFP技術在網頁數(shù)據(jù)采集中開發(fā)的方向分析

  隨著信息技術對高校教育發(fā)展的變革,數(shù)字化資源建設在高校學習資源建設,構建學習型組織中扮演著重要角色。數(shù)字資源建設是滿足現(xiàn)代化教學所需的一項重要教學基礎資源,是學校、教師和學生進行學習,交流,分享,創(chuàng)新的重要原動力。各高校都把數(shù)字化資源建設當作重點工作開展。然而不少高校面臨著數(shù)字資源建設經費不足,除了購置外部資源外,同時也要內部開發(fā)一些數(shù)字資源。對于數(shù)字資源的建設,各高校的數(shù)字資源建設有共性需求,也有個性的需求,并非外部采購能夠解決。在這樣的前提下,筆者嘗試運用Visual FoxPro(以下簡稱VFP)技術構建可采集網頁數(shù)據(jù)的系統(tǒng),用以采集無版權問題的在線學習資源,將不同來源的學習資源匯聚于同一數(shù)據(jù)庫,來構建主題數(shù)字資源庫。

  1、高校數(shù)字化資源采集需要VFP技術

  1.1 滿足基礎服務需求的角度選型

  從提供基礎服務角度看,選用何種技術進行開發(fā)首先是從需求出發(fā),是否能滿足實際工作需要,系統(tǒng)是否能運行穩(wěn)定、高效。而不僅僅是追求先進性。并非最先進的就是最能滿足需要的。筆者進行的數(shù)據(jù)采集只是數(shù)字資源建設前期的數(shù)據(jù)整理階段的階段性的工具,在時間節(jié)點范圍能能夠滿足高校對數(shù)據(jù)的抓取工作。因此,在需求明確導向前提下,用最經濟的手段來實現(xiàn)基礎服務的穩(wěn)定和高效運行是最合理的。VFP兼有開發(fā)工具和數(shù)據(jù)庫兩方面特征,能夠做到與操作與數(shù)據(jù)的無縫銜接,在前期的數(shù)據(jù)采集與整理上完全能夠滿足用戶需求。

  1.2 存量用戶與技術衍生性

  VFP數(shù)據(jù)庫在過去十年中在高校的普及應用率較高,不少教學服務部門的管理系統(tǒng)都是基于VFP開發(fā)的,如不少高校的教務系統(tǒng),學工系統(tǒng)都是基于VFP開發(fā)等。因此,高校中的VFP存量用戶較多,在新系統(tǒng)建設中,首先要考慮的系統(tǒng)對接的兼容性,后續(xù)增加的系統(tǒng)最好能和之前的系統(tǒng)能夠無縫對接。而且,由于VFP的簡單易學,在系統(tǒng)使用和維護中,不少老師也逐漸摸索、學習,逐漸掌握了 VFP的基礎開發(fā)技能。因此,VFP來開發(fā)數(shù)據(jù)采集系統(tǒng)是一個可以被應用環(huán)境接受和用戶認可的工具。

  1.3 VFP自身的技術優(yōu)勢

  VFP是開發(fā)工具同時其本身也是數(shù)據(jù)庫。VFP數(shù)據(jù)庫發(fā)展到現(xiàn)在已經相當成熟,VFP系統(tǒng)小巧,相比Oracle等數(shù)據(jù)庫,其不會占用太多的存儲空間。相比其他數(shù)據(jù)庫,VFP的應用程序開發(fā)的效率較高,相比一些開發(fā)語言,VFP本身強大的查詢功能。所以VFP是集開發(fā)和數(shù)據(jù)庫的綜合體,簡單易學,操作靈活。同時,VFP互操作性和對網絡支持性較強。

  2、網頁數(shù)據(jù)采集系統(tǒng)設計

  2.1 VFP技術介紹

  VFP是Microsoft公司推出的數(shù)據(jù)庫開發(fā)軟件,提供多種可視化編程工具,最突出的是面向對象編程。支持結構化查詢語言(SQL)命令和函數(shù)。由于其函數(shù)豐富、靈活方便、問世較早,在國內一段時期廣為流行。目前最新的版本是9.0。時至今日,由于其穩(wěn)定高效、易學易用,仍有大批高校將其作為小型數(shù)據(jù)庫使用,不少網絡教學管理系統(tǒng)前臺軟件也選用VFP開發(fā)。

  2.2 系統(tǒng)設計目標

  我們將VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)應用于學校數(shù)字化資源建設子項目——開源版權的學習視頻內容的采集,具體來說,是針對國外多所名校提供的開源版權視頻源網址進行分析和數(shù)據(jù)爬取,最終將開源版權的文字和視頻數(shù)據(jù)提取、索引并保存入學校的資源庫。

  2.3 系統(tǒng)功能結構

  VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)采用了模塊化的設計,它由一些核部件和插件模塊構成。核心部件可以配置,系統(tǒng)部件由管理控制臺、抓取順序控制器、中央控制器、流控制處理器、多線程控制組成。管理控制臺允許操作者進行參數(shù)設置和任務管理。抓取順序控制器控制爬取活動的排序和相關屬性。抓取任務通過排序后將任務信息傳遞給中央控制器進行初始化。中央控制器吞吐隊列的URL信息和完成的URL 信息,并將任務指令傳遞給采集工作的核心工作區(qū)——流控制處理器。核流控制處理器的任務處理是呈流式運作的,包括預讀、提取和寫入三個部分。流控制處理器的工作是多線程了,保證了整個采集的高效率。

  在采集的核心工作區(qū)——在流控制處理器中,工作的流程是這樣的:首先在接到中心控制器傳送來的隊列URL后,開始預讀,預讀主要是做一些預處理工作,對處理進行延遲和重新處理。接著,進行提取工作,提取主要是獲得http資源,進行ip轉換,發(fā)出http頭請求和接收響應,進而抽取目標HTML的標簽。最后進行寫入,寫入的工作是存儲爬取日志,返回爬取到的內容和抽取特性,過濾并作寫存儲的動作。這一流程完成后,流控制處理器會提交完成的URL給中央控制器,做最后的維護。

  3、系統(tǒng)實現(xiàn)

  3.1 程序運行的硬件環(huán)境

  操作系統(tǒng)為Microsoft Windows XP或更高,內存為1G或更高,硬盤占用約230MB,數(shù)據(jù)爬取采用4MB ADSL寬帶。

  3.2 核心程序節(jié)錄

  3.3 實驗結論

  我們將VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)應用于學校數(shù)字化資源建設子項目——開源版權的學習視頻內容的采集,針對國外多所名校提供的開源版權視頻源網址進行分析和數(shù)據(jù)爬取,并測試VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)的性能,為后續(xù)的改進提供測試。我們確立四個指標,從數(shù)據(jù)采集的正確率、召回率、覆蓋率和程序效率四個方面進行測試。正確率是指VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)能否正確的提取URL,正確率越高,爬取的效果越好;召回率是指程序爬蟲探測到的數(shù)據(jù)與能夠爬取回來的數(shù)據(jù)的比值,召回率越高,爬蟲的效果越好。覆蓋率是指對指定網站采集的覆蓋率,覆蓋率要全;程序的效率是說VFP開發(fā)的網頁數(shù)據(jù)采集系統(tǒng)采集的速度和穩(wěn)定性。經過全天24小時無故障,不間斷的運行,累計采集網頁數(shù)據(jù)300多萬頁。數(shù)據(jù)采集的正確率、召回率、覆蓋率和程序效率均得到理想的效果。

  4、結束語

  本文闡述了一個基于VFP技術的網頁數(shù)據(jù)采集爬蟲的一種工作流程和爬行算法,從鏈接和網頁內容的分析和提取進行爬行控制,給出了具體實施的核心程序,測試結果比較滿意;赩FP技術的網頁數(shù)據(jù)采集系統(tǒng)本身雖然屬于輕量級,但針對高校數(shù)字化資源建設的需求現(xiàn)狀,本文提出解決方案經過證明,能夠高效的完成網頁數(shù)據(jù)采集,是一種經濟、實用、穩(wěn)定和高效的網頁數(shù)據(jù)采集方案。其對高校的數(shù)字化資源建設起重要作用。但是本系統(tǒng)的性能仍需提高,尤其在URL的優(yōu)先權選擇上需要進一步改進。

  參考文獻:

  [1]張敏,孫敏.基于Heritrix限定爬蟲的設計與實現(xiàn)[J].計算機應用與軟件,2013,30(4):33-35.

  [2]王永國,張士江,謝倩.基于Visual FoxPro環(huán)境ACCESS數(shù)據(jù)庫操作的實現(xiàn)[J].計算機技術與發(fā)展,2011,21(1):95-99.

  [3]孫庚,馮艷紅,于紅,史鵬輝.一種基于Heritrix的網絡定題爬蟲算法——以漁業(yè)信息網絡為例[J].軟件導刊,2010,9(5):47-49.

  [4]王映,于滿泉,李盛韜,王斌,余智華.JavaScript引擎在動態(tài)網頁采集技術中的應用[J].計算機應用,2004,24(2):33-36.

  [5]馬愛芳,仲少云.基于VFP的資料室圖書管理系統(tǒng)的設計[J].現(xiàn)代情報,2004,(3):104-108.

【VFP技術在網頁數(shù)據(jù)采集中開發(fā)的方向分析】相關文章:

大數(shù)據(jù)技術在網絡營銷中的策略研究論文01-23

員工培訓與開發(fā)方向開題報告05-04

XML技術在網絡招生中的應用03-29

試論基于數(shù)據(jù)挖掘技術的保護設備故障信息管理與分析系統(tǒng)12-05

市場營銷在網絡經濟中的研究分析12-11

企業(yè)能耗數(shù)據(jù)采集軟件的設計與開發(fā)論文02-21

數(shù)據(jù)挖掘與客戶關系管理分析02-28

數(shù)據(jù)挖掘技術在高校學生成績分析中的應用研究論文03-15

改進標號法在網絡計劃技術中的應用的論文03-17

  • 相關推薦