統(tǒng)計數(shù)據(jù)專題庫的研究與設(shè)計分析
摘 要:著眼統(tǒng)計領(lǐng)域信息的發(fā)展趨勢,從建設(shè)統(tǒng)計專題數(shù)據(jù)的必要性、基本思路出發(fā),對統(tǒng)計領(lǐng)域?qū)n}數(shù)據(jù)庫建設(shè)的步驟、方法、應(yīng)用等進行闡述,并對統(tǒng)計數(shù)據(jù)專題庫的應(yīng)用等方面作了一些思考。
【關(guān)鍵詞】專題庫 統(tǒng)計 數(shù)據(jù)處理 數(shù)據(jù)應(yīng)用
Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.
Key words Thematic library statistical data processing data application
1 統(tǒng)計專題庫建設(shè)的必要性
統(tǒng)計部門應(yīng)用系統(tǒng)繁多,數(shù)據(jù)來源廣。在對數(shù)據(jù)進行使用時,一方面可能會出現(xiàn)不同系統(tǒng)中的相同指標數(shù)據(jù)矛盾的情況;另一方面,若涉及不同專業(yè),則需要協(xié)調(diào)的范圍、周期的難度都會明顯增大,數(shù)據(jù)的時效性和及時性都難以得到保障。而專題庫的建設(shè)將可有效的將歷史數(shù)據(jù)整合利用起來,以專業(yè)為邊界切割海量數(shù)據(jù),實現(xiàn)按專業(yè)的跨年度數(shù)據(jù)存儲,從而可進行更深價值的挖掘。
2 專題庫建設(shè)的步驟和方法
2.1 確定專題范圍
專題庫建設(shè)時,首先需要明確該專題的數(shù)據(jù)范圍,專題數(shù)據(jù)可來源于統(tǒng)計年鑒、專題匯報等文件以及聯(lián)網(wǎng)直報系統(tǒng)等應(yīng)用,緊密圍繞專題的業(yè)務(wù)本質(zhì)進行設(shè)定,如能源專題庫則應(yīng)該包括能源建設(shè)、能源生產(chǎn)、能源消費等內(nèi)容。
2.2 建立數(shù)據(jù)模型
根據(jù)對統(tǒng)計領(lǐng)域已有系統(tǒng)和基礎(chǔ)數(shù)據(jù)的分析,建立專題庫的數(shù)據(jù)模型。其元數(shù)據(jù)主要包括13類,其中9類為業(yè)務(wù)元數(shù)據(jù)(圖1)、4類為管理元數(shù)據(jù)(圖2)。
專題庫中最直接的為數(shù)據(jù),通過對9類業(yè)務(wù)元數(shù)據(jù)的分析可得知指標與數(shù)據(jù)關(guān)聯(lián)最為緊密,其他元數(shù)據(jù)均可通過指標與數(shù)據(jù)進行關(guān)聯(lián),通過分析和設(shè)計,可變?yōu)槿鐖D3所示的數(shù)據(jù)模型。
通過分析每個元數(shù)據(jù)本身的屬性,根據(jù)模型可得出每一數(shù)據(jù)應(yīng)包括60多個屬性,考慮數(shù)據(jù)存儲及專題庫的價值,逐一評估后給出需冗余的屬性,如下:ID、值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID、入庫時間戳、報送單位全稱、期別_起、期別_訖、指標全稱、目錄_ID、目錄條目名稱、分組1條目_ID 、分組2條目_ID 、分組3條目_ID 、分組4條目_ID 、分組5條目_ID 、分組6條目_ID 、分組7條目_ID、地域1級_ID 、地域2級_ID 、地域3級_ID、計量單位_ID、數(shù)據(jù)釋意全文。
其中,5個必須字段為值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID;2個管理字段為ID、入庫時間戳,以及18個冗余存儲字段。
2.3 確定數(shù)據(jù)來源
數(shù)據(jù)是專題庫的基礎(chǔ),所有的數(shù)據(jù)處理和分析都是建立在及時、準確、全面的數(shù)據(jù)之上,專題數(shù)據(jù)的來源主要包括以下幾個方面:
(1)通過聯(lián)網(wǎng)直報系統(tǒng)由企業(yè)、地方統(tǒng)計部門等按照制度報送周期的要求進行數(shù)據(jù)的報送;
(2)通過各專業(yè)司建立的信息上報系統(tǒng),由相關(guān)的企業(yè)(如房地產(chǎn)企業(yè)等)進行定期的數(shù)據(jù)報送;
(3)通過電子郵件、紙質(zhì)文件等由各部委辦局或地方統(tǒng)計局等將相關(guān)的數(shù)據(jù)進行匯總報送;
專題庫的建設(shè)將支撐不同的數(shù)據(jù)來源、不同類型數(shù)據(jù)的匯聚,并以統(tǒng)一的數(shù)據(jù)集合加以利用。
2.4 數(shù)據(jù)處理及存儲
當數(shù)據(jù)處理和存儲時需考慮數(shù)據(jù)的處理,包括輸入格式轉(zhuǎn)換、數(shù)據(jù)篩選、數(shù)據(jù)單位的轉(zhuǎn)化、數(shù)據(jù)的校驗、數(shù)據(jù)存儲等。
(1) 輸入格式轉(zhuǎn)換。不同的數(shù)據(jù)來源可能有不同的數(shù)據(jù)格式,系統(tǒng)將自動解析來源數(shù)據(jù)的格式,并轉(zhuǎn)換為系統(tǒng)的統(tǒng)一數(shù)據(jù)格式。
(2) 數(shù)據(jù)篩選。由于專題庫的數(shù)據(jù)有著多種數(shù)據(jù)來源,可能存在不同來源間的數(shù)據(jù)沖突,系統(tǒng)將建立數(shù)據(jù)沖突的處理機制,對數(shù)據(jù)進行篩選,確定數(shù)據(jù)采集途徑的標準,確保數(shù)據(jù)的唯一性。
(3) 數(shù)據(jù)單位的轉(zhuǎn)化。在統(tǒng)計數(shù)據(jù)中,經(jīng)常會碰到以不同數(shù)量級的單位作統(tǒng)計的數(shù)據(jù),如萬噸和噸。針對這種情況,系統(tǒng)將自動把不同數(shù)量級的單位轉(zhuǎn)換成標準單位存儲入庫。
(4) 數(shù)據(jù)的校驗。數(shù)據(jù)之間存在一定的關(guān)聯(lián)驗證關(guān)系,系統(tǒng)在進行數(shù)據(jù)處理時將對數(shù)據(jù)的準確性進行審核,如不同指標數(shù)據(jù)的交叉對比、歷史數(shù)據(jù)的對比等,通過系統(tǒng)審核可保障數(shù)據(jù)的準確性,對異常的數(shù)據(jù)進行報警。
(5) 數(shù)據(jù)存儲。在存儲方面,專題庫的建設(shè)將采用分布式數(shù)據(jù)存儲,以提高海量數(shù)據(jù)的分析時效性,提升專題數(shù)據(jù)庫的服務(wù)能力。
3 專題庫的應(yīng)用
3.1 多維的統(tǒng)計信息檢索服務(wù)
為滿足不同對象的信息需求,專題庫將建立多維的統(tǒng)計信息檢索服務(wù),以更快更準確的獲取所需信息。另一方面,專題庫將提供關(guān)鍵字檢索服務(wù),以支持用戶的模糊檢索需求,并提供檢索結(jié)果的歷史數(shù)據(jù)軌跡跟蹤服務(wù)。
3.2 可視化產(chǎn)品服務(wù)
通過對數(shù)據(jù)的匯總、統(tǒng)計、分析,結(jié)合空間和時間屬性,以專題地圖、柱狀圖、餅狀圖和曲線等多種形式展示數(shù)據(jù),直觀地支持領(lǐng)導決策。
系統(tǒng)為各統(tǒng)計部門的業(yè)務(wù)提供GIS展示功能,使業(yè)務(wù)數(shù)據(jù)和地理空間數(shù)據(jù)融合,滿足統(tǒng)計部門使用系統(tǒng)的應(yīng)用需求。如能源統(tǒng)計專題庫系統(tǒng)可以支持以下應(yīng)用:某地區(qū)歷史能源消費動態(tài)演示,各地區(qū)能源消費排名,各地區(qū)能源消費預測,發(fā)布各地區(qū)能源消費預警信息等。
3.3 專題數(shù)據(jù)供給服務(wù)
為了更好的利用專題數(shù)據(jù)庫資源,專題庫應(yīng)該給其他部門提供數(shù)據(jù)服務(wù)。數(shù)據(jù)共享可以通過以下兩個途徑來實現(xiàn):一、導出專題庫報表提供給相關(guān)部門使用;二、提供查詢調(diào)用接口給其它部門,可通過網(wǎng)絡(luò)進行數(shù)據(jù)的調(diào)閱。
4 統(tǒng)計專題庫的幾點思考
4.1 建設(shè)統(tǒng)計專業(yè)數(shù)據(jù)庫群
單個專題數(shù)據(jù)庫涉及的內(nèi)容相對狹窄,僅適用于某些固定的對象和用途,所以可在專題庫建設(shè)的基礎(chǔ)上逐步拓展建立專題庫的統(tǒng)一平臺,可以接入各種專題庫,組成統(tǒng)計專業(yè)數(shù)據(jù)庫群,共享數(shù)據(jù),互相補充,擴展專題庫的深度和廣度,為用戶提供更廣泛的數(shù)據(jù)服務(wù)。這樣才能更加發(fā)揮出專題庫的作用和優(yōu)勢,相應(yīng)地也會促進專題庫群的進一步發(fā)展,形成良性循環(huán)。
4.2 建設(shè)面向不同用戶的專題庫
不同的用戶有不同的信息需求,一方面專題庫的內(nèi)容要基于不同用戶的需求來建設(shè),另一方面有些信息具有敏感性,對不同的用戶需要把信息分保密級別。因此針對不同的用戶,需把專題數(shù)據(jù)分類和分級,建設(shè)相關(guān)的數(shù)據(jù)權(quán)限。
4.3 統(tǒng)計專題庫的維護
統(tǒng)計專題庫的維護包含以下幾個方面:
(1)數(shù)據(jù)的備份和恢復:對專題庫的數(shù)據(jù)庫文件定期做物理備份,同時設(shè)置邏輯備份機制,以保證一旦發(fā)生故障能盡快的把數(shù)據(jù)庫恢復到某種一致的狀態(tài),并盡可能減少對數(shù)據(jù)完整性的破壞。
(2)數(shù)據(jù)的安全性控制:在系統(tǒng)運行過程中由于應(yīng)用環(huán)境的變化,對安全性的要求也會發(fā)生變化,如有的數(shù)據(jù)原來是機密的但現(xiàn)在可以公開查詢了;蛘呦到y(tǒng)某用戶的權(quán)限級別改變,也需要做相應(yīng)的安全配置。
(3)數(shù)據(jù)庫性能監(jiān)測:通過分析數(shù)據(jù)庫的系統(tǒng)指標,判斷當前系統(tǒng)運行狀態(tài)是否最佳,應(yīng)做哪些改進或者擴容等。
參考文獻
[1]李順,李京,張波,王利強,孫強,吳班. 國家環(huán)境數(shù)據(jù)中心建設(shè)研究[A].中國環(huán)境科學學會.2007中國環(huán)境科學學會學術(shù)年會優(yōu)秀論文集(下卷)[C].中國環(huán)境科學學會,2007(10).
[2]. 我國統(tǒng)計信息化建設(shè)的回顧與展望[J]. 電子政務(wù),2010(Z1):159-166.
[3]門鳳超,王會仙.淺談統(tǒng)計信息化建設(shè)[J].經(jīng)濟研究導刊,2009(11):248-249.
[4]黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究[J].圖書館學研究,2013(12):52-56+51.
[5]陳智.中國統(tǒng)計信息化建設(shè)初探[J].經(jīng)濟研究導刊,2013(15):243-244.
【統(tǒng)計數(shù)據(jù)專題庫的研究與設(shè)計分析】相關(guān)文章:
網(wǎng)絡(luò)安全協(xié)議分析與設(shè)計研究03-28
腦卒中患者研究與分析12-10
統(tǒng)計數(shù)據(jù)質(zhì)量問題的研究參考文獻11-14
隱喻在產(chǎn)品界面設(shè)計中的應(yīng)用研究分析03-28
淺析高職高!督ㄖO(shè)計基礎(chǔ)》課程的教學大綱整合研究12-09
分析“鋼琴熱”現(xiàn)象研究12-05
企業(yè)VI設(shè)計中的中國傳統(tǒng)元素分析研究論文11-07
- 相關(guān)推薦