- 相關(guān)推薦
談數(shù)據(jù)挖掘在中醫(yī)學(xué)術(shù)流派研究中的應(yīng)用
摘要:在中醫(yī)學(xué)術(shù)流派研究中存在著大量的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)可以獲得隱藏在這些數(shù)據(jù)中的有用信息。文章結(jié)合趙炳南學(xué)術(shù)流派研究的實(shí)例,簡(jiǎn)要闡述了利用數(shù)據(jù)挖掘進(jìn)行中醫(yī)學(xué)術(shù)流派研究的可行性和先進(jìn)性,并提出了數(shù)據(jù)挖掘的實(shí)施步驟和具體的工具、算法。關(guān)鍵詞: 中醫(yī)學(xué)術(shù)流派 數(shù)據(jù)挖掘 銀屑病
自古以來(lái),中醫(yī)學(xué)術(shù)流派林立,既互相爭(zhēng)鳴,又互相滲透、取長(zhǎng)補(bǔ)短。它們的發(fā)展和研究促使中醫(yī)藥基礎(chǔ)理論逐漸得到了拓展和深化,促使中醫(yī)藥臨床實(shí)踐技術(shù)逐漸得到了進(jìn)步和提升?梢哉f(shuō),中醫(yī)學(xué)術(shù)流派的發(fā)展和研究促進(jìn)了中醫(yī)藥事業(yè)的發(fā)展[1]。
中醫(yī)學(xué)術(shù)流派研究的前提是要對(duì)其進(jìn)行科學(xué)劃分并確定研究?jī)?nèi)容。隨著科學(xué)技術(shù)進(jìn)步和中醫(yī)學(xué)術(shù)研究的日益廣泛深入,中醫(yī)學(xué)術(shù)流派的劃分方法不斷進(jìn)步、完善。徐江雁等[2]提出的核心分類模式既涵納縱向的學(xué)術(shù)思想傳承,又兼容橫向的學(xué)術(shù)思想滲透,有一定的先進(jìn)性,值得借鑒。我們?cè)凇爸嗅t(yī)皮膚科趙炳南學(xué)術(shù)流派及其傳承研究”的課題中,從以下兩方面劃分學(xué)派和確定研究?jī)?nèi)容:其一,以創(chuàng)新的學(xué)術(shù)思想為核心:通過(guò)對(duì)中醫(yī)皮膚科趙炳南學(xué)術(shù)流派學(xué)術(shù)淵源、基礎(chǔ)理論、特色經(jīng)驗(yàn)、技術(shù)方法等的系統(tǒng)研究,確立中醫(yī)皮膚科趙炳南學(xué)術(shù)流派學(xué)術(shù)思想體系;其二,以開(kāi)放的醫(yī)家群及其著述為核質(zhì):不論是趙炳南門(mén)戶師承所得,還是博采眾家之說(shuō),也不論是公開(kāi)發(fā)表的論文、論著、會(huì)議交流的文字材料,科研成果、發(fā)明、專利,還是口述史料, 只要是中醫(yī)皮膚科趙炳南學(xué)術(shù)流派有關(guān)方面的內(nèi)容,皆囊括在其核質(zhì)之中。
針對(duì)上述研究?jī)?nèi)容,按照以往的研究方法,可以以人、以疾病、以方藥或以思維方法為線索進(jìn)行文獻(xiàn)整理、分析和總結(jié),或者以臨床流行病學(xué)的方法進(jìn)行臨床觀察和總結(jié)[3~7]。這些方法在一定程度上能總結(jié)規(guī)律,指導(dǎo)臨床實(shí)踐,但存在以下不足之處:①對(duì)學(xué)術(shù)思想和診療經(jīng)驗(yàn)缺乏系統(tǒng)地有機(jī)關(guān)聯(lián)研究和比較研究;②難以反映疾病診療過(guò)程中中醫(yī)辨證的多維時(shí)空和非線性特征;③缺乏符合中醫(yī)特點(diǎn)的多因素信息處理技術(shù),可能致使研究結(jié)果產(chǎn)生混亂和差錯(cuò);④難以真正反映中醫(yī)學(xué)術(shù)流派的內(nèi)涵和精髓。鑒于以往研究存在的問(wèn)題,我們引進(jìn)了數(shù)據(jù)挖掘技術(shù)進(jìn)行中醫(yī)學(xué)術(shù)流派研究。
1 數(shù)據(jù)挖掘及其在中醫(yī)藥領(lǐng)域的應(yīng)用
1.1 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘(DM:DataMining)就是從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程[8]。它是一門(mén)交叉學(xué)科,匯聚了數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)、可視化,并行計(jì)算等不同學(xué)科和領(lǐng)域。其中的人工智能能模仿人類對(duì)非線性、不完全、不精確和不確定信息的智能處理,具有良好的容錯(cuò)性、魯棒性和高精度等綜合技術(shù)優(yōu)勢(shì)[9,10]。人工智能方法主要包括人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、進(jìn)化計(jì)算、粗糙集理論、支持向量機(jī)(SVM)等。針對(duì)不同的挖掘目標(biāo),往往要將幾種方法綜合起來(lái)應(yīng)用,以發(fā)揮各自的技術(shù)優(yōu)勢(shì)。此外,將人工智能和其他數(shù)據(jù)挖掘方法如聚類分析、決策樹(shù)、關(guān)聯(lián)規(guī)則等優(yōu)化組合應(yīng)用,更能發(fā)揮數(shù)據(jù)挖掘技術(shù)解決復(fù)雜問(wèn)題的能力。
1.2 數(shù)據(jù)挖掘在中醫(yī)藥領(lǐng)域的應(yīng)用數(shù)據(jù)挖掘技術(shù)能針對(duì)醫(yī)學(xué)數(shù)據(jù)多態(tài)性、不完整性、時(shí)間性和冗余性的特征實(shí)施合理的數(shù)據(jù)處理和知識(shí)提取[11]。它應(yīng)用于中醫(yī)藥領(lǐng)域主要表現(xiàn)在以下幾方面[12~16]:
1.2.1 新藥開(kāi)發(fā)研究以一種新的、建立在充分利用幾千年積累下來(lái)的豐富經(jīng)驗(yàn)及現(xiàn)代科學(xué)技術(shù)所提供的信息基礎(chǔ)上的模式進(jìn)行研究。
1.2.2 復(fù)方配伍規(guī)律和方證相應(yīng)研究數(shù)據(jù)挖掘技術(shù)可以在一定程度上發(fā)現(xiàn)和認(rèn)識(shí)臨床病癥與復(fù)立組方關(guān)系、復(fù)方藥物的配伍關(guān)系、藥味之間的相互作用關(guān)系等。
1.2.3 中醫(yī)藥信息化研究對(duì)以古語(yǔ)言和純文本為主的中醫(yī)藥理論和實(shí)踐進(jìn)行結(jié)構(gòu)化解析是中醫(yī)藥信息化研究的重要內(nèi)容,其中的某些內(nèi)容可以通過(guò)對(duì)文本的數(shù)據(jù)挖掘來(lái)實(shí)現(xiàn)。
1.2.4 中醫(yī)藥專家系統(tǒng)研究對(duì)中醫(yī)藥專家“只可意會(huì),不可言傳”的把握診治疾病規(guī)律的定性描述、模糊概念,采用數(shù)據(jù)挖掘技術(shù)進(jìn)行多層面智能分析,在一定程度上可將它們以可理解的規(guī)則或模式表達(dá)出來(lái),從而大大豐富專家系統(tǒng)的知識(shí)庫(kù)。
1.2.5 中醫(yī)藥文獻(xiàn)研究數(shù)據(jù)挖掘技術(shù)應(yīng)用于文獻(xiàn)研究可以提高文獻(xiàn)研究的水平,提高文獻(xiàn)利用的效率,進(jìn)而能提高中醫(yī)藥科研工作的效率。
2 數(shù)據(jù)挖掘在中醫(yī)學(xué)術(shù)流派研究中的應(yīng)用
以“中醫(yī)皮膚科趙炳南學(xué)術(shù)流派及其傳承研究”中的銀屑病數(shù)據(jù)挖掘?yàn)槔,?jiǎn)要說(shuō)明挖掘的步驟和挖掘的工具及算法。
2.1 實(shí)施數(shù)據(jù)挖掘的步驟
根據(jù)全球首個(gè)數(shù)據(jù)挖掘行業(yè)通用的模型標(biāo)準(zhǔn)(CRISP-DM),銀屑病數(shù)據(jù)挖掘過(guò)程可分成6個(gè)階段。
2.1.1 理解問(wèn)題明確和細(xì)化研究目標(biāo)。
2.1.2 理解數(shù)據(jù)熟悉所采集的有關(guān)銀屑病數(shù)據(jù)的類型和存在形式,在此基礎(chǔ)上初步進(jìn)行數(shù)據(jù)質(zhì)量鑒定,并建立數(shù)據(jù)庫(kù)。
2.1.3 準(zhǔn)備數(shù)據(jù)有關(guān)銀屑病的數(shù)據(jù)中存在著大量不完整的、冗余的和不一致的數(shù)據(jù)。在進(jìn)行數(shù)據(jù)挖掘時(shí),首先要對(duì)其進(jìn)行處理。處理過(guò)程包括數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載。
2.1.4 建立模型針對(duì)研究目標(biāo),利用已知的數(shù)據(jù)和知識(shí)建立分析模型,并將該模型有效地應(yīng)用到未知的數(shù)據(jù)或相似情況中測(cè)試并修正模型,如此反復(fù)進(jìn)行以得到最優(yōu)模型。
2.1.5 方案評(píng)估在模型最后付諸實(shí)施以前,徹底地對(duì)模型進(jìn)行評(píng)估,再回顧構(gòu)造該模型的步驟,以確定該模型真正能夠達(dá)到預(yù)定的挖掘目標(biāo)。
2.1.6 方案實(shí)施基于以上5方面的工作,采用相應(yīng)的數(shù)據(jù)挖掘工具和算法進(jìn)行多次反復(fù)、多次調(diào)整、不斷修訂完善的數(shù)據(jù)挖掘。
2.2 數(shù)據(jù)挖掘的工具和算法
2.2.1 銀屑病中醫(yī)辨證規(guī)范研究在銀屑病數(shù)據(jù)庫(kù)中,存在著許多不確定、不完整、不精確的辨證相關(guān)信息,首先利用粗糙集對(duì)其進(jìn)行約簡(jiǎn),剔除模糊和歧義信息,保留與挖掘有關(guān)的重要癥狀屬性。在此基礎(chǔ)上使用關(guān)聯(lián)規(guī)則方法挖掘證的分布,證的構(gòu)成比,從而得到靜態(tài)關(guān)聯(lián)度。采用FP-growth或加權(quán)的Apriori算法找出頻繁項(xiàng)目集,確定關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)分析的基礎(chǔ)上進(jìn)行相似聚類,通過(guò)給定閾值,發(fā)現(xiàn)癥狀的構(gòu)成以及癥狀的貢獻(xiàn)率,得到癥狀所屬證的聚類。通過(guò)遺傳算法搜索和K-means局部?jī)?yōu)化相結(jié)合,按照最近基因匹配的交叉算子,在交叉過(guò)程中不斷產(chǎn)生新個(gè)體,保證群體的多樣性,減少了K-means算法的早熟現(xiàn)象,解決全局最優(yōu)的問(wèn)題。K-means局部聚類可以發(fā)現(xiàn)特異癥狀,利用孤立點(diǎn)算法對(duì)其進(jìn)行特殊處理。所有癥狀聚類后,會(huì)得到N個(gè)聚類。因?yàn)閿?shù)據(jù)挖掘的結(jié)果不帶有主觀因素,所以這些聚類需要中醫(yī)皮科專家根據(jù)臨床實(shí)際重新命名。在證候分類的基礎(chǔ)上,利用時(shí)間序列模式挖掘方法,分析病程中各證基本演變趨勢(shì)。
2.2.2 銀屑病中西醫(yī)病、證、癥及客觀檢查指標(biāo)的相關(guān)性研究在銀屑病數(shù)據(jù)庫(kù)中,進(jìn)行西
【談數(shù)據(jù)挖掘在中醫(yī)學(xué)術(shù)流派研究中的應(yīng)用】相關(guān)文章:
談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用03-21
數(shù)據(jù)挖掘技術(shù)在中醫(yī)亞健康學(xué)中應(yīng)用的思考12-01
數(shù)據(jù)挖掘在CRM中的應(yīng)用分析03-22
數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用03-22
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究03-07
數(shù)據(jù)挖掘技術(shù)在企業(yè)知識(shí)管理中的應(yīng)用03-19
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21
客戶關(guān)系管理中數(shù)據(jù)挖掘的應(yīng)用03-08
Web數(shù)據(jù)挖掘技術(shù)在個(gè)性化網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究03-09