久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

信息檢索中概念術(shù)語(yǔ)的提取方法探析論文

時(shí)間:2020-08-23 09:35:11 信息安全畢業(yè)論文 我要投稿

信息檢索中概念術(shù)語(yǔ)的提取方法探析論文

  隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息越來(lái)越多,文本的數(shù)量也急劇增加,信息檢索技術(shù)的出現(xiàn)滿足了人們對(duì)需求信息的獲取和使用。網(wǎng)絡(luò)成為信息獲取的來(lái)源和渠道之一,然而,從這些海量的文本中獲取所需要的知識(shí)成為專家學(xué)者研究的熱點(diǎn)。目前大多數(shù)的搜素引擎采用關(guān)鍵詞匹配技術(shù)進(jìn)行檢索,現(xiàn)階段學(xué)者將更多的目光投向新型的檢索模式和方法,以改進(jìn)搜索效果。在信息檢索的經(jīng)典模式中,用來(lái)描述一篇文檔的一組具有代表性的關(guān)鍵詞叫做術(shù)語(yǔ)。對(duì)于一篇文檔而言,術(shù)語(yǔ)很可能包含了多個(gè)含義,而在不同的上下文中,術(shù)語(yǔ)的意義不同。一個(gè)術(shù)語(yǔ)或者詞組會(huì)有多種意義,一個(gè)領(lǐng)域的特定概念是明確的,因而,當(dāng)信息檢索中,采用領(lǐng)域概念描述文檔比術(shù)語(yǔ)更有意義。使用領(lǐng)域特定概念呈現(xiàn)在文檔中比檢索屬于特定領(lǐng)域文檔的術(shù)語(yǔ)更有用。可通過(guò)算法進(jìn)行文檔概念的抽取,利用這些描述文檔內(nèi)容的概念非傳統(tǒng)的詞條,詞頻進(jìn)行檢索,相對(duì)于傳統(tǒng)的檢索,減少了不少工作量,提高了檢索精度。

信息檢索中概念術(shù)語(yǔ)的提取方法探析論文

  1相關(guān)研究

  信息檢索也稱為信息查找或信息搜索,1965年,Rocchio研究了在向量空間模型中把信息查詢和術(shù)語(yǔ)重新加權(quán)相結(jié)合的經(jīng)典技術(shù),并在隨后出版發(fā)行[1].Ide繼承了Rocchio的研究,并提出了術(shù)語(yǔ)重新加權(quán)公式的變形[2].1976年,Robertson和sparkJoneS提出了概率模型[3],有關(guān)該模型的詳細(xì)討論見(jiàn)van-Rijsbergen的著作[4].1981年Wu和salton使用相關(guān)反饋來(lái)給從相關(guān)文檔中提取出來(lái)的概念術(shù)語(yǔ)(用概率公式)重新加權(quán),并用概念術(shù)語(yǔ)來(lái)檢索信息[5],實(shí)驗(yàn)表明了這些方法能夠提高檢索的性能。

  實(shí)驗(yàn)證明,提取文檔的領(lǐng)域概念術(shù)語(yǔ)在信息檢索過(guò)程中能夠更加準(zhǔn)確和高效。因此采用概率加權(quán)方式提取領(lǐng)域概念術(shù)語(yǔ),并將本體納入領(lǐng)域概念提取過(guò)程中,不僅解決了無(wú)詞典情況下的概念術(shù)語(yǔ)自動(dòng)提取研究,并且有更高的準(zhǔn)確率。

  2概念術(shù)語(yǔ)提取方法

  概念的出現(xiàn)不是孤立存在。在一篇文檔中,如果概念有較高的權(quán)重,那么這篇文檔通常還會(huì)包含與概念相關(guān)的其他概念。如電至少有兩個(gè)不同的意義:電荷和電費(fèi)。如果在一篇文檔中討論電荷,那么這篇文檔通常會(huì)包含如電流、電力等術(shù)語(yǔ)。而對(duì)于電費(fèi),文檔中通常包含如支付、額度等術(shù)語(yǔ)。因此,概念術(shù)語(yǔ)提取算法就是通過(guò)查看概念和與之相關(guān)的概念來(lái)計(jì)算這一概念權(quán)重值。

  每一篇文檔都有一組術(shù)語(yǔ)和其對(duì)應(yīng)的頻率,將列表中的每一個(gè)術(shù)語(yǔ)映射到與之對(duì)應(yīng)的概念以及計(jì)算當(dāng)前文檔中每個(gè)概念的權(quán)重是研究重點(diǎn),因此本體發(fā)揮很重要的作用,文檔中的術(shù)語(yǔ)都可以從本體中獲得其相關(guān)的概念組。一個(gè)術(shù)語(yǔ)可以映射到一個(gè)或者多個(gè)概念,如上文提到,電可以映射到電荷、電費(fèi),本研究就是要從這些映射的概念中,找到最合適的特定領(lǐng)域的概念。

  為了提取正確的概念,本研究涉及到相關(guān)概念。構(gòu)建了簡(jiǎn)易的概念間關(guān)系網(wǎng),這一概念關(guān)系網(wǎng)來(lái)自本體中的物理學(xué)領(lǐng)域的一部分概念圖,如果這個(gè)術(shù)語(yǔ)的相關(guān)概念在文檔中出現(xiàn)的次數(shù)越多,概念的權(quán)重就越高。該算法將文檔中的術(shù)語(yǔ)表和頻率作為輸入,然后返回一個(gè)概念列表以及概念的權(quán)重。

  領(lǐng)域概念提取算法如下:在一篇文檔Γ的術(shù)語(yǔ)表里,ti表示每個(gè)術(shù)語(yǔ),cij是從本體中獲得的相關(guān)概念。每個(gè)相關(guān)概念cij的.權(quán)重就是cij·signfi-cance.cij·signficance最初作為術(shù)語(yǔ)ti的歸一化頻率,即ti·frequency.對(duì)于每個(gè)相關(guān)概念cij,該方法重在文檔中相關(guān)概念rcp的出現(xiàn)。然后,針對(duì)與概念rcp對(duì)應(yīng)的術(shù)語(yǔ)tp的產(chǎn)生,通過(guò)α歸一化術(shù)語(yǔ)的頻率來(lái)增量相關(guān)概念cij的權(quán)重。

  signficance·cij=ti·frequency+α|tp·frequency.在這里,α就是相關(guān)概念的權(quán)重,在本實(shí)驗(yàn)中,將α=12.要獲得領(lǐng)域概念術(shù)語(yǔ),因而該算法將選取權(quán)重值最大的概念作為領(lǐng)域概念。

  算法3.1:概念的提取以及概念權(quán)重輸入:t1,t2,…,tn是文檔Γ的領(lǐng)域術(shù)語(yǔ)列表;ti·frequency領(lǐng)域術(shù)語(yǔ)ti的歸一化頻率;Γ文檔中標(biāo)記的總數(shù)。

  輸出:c1,c2,…,cm概念列表和概念的權(quán)重ci·significance對(duì)領(lǐng)域術(shù)語(yǔ)ti歸一化頻率

  3實(shí)驗(yàn)測(cè)試和分析

  為了評(píng)價(jià)上文算法的性能,在搜索引擎(百度)中進(jìn)行不同的查詢并且收集了與查詢相對(duì)應(yīng)的前20篇文檔。觀察來(lái)檢測(cè)與物理領(lǐng)域相關(guān)的文檔并計(jì)算準(zhǔn)確度。評(píng)估該算法,實(shí)驗(yàn)以相同的20篇文檔作為輸入,用概念列表和概念權(quán)重從輸入的所有文檔中過(guò)濾出領(lǐng)域文檔。人為已經(jīng)過(guò)濾出屬于物理領(lǐng)域的文檔。每一篇文檔dj用概念向量c={c1,c2,…,cm}來(lái)表示。當(dāng)且僅當(dāng)概念ci的相關(guān)文檔出現(xiàn)在文檔中時(shí),這個(gè)概念ci的權(quán)重值vi>0.對(duì)于查詢?cè)~q,在物理領(lǐng)域,與之對(duì)應(yīng)的概念就是cq,如果在文檔中概念的權(quán)重值vq>0,那么這篇文檔dj就被選取出來(lái)。通過(guò)該算法返回的過(guò)濾輸出是人為進(jìn)行驗(yàn)證并且用準(zhǔn)確率和召回率評(píng)價(jià)該算法。

  對(duì)于查詢C,集合C包含了由搜索引擎返回的前20篇文檔。從集合C中,人為標(biāo)記出與查詢C相關(guān)的文檔集合F,集合R就表示人為所選取出來(lái)的相關(guān)文檔,即標(biāo)準(zhǔn)文檔,|R|就是集合F中元素的數(shù)量;對(duì)集合C中的相同文檔進(jìn)行進(jìn)一步處理,其處理方式上面已經(jīng)討論過(guò)的使用領(lǐng)域文檔和權(quán)重值進(jìn)行過(guò)濾,過(guò)濾之后,生成一個(gè)個(gè)文檔,就是算法所選取出來(lái)的文檔,即機(jī)器文檔A,|A|就是機(jī)器文檔A中元素的數(shù)量。而且,|Ra|就是集合F和集合A的交集的文檔數(shù)量。

  對(duì)于輸入的查詢,這里準(zhǔn)確率的計(jì)算是:運(yùn)用了概念提取算法過(guò)濾出的文檔中的相關(guān)文檔數(shù)量|Ra|除以算法過(guò)濾出的文檔數(shù)量|A|.對(duì)于輸入查詢,這里召回率的計(jì)算是:運(yùn)用了概念提取算法過(guò)濾出的文檔中的相關(guān)文檔數(shù)量|Ra|除以沒(méi)有運(yùn)用概念提取算法的20篇文檔中相關(guān)文檔數(shù)量|R|.

  輸入查詢12次,分別統(tǒng)計(jì)了20篇文檔中相關(guān)文檔的數(shù)量|R|(未用概念提取算法)、過(guò)濾后的文檔數(shù)量|A|(概念提取方法)、過(guò)濾后的相關(guān)文檔數(shù)量|Ra|(概念提取方法),根據(jù)得到的統(tǒng)計(jì)結(jié)果分別計(jì)算準(zhǔn)確率(未用概念提取方法)、準(zhǔn)確率%(概念提取方法)、召回率%(概念提取方法)。通過(guò)計(jì)算出了的準(zhǔn)確率和召回率,未使用概念提取方法所得到的相關(guān)文檔的準(zhǔn)確率大部分在5%-40%之間,然而通過(guò)概念提取方法得到的準(zhǔn)確率達(dá)到100%占據(jù)70%,其余的在60%-80%之間,召回率達(dá)到100%占據(jù)70%,其余的在70%-90%之間。通過(guò)實(shí)驗(yàn)表明,采用概念和概念的權(quán)重值過(guò)濾領(lǐng)域文檔提高了信息檢索的準(zhǔn)確率。

  結(jié)合本體的相關(guān)概念的領(lǐng)域概念術(shù)語(yǔ)自動(dòng)提取方法,從實(shí)驗(yàn)中可以看出,利用本體獲得術(shù)語(yǔ)的相關(guān)概念減輕了無(wú)詞典帶來(lái)的壓力,并且該本體術(shù)語(yǔ)可以進(jìn)行擴(kuò)充,解決了領(lǐng)域概固定化等問(wèn)題;采用相關(guān)概念提取領(lǐng)域概念,提高了準(zhǔn)確率。仍存在不足,一方面概念提取算法還存在過(guò)濾掉了低頻的概念,而對(duì)文檔而言較重要的概念,另一方面還存在冗余概念因此,今后研究中將會(huì)完善算法。

【信息檢索中概念術(shù)語(yǔ)的提取方法探析論文】相關(guān)文章:

1.生物醫(yī)學(xué)信息檢索論文

2.初中化學(xué)概念教學(xué)中的幾點(diǎn)做法探析論文

3.淺談互聯(lián)網(wǎng)信息檢索論文

4.高校文獻(xiàn)信息檢索的必要性與有效方法論文

5.循證醫(yī)學(xué)思維引入網(wǎng)絡(luò)信息檢索教學(xué)中的思考論文

6.財(cái)務(wù)收支審計(jì)中的基本方法探析論文

7.信息檢索課程服務(wù)學(xué)科建設(shè)的思考論文

8.高中數(shù)學(xué)概念教學(xué)探析論文