漢語(yǔ)分詞在中文軟件中的廣泛應(yīng)用

時(shí)間：2024-06-29 22:18:54 計(jì)算機(jī)應(yīng)用畢業(yè)論文我要投稿

相關(guān)推薦

摘要
中文軟件需要具有對(duì)中文文本的輸入、顯示、編輯、輸出等基本功能，而且隨著計(jì)算機(jī)技術(shù)的發(fā)展，對(duì)于計(jì)算機(jī)的文本處理能力提出了更高的要求，諸如智能拼音語(yǔ)句輸入、手寫(xiě)和語(yǔ)音自動(dòng)識(shí)別輸入；文章的校對(duì)；簡(jiǎn)體和繁體中文的自動(dòng)轉(zhuǎn)換；信息檢索和信息摘錄；文本分類和自動(dòng)文摘；語(yǔ)音合成；自然語(yǔ)言的理解和自動(dòng)翻譯；自然語(yǔ)言接口等。而所有這些中文處理功能都要建立在對(duì)漢語(yǔ)文本的分詞處理這一基本功能之上。因而，漢語(yǔ)分詞是中文信息處理的基礎(chǔ)，在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。一、為什么需要漢語(yǔ)分詞我們知道，漢語(yǔ)的中文信息處理就是要“用計(jì)算機(jī)對(duì)漢語(yǔ)的音、形、義進(jìn)行處理。” [1]，我們還知道，“詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。”[2] 然而，漢語(yǔ)文本中詞與詞之間卻沒(méi)有明確的分隔標(biāo)記，而是連續(xù)的漢字串。顯而易見(jiàn)，自動(dòng)識(shí)別詞邊界，將漢字串切分為正確的詞串的漢語(yǔ)分詞問(wèn)題無(wú)疑是實(shí)現(xiàn)中文信息處理的各項(xiàng)任務(wù)的首要問(wèn)題。以拼音輸入中的同音詞自動(dòng)辨識(shí)為例，據(jù)我們統(tǒng)計(jì)，漢語(yǔ)單字同音現(xiàn)象是非常嚴(yán)重的。以6763個(gè)漢字為例，沒(méi)有同音字的漢字只有16個(gè)。其他漢字都有同音字。其中最多的有116個(gè)同音字。而漢語(yǔ)詞的同音現(xiàn)象則有很大的改善。以52505的詞表為例，其中35942個(gè)詞語(yǔ)沒(méi)有同音詞。因此，大多數(shù)同音字可以依靠詞來(lái)確定。例如：”yi”對(duì)應(yīng)的同音字“以，一，易，已，意”, 分別可以在“以為，一定，容易，已經(jīng)，意義”中來(lái)確定。對(duì)于詞語(yǔ)（包括單字詞）的同音現(xiàn)象，則需要運(yùn)用詞語(yǔ)之間的合理搭配以及詞語(yǔ)在句子中的合法運(yùn)用來(lái)確定。比如“一枝可愛(ài)的玫瑰花”，”Zhi”的同音字有：“只，之，直，支，枝．．．．．”等。但是這里“枝”是和“花”的合理搭配。也就是說(shuō)”一枝可愛(ài)的玫瑰花”是合理的搭配。由此不難看出，分詞對(duì)于同音詞自動(dòng)辨識(shí)的作用。而同音詞的自動(dòng)辨識(shí)也是語(yǔ)音自動(dòng)識(shí)別所要解決的重要問(wèn)題。除了同音詞的自動(dòng)辨識(shí)，漢語(yǔ)的多音字自動(dòng)辨識(shí)仍然需要分詞的幫助。例如：“校、行、重、樂(lè)、率”等都是多音字。無(wú)論是拼音自動(dòng)標(biāo)注還是語(yǔ)音合成都需要識(shí)別出正確的拼音。而多音字的辨識(shí)可以利用詞以及句子中前后詞語(yǔ)境，即上下文來(lái)實(shí)現(xiàn)。如以上幾個(gè)多音字都可以在以下幾組詞中得以定音：學(xué)校（xiao）/ 校（jiao）對(duì)、行(hang)列/行(xing)進(jìn)、重(zhong)量/重(chong)新、快樂(lè)(le)/音樂(lè)(yue)、率(shuai)領(lǐng)/效率(lv)。漢字的簡(jiǎn)體/繁體轉(zhuǎn)換、信息檢索和信息摘錄、自然語(yǔ)言理解、文本分類、機(jī)器翻譯、文本校對(duì)等中文信息處理系統(tǒng)同樣都首先需要分詞作為其最基本的模塊。二、漢語(yǔ)分詞所面臨的關(guān)鍵問(wèn)題及分詞算法漢語(yǔ)分詞是由計(jì)算機(jī)自動(dòng)識(shí)別文本中的詞邊界的過(guò)程。從計(jì)算機(jī)處理過(guò)程上看，分詞系統(tǒng)的輸入是連續(xù)的字符串（C1C2C3……Cn），輸出是漢語(yǔ)的詞串（W1W2W3……Wm）, 這里，Wi　可以是單字詞也可以是多字詞。那么，在這個(gè)過(guò)程中，我們所要解決的關(guān)鍵問(wèn)題是什么，我們又有什么樣的解決方案哪？

交集型歧義字段，據(jù)統(tǒng)計(jì)，這種歧義字段占全部歧義字段的８５％以上。［4］所以這也是分詞系統(tǒng)所要重點(diǎn)解決的問(wèn)題。在字段ABC中，這里，A,B,C分別代表有一個(gè)或多個(gè)漢字組成的字串。A,AB,BC,C分別都是詞表中的詞，則稱該字段為交集型歧義字段。如：“中國(guó)/人”，“中/國(guó)人”兩種切分結(jié)果。組合型歧義在字段ABC中， A,B,AB 分別都是詞表中的詞，則稱該字段為交集型歧義字段。如：他/具有/非凡/的/才能/。/ 只有/他/才/能/舉起/這/個(gè)/重物/。/

基于詞表的分詞-最大匹配（MM）這是一種有著廣泛應(yīng)用的機(jī)械分詞方法，該方法依據(jù)一個(gè)分詞詞表和一個(gè)基本的切分評(píng)估原則，即“長(zhǎng)詞優(yōu)先”原則，來(lái)進(jìn)行分詞。這種評(píng)估原則雖然在大多數(shù)情況下是合理的，但也會(huì)引發(fā)一些切分錯(cuò)誤。根據(jù)我們小規(guī)模測(cè)試的結(jié)果，其正確率為95.422%，速度為65,000字/分鐘。這種切分方法，需要最少的語(yǔ)言資源（僅需一個(gè)詞表，不需要任何詞法、句法、語(yǔ)義知識(shí)），程序?qū)崿F(xiàn)簡(jiǎn)單，開(kāi)發(fā)周期短，是一個(gè)簡(jiǎn)單實(shí)用的方法。基于統(tǒng)計(jì)的分詞這種方法首先切分出與詞表匹配的所有可能的詞，這種切分方法稱為“全切分”，運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法決定最優(yōu)的切分結(jié)果。這種方法的優(yōu)點(diǎn)是可以發(fā)現(xiàn)所有的切分歧義，但是解決歧義的方法很大程度上取決于統(tǒng)計(jì)語(yǔ)言模型的精度和決策算法。需要大量的標(biāo)注語(yǔ)料，并且分詞速度也因搜索空間的增大而有所緩慢。根據(jù)我們小規(guī)模測(cè)試的結(jié)果，其正確率為96.252%。分詞速度為：40,000字/分鐘。基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合這種方法首先運(yùn)用最大匹配作為一種初步切分，再對(duì)切分的邊界處進(jìn)行歧義探測(cè)，發(fā)現(xiàn)歧義。再運(yùn)用統(tǒng)計(jì)和規(guī)則結(jié)合的方法來(lái)判別正確的切分，運(yùn)用不同的規(guī)則解決人名、地名、機(jī)構(gòu)名識(shí)別，運(yùn)用詞法結(jié)構(gòu)規(guī)則來(lái)生成復(fù)合詞和衍生詞。目前這種方法可以解決漢語(yǔ)中最常見(jiàn)的歧義類型：?jiǎn)巫纸患推缌x。并對(duì)人名、地名、機(jī)構(gòu)名、后綴、動(dòng)詞/形容詞重疊、衍生詞等詞法結(jié)構(gòu)進(jìn)行識(shí)別的處理，基本解決了分詞所面臨的最關(guān)鍵的問(wèn)題。而且由于優(yōu)秀的辭典結(jié)構(gòu)和算法設(shè)計(jì)，分詞速度非�？臁８鶕�(jù)我們小規(guī)模測(cè)試的結(jié)果，其正確率為97.948%。分詞速度為：200,000字/分鐘。但是,目前這個(gè)分詞系統(tǒng)對(duì)于組合歧義的處理還沒(méi)有涉及。這一分詞系統(tǒng)我們稱之為：WB2000, 它作為Office2000中文版中的一個(gè)基本模塊被許多中文功能所運(yùn)用。

三、漢語(yǔ)分詞系統(tǒng)WB2000以及在中文Office2000中的應(yīng)用舉例這里，我們就WB2000在Office2000中文版中的具體應(yīng)用實(shí)例進(jìn)行簡(jiǎn)單介紹，從這些具體的應(yīng)用實(shí)例中，我們可以對(duì)中文分詞的廣泛應(yīng)用有進(jìn)一步深入的了解。

詞表的可擴(kuò)充性，分詞用詞表可以支持批量追加適合于各種應(yīng)用的詞匯。功能的可組合型，可以根據(jù)不同應(yīng)用的需要，通過(guò)以上分詞功能的不同組合，來(lái)調(diào)整不同的“分詞單位”。接口的可共享型，分詞系統(tǒng)的統(tǒng)一接口設(shè)計(jì)，使得不同的應(yīng)用可以共享同一分詞系統(tǒng)。