在DSP處理器上并行實現(xiàn)ATR算法

時間：2024-10-27 15:36:33 理工畢業(yè)論文我要投稿

相關(guān)推薦

摘要：介紹了由DSP芯片構(gòu)成的多處理器并行系統(tǒng)的結(jié)構(gòu)和性能以及在多處理器并行系統(tǒng)上并行實現(xiàn)ATR算法需要考慮的要總是，著重研究了在指令級并行DSP處理器上實現(xiàn)ART算法的并行化軟件開發(fā)方法，對ATR算法的實用化和工程化具有重要的參考價值。

自動目標識別（ATR）算法通常包括自動地對目標進行檢測、跟蹤、識別和選擇攻擊點等算法。戰(zhàn)場環(huán)境的復雜性和目標類型的不斷增長使ATR算法的運算量越來越大，因此ATR算法對微處理器的處理能力提出了更高的要求。由于通用數(shù)字信號處理芯片能夠通過編程實現(xiàn)各種復雜的運算，處理精度高，具有較大的靈活性，而且尺寸小、功耗低、速度快，所以一般選擇DSP芯片作為微處理器來實現(xiàn)ATR算法的工程化和實用化。

為了保證在DSP處理器上實時地實現(xiàn)ATR算法，用算法并行化技術(shù)。算法并行化處理的三要素是：①并行體系結(jié)構(gòu)；②并行軟件系統(tǒng)；③并行算法。并行體系結(jié)構(gòu)是算法并行化的硬件基礎，并行算法都是針對特定的并行體系結(jié)構(gòu)開發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目，ATR算法的并行實現(xiàn)可以分為處理器間并行和處理器內(nèi)并行。處理器間并行是指多個DSP處理器以某種方式連接起來的多處理器并行系統(tǒng)，ATR算法在多個處理器上并行招待。根據(jù)處理器使用存儲器的情況，多處理器并行系統(tǒng)又可分為共享存儲器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內(nèi)并行是指在單個DSP處理器內(nèi)通過多個功能單元的指令級并行（ILP）來實現(xiàn)ATR算法的并行化。本文分別對在共享存儲器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級并行DSP處理器上并行實現(xiàn)ATR算法進行了探討。

1 在共享存儲器多處理并行系統(tǒng)上實現(xiàn)ATR算法

在共享存儲器多處理器并行系統(tǒng)中，各個處理器通過共享總線對所有的存儲器進行操作，實現(xiàn)各個處理器之間的數(shù)據(jù)通信。而在任一時刻，只允許一個處理器對共享總線進行操作。所以處理器對存儲器進行讀/寫操作時就必須先獲得對共享總線的控制權(quán)，這通過總線仲裁電路實現(xiàn)。然而，由于所有的處理器只能通過一條共享總線對存儲器進行訪問，這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個并行系統(tǒng)的運行速度。共享存儲器多處理器并行系統(tǒng)的優(yōu)點是結(jié)構(gòu)簡單，當處理器的數(shù)目較少時，可以達到較高的加速比。

ADSP2106x處理器支持最為常用的共享存儲器多處理器并行系統(tǒng)，組成多處理器系統(tǒng)的每一片ADSP2106x的片內(nèi)存儲器統(tǒng)一編址，任一ADSP2106x可以訪問其它任何一片ADSP2106x的片內(nèi)存儲器。由于片內(nèi)SRAM為雙口存儲器，因而這種訪問并不中斷被訪問處理器的正常工作。每個處理器片內(nèi)SRAM既是該處理器的局部存儲器，又是共享存儲器的部分。在不增加輔助電容的情況下，通過外部總線接口直接相連的處理器數(shù)量最多為6個。由于每個處理器的工作程序放在其片內(nèi)的雙口SRAM中，因此各個處理器可以實現(xiàn)并行處理，這是ADSP2106x的存儲器結(jié)構(gòu)所決定的。

ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)時，在編寫并行算法程序方面應當重點考慮的問題包括：

（1）均衡地把任務分配給各個處理器

ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)任務級并行，因此必須把ATR算法劃分為計算量均衡的多個任務，把各個任務分配給多個處理器，才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。

（2）盡量減少多處理器之間數(shù)據(jù)通信

由于多處理器只能通過一條共享總線對存儲器進行訪問，這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競爭而降低整個并行系統(tǒng)的運行速度。

（3）利用單個處理器的并行編程特性

充分應用單個處理器的并行編程特性，有利于縮短各個處理器上任務的運行時間。例如，ADSP2106x的32位浮點運算單元包含一個乘法器、一個加法器和移位邏輯電路，它們并行工作；比特倒轉(zhuǎn)尋址在傅立葉變換運算時非常有用；循環(huán)尋址在作卷積、數(shù)字濾波運算時經(jīng)常用到等。

2 在分布式多處理器并行系統(tǒng)上實現(xiàn)ATR算法

在分布式多處理器并行系統(tǒng)中，多處理器有各自獨立的存儲器，多個處理器通過通信口相連構(gòu)成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關(guān)系，所以只要增加處理器的數(shù)目，分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構(gòu)成大規(guī)模并行系統(tǒng)。

目前，計算量過大仍然是制約許多有效的ATR算法實時實現(xiàn)的個主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實時實現(xiàn)是一個很有潛力的研究領域，特別在地基和天基雷達信號處理系統(tǒng)中有廣闊的應用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹形、星形、網(wǎng)孔和超立方體結(jié)構(gòu)等。樹形和星形網(wǎng)絡的優(yōu)點是網(wǎng)絡管理容易、數(shù)據(jù)通信進尋徑簡單；缺點是樹形網(wǎng)絡的根節(jié)點處理器和星形網(wǎng)絡的中央節(jié)點處理器的輸入/輸出吞吐量大，易造成通信瓶頸。所以樹形和星形網(wǎng)絡不適合ATR算法各個任務數(shù)據(jù)通信量較大的應用場合。

在分布式多處理器并行系統(tǒng)中并行實現(xiàn)ATR算法目前還處于研究的初始階段，在編寫并行算法程序應當重點考慮兩個方面：

（1）各處理器任務的均衡分配

在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多，只有合理地對眾多的處理器均衡地分配任務，才能最大地發(fā)揮并行系統(tǒng)的總體性能，提高并行系統(tǒng)的加速比。

（2）處理器節(jié)點間的高效通信

在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點對點通信。即兩個相鄰的處理器之間通過通信口通信。因此需要合理安排各個處理器節(jié)點在網(wǎng)絡結(jié)構(gòu)中的位置，盡可能地縮短處理器節(jié)點間的通信路徑長度，從而實現(xiàn)處理器節(jié)點間的高效數(shù)據(jù)通信。

3 在指令級并行DSP處理器上實現(xiàn)ATR算法

在單片DSP處理器內(nèi)通過多個功能單元的指令級并行（ILP）實現(xiàn)ATR算法的并行化處理，目前適合ATR算法實時處理的指令級并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個使用超長指令字（VLIW）體系結(jié)構(gòu)的數(shù)字信號處理芯片。下面以TMS320C62x定點系列DSP為例說明指令級并行的原理和ATR并行算法軟件開發(fā)方法。

3.1 VLIW體系結(jié)構(gòu)

TMS320C62x的內(nèi)核結(jié)構(gòu)如圖1所示。內(nèi)核中的8個功能單元可以完全并行運行，功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內(nèi)核采用VLIW體系結(jié)構(gòu)，單指令字長32位，取指令、指令分配和指令譯碼單元每周期可以從程序存儲器傳遞8條指令到功能單元。這8條指令組成一個指令包，總字長為256位。芯片內(nèi)部設置了專門的指令分配模塊，可以將每個256位的指令分配

【在DSP處理器上并行實現(xiàn)ATR算法】相關(guān)文章：

FFT算法的研究與DSP實現(xiàn)03-07

基于圖形處理器的可變形部件模型算法的并行化03-17

基于DSP的信道譯碼算法優(yōu)化03-19

圖像拼接算法及實現(xiàn)03-03

CF卡與雙核DSP的實現(xiàn)03-18

一種新型多DSP并行處理結(jié)構(gòu)03-19

多制式語音編碼及其DSP實現(xiàn)03-18

鐵路行包配裝算法研究與實現(xiàn)03-02

圖像處理中的模糊算法及實現(xiàn)03-13

久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

在DSP處理器上并行實現(xiàn)ATR算法