熱門關鍵詞：Mathworks Xilinx EMC Fairchild ARM

單芯片的一致多處理

發布時間：2010-9-25 23:35 發布者：eetech

隨著SOC設計元件的出現，如MIPS32 1004K一致處理系統（CPS），單操作系統條件下的片上對稱多處理（SMP）已經成為了一種真正的設計選擇，而系統架構師也需要了解其優點和局限性。

任務越多，越需要并行

復雜的模塊化多任務處理嵌入式軟件系統經常表現出“偶然發現的”并發，如圖1所示。該系統的總任務可能包括多任務操作，每個操作都有不同的職責，可滿足一系列不同的輸入需求。如果沒有分時操作系統，這些任務中的每個都必須在獨立的處理器上運行。在一個分時單處理器（uniprocessor）上，任務可以在交替的時間片段上運行。在一個采用SMP操作系統的多處理器上，任務可以并行地在許多可供使用的處理器上運行。

圖1 并行的多任務處理

分布式處理

另一種形式的并行處理已經成為司空見慣的事情，以至于有時甚至不被認為是“并行”的，這就是分布式計算，它的網絡客戶機/服務器模型是迄今為止最常見的范例。客戶機/服務器編程基本上是一種控制流分解的形式。一個程序任務將工作請求連接和發送給系統中的一個或多個專門任務，該系統被指定執行具體的工作，而不是由這個程序任務本身執行所有計算。客戶機/服務器編程通常是在LAN和WAN上實現的，SMP SoC內的任務之間的通信也是遵循同一個范例。人們可以利用片上或無效“環回”網絡接口通過TCP/IP進行未經修改的客戶機/服務器的二進制通信，或者更加有效地利用在存儲器中傳遞數據緩存的本地通信協議。

實際上，此類技術都可以單獨使用，或者結合使用，以利用給定應用的基于SMP平臺的能力。人們甚至可以構建一種分布式SMP服務器的數據并行陣列，其中每個陣列都可以執行一條控制流的流水線。但是，為了有效地實現這個方案，可能需要非常大的工作量和數據集。

系統軟件的支持非常關鍵

在有些SoC系統中，有可能實現處理器靜態物理分解任務的并行性（例如每個輸入端口有一個處理器內核），在這樣的SoC系統中，把并行的多個任務分配到不同的處理器去處理可以在硬件中完成。這將降低軟件開銷和占位面積，但是不能提供靈活性。

同樣，如果嵌入式應用可以被靜態地分解成客戶端和服務器端程序，這些程序通過片上互連進行通信，那末系統連接所需的唯一的系統軟件就是執行處理器間共用協議的信息傳遞代碼。信息傳遞協議可提供某些抽象層，可以用來配置更多或更少的處理器來運行共用基礎的應用代碼，但是對于任何給定的配置，處理器間的負載平衡就像硬件分區一樣無聲無息。為了實現更加靈活的并行系統編程，需要在一個共享資源的多處理器系統上完成軟件分布的任務。

SMP系統的靈活性和適應性

顧名思義，SMP操作系統有一個對系統“對稱”的含義。所有處理器都可以發現相同的存儲器、相同的I/O器件以及相同的全局操作系統的狀態。這將使從一個處理器到另一個處理器的程序移植變得極其簡單而有效，如圖2所示的簡單例子，也將使負載均衡更加容易。無須額外的編程或系統管理，一套采用時間分割的單個CPU上的多任務程序，將同時運行于一個SMP系統的可用CPU之上。如Linux調度程序的SMP調度程序將打開和關閉處理器的程序，一切都以一種公平的方式進行。

作為多處理運行的Linux應用不必為了發揮SMP的并行性而進行修改。在大多數情況下，無須重新進行編譯；一個例外則是與非線程安全庫靜態連接的二進制碼。

SMP Linux環境可以提供許多工具，有助于系統設計人員調節可用處理器的任務共享方式。這些任務可以讓它們的優先級上升和下降，可以由運行在處理器上的任意子集加以限制。利用適當核的支持，它們可以請求使用不同的實時調度狀態。

類UNIX操作系統總是允許應用程序對任務的相對調度優先級進行控制，即使是單處理器分時系統也是這樣。隨著能夠對任務、任務組或系統具體用戶的優先級進行操作的更復雜機制的出現，傳統上優良的外殼命令（shell command）和系統調用已經增加到Linux當中，這對評判該操作系統的優劣應該是十分必要的。

此外，在多處理器配置方面，所有的Linux任務都有一個參數，定義了哪些處理器組（set of processor）可以對任務進行調度。根據默認，這個參數存在于系統中的整組處理器當中，但是，像優先級一樣，這種CPU親合力可以由taskset外殼命令，或者由顯式（explicit system）調用來操作任務的“CPU親合力”。

圖2 多處理器資源上的SMP任務分布

實現SMP

一個SMP系統范例要求所有處理器在同一個地址看到所有的存儲器。對于簡單而低性能的處理器，這不是太難完成的事情。人們只要在一個共用存儲器和I/O總線上放置所有處理器的指令提取和裝載/存儲流量就可以了。隨著總線很快成為了一個性能瓶頸，這個非常簡單的模型利用增加的處理器迅速而漂亮地解決了這個問題。甚至在單處理器系統中，高性能的嵌入式內核指令和數據的帶寬需求要求在主存儲器及處理器之間使用高速緩存。

采用獨立每個處理器高速緩存的系統不再只是一個自然而然的SMP。當一個處理器的高速緩存包含了存儲器中某一位置的最近保持值（most recent value）的唯一備份時，就會出現一種基本而危險的不對稱。系統必須增加高速緩存一致協議以恢復這種對稱性。在一個非常簡單的系統中，所有處理器都連接到一條共用總線，它足以使所有高速緩存控制器監控總線，以發現哪個高速緩存擁有給定存儲器位置的最新版本。在更先進的系統中，如MIPS32 1004K CPS，處理器與存儲器的連接是采用點對點方式連接一個交換結構，而不是連接到一條總線。因此，高速緩存一致性需要更加復雜的支持。1004K一致管理器在存儲器處理上加入了一個全局順序（global order），并生成必要的干預信號，以保持多個1004K處理器內核的高速緩存的一致性。

因此，1004K處理器可以看到一個對稱的存儲器。像Linux的SMP操作系統可以自由地遷移任務并動態地平衡處理器負載。

在一個嵌入式SOC中，整個計算的大部分時間可能花在中斷服務方面。這意味著需要控制良好的負載均衡和性能調節，這不僅有助于控制程序任務的運行地點，而且還可以控制執行中斷服務的地點。Linux操作系統有一個“IRQ親合力”控制界面，這個界面允許用戶和程序指定哪個處理器用來服務一個給定的中斷。為了便于使用，這個界面需要底層的系統硬件提供一種方法將中斷有選擇地發送給處理器。1004K全局中斷控制器為1004K CPS提供了這種能力。

高速緩存一致基礎架構非常有用，不僅是在對稱多處理的處理器之間，而且在處理器和I/O DMA通道之間也是如此。雖然如MIPS32的RISC架構有支持基于軟件的I/O一致的特性，但還是需要CPU在每個I/O DMA操作之前或之后對DMA緩沖器進行處理。該處理功能對I/O密集應用的性能有著顯著的影響。在1004K CPS中，通過一個I/O一致單元將I/O DMA連接到存儲器，有助于DMA流量的條理化和與一致裝載/存儲流的整合，從而消除了軟件開銷。

采用管道，得到回報

由于1004K處理器VPE對于軟件來說看起來像成熟的處理器，大到有獨立的中斷輸入，所以，管理多個內核的同一個SMP操作系統邏輯可以用來管理其構成VPE。在最高水平的系統管理方面，全部VPE功能都在運行的雙核1004K系統是一個4路SMP系統的樣子。為了利用SMP而編寫或配置的軟件能夠自然而然地利用多線程，反之亦然。

雖然系統資源的想法仍然是對稱的，但事實上，雙線程爭用一條處理器流水線將比雙線程運行于獨立的內核實現的性能更低。這種情況在服務器系統中已經存在了許多年，其多線程CPU的一致集群十分常見，而1004K的SMP Linux核的配備可以實現必要的負載平衡的優化。如果要優化功耗，調度程序可以每次在一個內核的虛擬處理器上加載運行（load work），從而使其他內核能夠停留在一種低功耗狀態。

如果是為了優化性能，可以首先在不同的內核上展開運行（spread work），一旦所有內核都有一個要運行的動態任務，只需在每個內核上加載多個VPE就可以了。

結語

片上多處理可以多種方式進行開發，從而實現高性能的SoC。通過輸入數據或處理功能，可以實現非常高效的工作靜態分解，但這也是非常不靈活的。SMP平臺和軟件可以提供一個非常靈活的高性能計算平臺，以實現比單處理器更加顯著的加速，通常這需要很少的甚至不需任何應用代碼的修改。多線程是對SMP并行性的最好補充，可以最大限度地利用每個處理器中的流水線資源。MIPS32 1004K一致處理系統在一個單IP塊中整合了MIPS多線程和一致SMP，以提供可擴展、高密度的嵌入式計算能力。

本文地址：http://m.qingdxww.cn/thread-29198-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。