隨著130nm和90nm工藝的成熟,每平方毫米的硅片面積上可以集成大約100K~200K的邏輯門,一顆面積大約50mm2的低成本芯片可以容納5M~10M邏輯門。越來越多的SoC設計者正在試圖將整個系統集成在一顆芯片上,但是他們也面臨著嚴峻的挑戰,因為傳統的基于RTL的SoC硬件設計方法的缺點正日益顯現出來: ● 設計能力——以前,硅片容量和自動化設計工具的能力將一個RTL模塊的規模限制在100K左右,如今在一個硅片上即使是500K邏輯門的模塊也不會受到這些限制,但是設計方法卻沒能跟上硅片容量增長的腳步。 ● 驗證困難——一個典型邏輯模塊的內部設計復雜度以及潛在的出錯可能性隨著其邏輯門數的增加而迅速增大,這導致了驗證的難度不成比例的增加。許多SoC設計團隊聲稱他們90%的工作量花在了驗證工作上。 ● 修復成本——修復SoC設計中錯誤的成本正在增加。人力成本和NRE費用都在不斷增加,與此同時利潤率及市場份額卻在不斷下降,這使得設計錯誤變得越來越無法忍受。因此可以減少錯誤或降低修復成本的設計方法迅速發展起來。 ● 軟硬件整合——所有的嵌入式系統中都有大量的軟件和固件程序,一般來說,整合軟件只能放在系統開發的最后,并且往往被認為是拖累開發進度的罪魁禍首。 ● 標準變化與靈活性——通信協議的標準正在迅速變化中。為了充分利用有限的頻帶資源,協議設計者們提出了很多創新性的協議標準,如IPv6、 G.729、JPEG2000、MPEG4和AES等。這些新標準需要的計算性能比以前的標準要高得多。 指令集固定且固件可編程的通用嵌入式處理器仍然非常具有吸引力,因為它們可以處理很多任務,但通常這類處理器缺乏復雜數據處理的能力,如網絡應用中的包處理,視頻以及加密應用中的數據處理等。為了滿足類似的性能需求,芯片設計者不得不回過頭來求助于RTL硬邏輯。隨著設計復雜度和運算性能的不斷提高,設計的規模也在不斷增大,SoC設計人員需要有更多的資源才能完成芯片設計。同時,他們還面臨著以下兩個挑戰: ● SoC設計者如何保證芯片的規格真正符合客戶的需要。 ● SoC設計者如何保證芯片符合當初的設計規格。 在SoC設計中使用微處理器 解決上面兩個問題的辦法是賦予SoC設計足夠的靈活性,從而使一顆芯片能夠應用于10個、100個甚至 1000個不同的系統設計,這種需求推動了通用SoC設計的出現,從而分攤了大量芯片設計的成本。大多數的嵌入式系統都需要高速處理外部復雜的實時數據,通用微處理器需要運行在極高的頻率上才能滿足這些數據處理任務的要求。在個人電腦市場上正是如此,價值數百美元的PC處理器消耗幾十瓦的功耗來完成用戶任務。但是對于嵌入式應用來說,昂貴且耗電的芯片是沒有市場的,于是設計者們轉而使用RTL硬邏輯來執行高速數據處理任務。過去10年中,在邏輯綜合等 ASIC設計工具的幫助下,RTL硬邏輯得到了廣泛使用,這種方法已經被證明能夠合理且有效的并行完成高速數據處理任務,其性能可以達到通用微處理器性能的幾十甚至上百倍。與基于RTL的設計類似,可擴展處理器技術針對特殊應用定制的高速邏輯模塊也需要使用邏輯綜合工具。不同之處在于,RTL設計中的狀態機只能通過硬件控制,而可擴展處理器中邏輯模塊的狀態則可以通過軟件控制,這就大大提高了設計的靈活性。 圖1 Xtensa可配置處理器模塊圖 可擴展處理器的優勢 完整的可配置與可擴展處理器技術包括了處理器本身以及相應的設計工具和軟件開發環境,從而使設計者通過改變或增減功能模塊,設計出與特定的應用需求相匹配的處理器。典型的配置方法包括對存儲器的增減修改,外部總線寬度及握手協議的設置以及常用的處理器外設的配置。除此之外,還可以對處理器進行擴展——SoC設計者可以擴展處理器的功能,特別是其指令集——為基本處理器增加原設計者從未想到過的功能。配置處理器的概念是通過參數來選擇或裁剪處理器的功能,配置后的處理器可以通過多種方式硬件實現,包括耗費數周時間的ASIC方式或僅需幾分鐘的FPGA方式。擴展處理器的概念是設計人員為處理器增加原設計者從未考慮到的功能,是可配置處理器的一個超集。對于可配置與可擴展處理器來說,在提供處理器硬件實現的同時,還必須能夠自動生成相應的軟件開發環境。沒有編譯器,匯編器,仿真器,調試器,實時操作系統以及其他軟件工具的支持,可配置與擴展處理器所提供的高性能與靈活性也就無從談起,因為只有讓軟件人員能夠方便的編程,才能將處理器的性能與靈活性發揮出來。 以Tensilica的可配置與可擴展處理器Xtensa為例,其模塊圖如圖1所示。它包括了基本指令集架構、通用寄存器文件、存儲器接口、可選的處理器外設、DSP協處理器以及集成用戶定制指令的機制。 處理器的可擴展能力可以看做可配置的高級形式,因為它的應用更為廣泛。系統設計者和應用專家可以直接探索應用的性能需求以及什么樣的處理器架構和指令集才能滿足這樣的需求。 微處理器的應用將SoC設計與板級設計區分開來 RTL硬邏輯有許多優勢——面積小、功耗低、性能強大。但是在大規模的SoC設計中,采用 RTL硬邏輯的不利因素(設計周期長、驗證困難、不夠靈活)正在逐漸大過其優勢。而保留了大多數RTL硬邏輯的優點,又能夠縮短開發時間并降低風險的設計方法正在流行起來,這就是針對特殊應用進行優化以取代復雜RTL設計的可配置處理器。 針對應用進行優化的處理器與相應的RTL設計擁有相近的數據通路,它在基本處理器核的流水線上增加額外的運算單元,新的寄存器或寄存器文件以及芯片架構師定義的其他功能模塊來實現特定的應用。 在 Xtensa處理器中,這些擴展功能是利用一種名為TIE語言的類Verilog語言來描述的。TIE語言經過優化,適用于描述數據處理指令的功能并對其進行編碼。用TIE語言來進行描述比RTL要簡潔得多,因為它去掉了所有時序邏輯,包括狀態機描述、流水線寄存器以及初始化順序。對于固件程序員來說,處理器中用TIE語言擴展的新指令和寄存器都可以通過編譯器和匯編器來進行調用。利用處理器中取指、譯碼、執行的流水線機制,通過C或C++高級語言編程,可以由固件程序來控制處理器數據通路上的操作。用來替代RTL模塊的可擴展處理器與傳統的RTL設計在結構上大同小異:更深的流水線、并行的執行單元、特殊的狀態寄存器、比片內外存儲器間更寬的數據接口等。這些擴展后的處理器保留了原來RTL設計強大的運算能力和數據接口格式。 可擴展處理器對數據通路的控制機制則與RTL設計中依靠硬件狀態機切換狀態大為不同。實際上,操作的順序完全由處理器上運行的固件程序控制,如圖2所示。用跳轉指令來實現控制操作,load/store指令來實現內存操作,通用和專用計算指令來實現數據運算操作。 圖2 可編程的功能模塊:數據通路+處理器+軟件程序 移動電話領域中的Viterbi解碼的例子可以很好地說明可擴展處理器可以替代RTL硬邏輯。 GSM標準利用Viterbi解碼將信息從包含噪聲的信道中提取出來。解碼過程中會用到包括8次邏輯計算(4次加法、2次比較、2次選擇)的蝶形運算,從接收到的數據流中每解碼一個符號需要 8次蝶形運算。如果采用通用RISC處理器,需要50~80個指令周期完成一次Viterbi蝶形運算,即使在TI高端的超長指令字DSP 320C64xx上,也需要1.75個周期。 圖3 Viterbi蝶形算法硬件模塊 利用TIE語言,設計者可以為Xtensa處理器增加一條專門完成Viterbi蝶形運算的指令,使用處理器的128位寬I/O總線一次取 8個符號數據,如圖3所示為處理器添加運算單元和地址產生邏輯,這樣完成一次Viterbi蝶形運算只需要0.16個周期。在未擴展的Xtensa處理器上執行Viterbi蝶形運算需要42個周期,也就是說,通過增加蝶形運算的專用硬件(大約11000門電路),就獲得了250倍的性能提升。 結論 如今,軟件模塊硬邏輯化的現象非常普遍。在開發協議標準的早期,通常采用基于處理器的實現方法,一些常見的標準,如視頻領域的 MPEG2算法,3G通信領域的W-CDMA算法、安全加密領域的SSL和triple-DES算法,都是由處理器實現逐漸過渡到RTL硬邏輯實現。但是這種過渡正在被軟硬件實現方法間巨大的性能與設計難度差別所限制。可配置與可擴展處理器的出現帶來了一種新的設計方法,既可以方便快速的進行芯片開發,靈活適應新的協議標準,又具有足夠小的芯片面積和功耗,從而可以進行大規模的生產。 |