高效率嵌入式ARM程序開發

小可愛ing · 發表于 2011-1-21 16:33:23

在多媒體、通信等計算復雜度高的應用中，為了滿足制造費用、功耗、性能以及實時性等諸多**條件的要求，嵌入式系統程序往往需要特殊設計。這使得設計師在設計面向特定應用的嵌入式軟件時，需要有一套切實可行的編程準則。而在實際程序設計中，工程師尤其需要考慮對變量的使用和循環程序的處理。
變量使用
　在進行實際程序開發時，變量的使用至關重要,其中使用全局變量比向函數傳遞參數更加有效，這樣免去了函數調用時參數入棧和出棧的需要。當然，使用全局變量會對程序有一些副作用。變量定義的次序會導致最終映像中數據布局的不同，如圖1所示。

圖1 變量映像次序混亂狀況
　由此可見，在聲明變量時，需要考慮怎樣最佳地控制存儲器布局。最好的方法是在編程的時候，把所有相同類型的變量放在一起定義。
　通常，工程師設法使用short或char來定義變量以節省存儲器空間。在函數的局部變量數目有限的情況下，編譯器會把局部變量分配給內部寄存器，每個變量占用一個寄存器。在這種情況下，使用short和char型變量不但不會節省空間，反而會帶來其它的副作用。如圖2所示：假定a是任意可能的寄存器，存儲函數的局部變量。同樣完成加1的操作，32位的int型變量最快，只用一條加法指令。而8位和16位變量，完成加法操作后，還需要在32位的寄存器中進行符號擴展。其中，帶符號的變量，要用邏輯左移和算術右移兩條指令才能完成符號擴展；無符號的變量，要使用一條邏輯與指令對符號位進行清零。所以，使用32位的int或unsigned int局部變量最有效。某些情況下，函數從外部存儲器讀入局部變量進行計算，這時候，需要把不是32位的變量轉換成32位。至于把8位或16位變量擴展成32位后，隱藏了原來可能溢出異常這個問題，需要進一步仔細考慮。

圖2 不同類型局部變量的加法程序
　在程序中，經常會使用switch case語句，每一個由機器語言實現的測試和跳轉僅僅是為了決定下一步要做什么，就浪費了處理器時間。為了提高速度，可以把具體的情況按照它們發生的相對頻率排序。即把最可能發生的情況放在第一，發生概率小的情況放在最后，這樣會減少代碼平均執行時間。
　通常，工程師總是竭力避免使用冗余變量，以精簡程序。一般情況下這樣做是正確的，但是也有例外，如下所示：

int f(void);
int g(void);
//f()和g()不訪問全局變量errs
int errs;          //全局變量
void test1(void)
{
errs += f();
errs += g();
}
void test2(void)
{
  int localerrs = errs;
// 定義冗余的局部變量
  localerrs += f();
  localerrs += g();
  errs = localerrs;
}
　在第一種情況test1()里，每次訪問全局變量errs時都要先從相應的存儲器下載到寄存器里，經f()或g()函數調用后再存儲回原來的存儲器里面。在該例子中，一共要進行兩次這樣的下載/存儲操作。而在第二種情況test2()里，局部變量localerrs被分配以寄存器，這樣一來，整個函數就只需要一次下載/存儲全局變量存儲器了。盡量節省存儲器訪問的次數，對于提高系統性能非常有用。
循環程序的處理
　計數循環是程序中常用的流程控制結構。在C中，類似下面的for循環比比皆是：
　for(loop=1；loop<=limit；loop++)
　這種累加計數的方法符合一般的自然思維習慣，所以比下面的遞減計數方法使用更多：
　for(loop<=limit；loop!=0； loop--)
　這兩者在邏輯上并沒有效率差異，但是映射到具體的體系結構中，就產生了很大的不同。
累加法比遞減法多用了一條指令，當循環次數比較多的時候，這兩段代碼就會在性能上產生明顯的差異。分析其本質原因，在于當進行一個非零常數比較時，必須用專門的CMP指令來執行；而當一個變量與零進行比較時，ARM指令可以直接利用條件執行的特性(NE)來進行判斷。很多時候循環展開由編譯器自動完成，不過應注意對中間變量或結果被更改的循環，編譯程序往往拒絕展開，這時候就需要工程師自己來做展開工作了。
　尤其值得注意的是，在有內部指令cache的CPU上(如ARM946ES芯片)，因為循環展開的代碼很大，往往會出現高速緩沖存儲器溢出。這時展開的代碼會頻繁地在CPU的高速緩沖存儲器和內存之間來回調用，又因為高速緩沖存儲器速度很高，所以此時循環展開反而會變慢。同時，循環展開會影響矢量運算優化。
　ARM處理器核對NZ(零比較轉移)有特別的指令處理，速度非常快，如果你的循環對方向不敏感，可以由大向小循環。需要注意的是，如果指針操作使用了i值，這種方法可能引起指針索引超界的嚴重錯誤(i = MAX+1)。當然你可以通過對i做加減運算來糾正，但是如果這樣就沒有提高效率的作用了。
結語
　本文對高效率嵌入式ARM程序開發總結了一些編程技巧。在實際的嵌入式系統開發中，可以大大的提高系統的性能，特別是在多媒體和通信等復雜度高的應用中，對程序設計具有指導意義。

45085608 · 發表于 2011-2-13 17:24:39

學習了

dzda · 發表于 2011-2-17 23:52:12

了解一下

zhkaikai · 發表于 2011-3-5 11:10:17

借來研究下

linhaifeng · 發表于 2011-4-6 20:13:07

學習了

linhaifeng · 發表于 2011-4-9 01:29:22

haobinshuaike · 發表于 2011-5-14 14:03:32

很好很強大

ckq1988 · 發表于 2011-6-4 02:03:47

很好很強大

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

高效率嵌入式ARM程序開發

相關文章