引言 嵌入式系統的核心部件是嵌入式處理器。在眾多的處理器中,ARM是專為嵌入式應用而設計的處理器,由于其低功耗、高性價比和易擴展性等特點,在嵌入式系統中得到了最為廣泛的應用。在許多成功的32位嵌入式系統中,ARM處理器都是其核心組成部分。ARM內核已被廣泛應用于移動電話、掌上設備以及種類繁多的便攜式消費類產品中。隨著ARM處理器越來越廣泛的應用,如何提高代碼的執行效率已成為工程師關注的問題,同時如何在實時嵌入式應用中,通過代碼優化以減少消耗過多的CPU運行時間已成為人們關注的焦點。軟件開發中,常用的代碼優化技巧有“循環展開”、“減少外存訪問”、“考慮CPU帶寬”、“循環減計數”、“循環變量數據類型”、“使用SWITCH取代條件判斷”等。而圖像在不同屏幕尺寸之間縮放的程序是嵌入式領域常常用到的功能。這里就以實現這樣一個常見功能的程序為例,說明程序優化的技巧。 1 實例分析 程序的目標是將一個長寬為240×160,格式為RGB565的顯示緩沖區的內容映射到長寬為320×240,格式也為RGB565的顯示緩沖區內。因為源數據寬度是240點,所以,放大到目的區域的時候,就需要每3個源數據點中,重復1點的數據,變成4點,放到目的顯示緩沖區中。同樣,每2行源數據也要重復1行,變成3行,放到目的顯示緩沖區中。源數據和目的數據分別定義如下(保證源顯示緩沖區和目的顯示緩沖區都是4字節對齊起始的): ![]() 注:以下所有程序均是使用ADS1.1編譯,CPU主頻為100 MHz,使用ARM7EJ-S為目標處理器,小端編譯方式,測試的時間是以所有的程序和數據均是Cache全命中為前提測試得到的。 2 原始程序 下面這段程序是沒有經過任何優化的程序,僅僅實現了相應的功能要求,運行時間為10 ms。 ![]() 3 優化步驟 第一,采用循環展開的技巧進行優化,也就是盡量減少內層循環的次數。這里在行循環中,由原來的每次處理1行源數據,一共循環160次,改成每次處理 2行源數據,一共只需要循環80次。同時,在行內部的列循環中,由原來的每次處理1個源像素點,一共循環240次,改成1次處理3個源像素點,一共只需要循環 80次。運行時間縮短為8 ms。 ![]() ![]() 第二,因為ARM處理器的帶寬是4字節,所以,取數據時也使用4字節的方式是效率最高的,程序設計時也要盡量利用這個特點提高效率。下面就利用這個特點,每次取源數據時都取4字節。因為行內部是每3點要重復1點,因此,行內部循環改為每次處理6個像素點,這樣,又進一步減少了循環次數。運行時間縮短為4 ms。 ![]() 第三,訪問外存往往是程序運行的瓶頸,因為外存的速度一般遠遠低于CPU運行速度,所以,在編程的過程中,要盡量減少對外存的訪問。下面,將行循環中重復寫入的那行在上一行生成的過程中直接完成,減少了拷貝重復行過程中讀取1行的時間。運行時間縮短為3 ms。 ![]() 結語 本文以圖像在不同屏幕尺寸之間縮放的程序為例講解了代碼優化技巧方法,給出了源代碼進行探討,并通過實驗得以證實。希望有助于讀者編寫出在提高執行速度和減小代碼尺寸方面更高效的C源代碼。 參考文獻 1. Sloss Andrew N,Symes Dominic,Wright Chris.ARM System Developer's Guide Designing and Optimizing System Software[M].Boston:Morgan Kaufmann Publishers,2004. 2. 梁東鶯,鄭瑋琨.ARM處理器下C語言編程效率優化[J].深圳信息職業技術學院學報,2007,6(5). 3. 馮德錦.基于ARM處理器的手持設備程序優化[J].單片機與嵌入式系統應用,2002(9). 4. 三恒星科技.ARM嵌入式系統入門[M].北京:中國電力出版社,2008. 5. 金麗,包志華,陳海進.基于ARM嵌入式系統的C程序優化設計方法[J].南通大學學報:自然科學版,2006(3). 6. 辛鑫,蒙建波,羅根.由C到ARM匯編指令及程序優化[J].單片機與嵌入式系統應用,2007(6). 作者:武警工程學院 李靜 來源:《單片機與嵌入式系統應用》 2009(8) |