在當今的電信時代,由于采用大規模的電子計算機對數據進行處理,使得信息的傳遞大大加速,但是,也隨之出現了令人最為擔心的問題,就是信息的安全性。對信息進行保護的方法就是數據加密,通過對網絡上傳輸的數據和系統內存儲的數據進行加密,可以大大提高網絡和信息的安全性。以較高的安全性而被廣泛采用的RSA公鑰密碼體制,在現代安全性制中占有重要地位。RSA算法由于在加密和解密過程中要進行大量的數值運算,存在難以實現的問題;而采用純軟件的方式實現RSA算法,雖然降低了解密的強度,但卻增加了運算時間。本文采用一種軟硬件相結合的方式來實現RSA算法。 DSP(Digital Signal Processor)芯片,即數字信號處理器,是一種特別適用于進行實時數字信號處理的微處理器。TMS320C54x系列是一種有特殊結構的微處理器,其內部采用程序與數據分開的哈佛結構;具有專門的硬件乘法器,廣泛采用流水線操作,使用特殊的DSP指令,可以用來快速地實現各種數字信號處理算法。正因為TMS320C54x系列的這些特點,比較適合RSA算法使用,實現對串行數據的加、解密。 1 RSA算法 RSA算法是由Rivest、Shamir與Adleman三人于1978年合作開發的,并以他們的名字命名的公開密鑰算法。其加密密鑰是公開的,而解密密鑰是保密的。它是基于一個非常簡單的數論思想:“將兩個素數乘起來是很容易的,但是分解該乘積是非常困難的”。 RSA算法的特別為利用素數(也就是質數)的因式不可分解性,選用很大的素數(一般為幾百位到幾千位),為了使政府部門與軍事部門的數據保密,大多采用幾千位以上的素數作為加密的密鑰。RSA算法的要點與難點有二:①算法主要為求模取余運算,這給此算法的應用增添了實際的應用難度,因為給一個幾千位的素數進行求模取余運算是很難的;②判斷一個數是否為素數也是數學界幾百年來一直討論與研究證明的難題,雖然費馬提出了著名的“費馬猜想”,但一直卻未得到過完全的證明,基于此要找一個幾千位的素數更是難上加難。 (1)RSA算法原理 RSA算法是基于數論中的同余理論。如果用m代表明文,c代表密文,E(m)代表加密運算,D(c)代表解密運算,x=y(mode z)表示x和y模z同余,則加密和解密算法簡單表示如下: 加密算法 c=E(m)=me(mod n) 解密算法 m=D(c)=cd(mod n) 其中n和密鑰e是公開的,而密鑰d是保密的。 下面討論密鑰的求取: ①選取兩個隨機大素數p和q(保密); ②設n=p%26;#215;q; ③歐拉函數φ(n)=(p-1)(q-1)(保密); ④選取與φ(n)互素的正整數e,即滿足gcd(φ(n),e)=1和0 其中:ei∈{0,1},i=0,1,Λ,k-1。 這樣,在計算me(mod n)時,先做一次平方運算,然后根據ei的值,再做一次乘法運算,以此來簡化模運算的復雜性。 由于實際中的e值非常大,為了提高運算速度,可以將e進行分組后運算。設對e以四位一組(十六進制)的形式計算me(mod n),那么: 其中:ei∈{0,1,2,…,15},t=k/4; ②求出m2,m3,…,m15(mod n); ③設置變量c:=1; ④對于i=t-1,t-2,…,1,0重復計算: c:=c2(mod n)(平方); c:=c2(mod n)(四次方); c:=c2(mod n)(八次方); c:=c2(mod n)(十六次方); e.若ei≠0,則c:=c%26;#215;mei(mod n)。 ⑤所得c即為所求。 由上面的模運算方法分析可知,該算法的運算所需的平方和乘法次數是最少的,因此選擇這種算法來實現模運算可提高運算速度。有了基本運算思路和步驟以后,就可以利用TMS320C54x DSP芯片來開發RSA算法了。 2 軟硬件的實現 在嵌入式應用場合,對于大規模的乘法運算,采用單片機來實現顯然力不從心;而TMS320C54x DSP芯片的特點恰好滿足RSA算法的要求,是實現此算法的首選芯片。本課題中所選用的是德州儀器公司生產的TMS320C5402芯片。 (1)TMS320C5402芯片概述 TMS320C54x芯片是為實現低功耗、高性能而專門設計的定點DSP芯片,主要應用在無線通信系統和遠程通信嵌入式系統中。本文所用的TMS320C5402芯片是此系列的一個典型產品,除了繼承老產品的優點外,還增加了更多的硬件資源,該芯片的主要特點有: ①速度快,指令周期為10ns,運算能力為100MIPS; ②強大的尋址能力,1M%26;#215;16位最大可尋址外部存儲空間,內置16K%26;#215;16位RAM,4K%26;#215;16位ROM; ③40位的算術邏輯運算單元(ALU),包括2個獨立的40位累加器和1個40位的桶形移位寄存器; ④1個17位%26;#215;17位的硬件乘法器和1個40位的專用加法器,乘法器/加法器單元可以在一個流水線狀態周期內完成一次乘法累加(MA)運算; ⑤先進的多總線結構(3條數據總線、1條程序總線和4條地址總線),多條數據總線可以同時讀取多個數據,使得指令集的功能強,效率更高。 (2)硬件設計 在本設計中,外設提供的串行數據是標準RS232電平,經過電平轉換后達到可以處理的TTL電平,直接與DSP芯片的異步接收發送引腳相連;DSP將接收到的數據進行加、解密處理,并存儲在外部數據存儲器中,等待中斷程序進行讀取。 電路原理框圖如圖1所示。 在本DSP系統中,SRAM與DSP芯片的接口構成32K字的外部程序存儲器和16字的外部數據存儲器,其中外部程序存儲器的地址范圍是48000H~4FFFFH,外部數據存儲器的地址范圍是4000H~7FFFH;并行8位EPROM與DSP芯片的接口構成32KB的引導裝載EPROM,可以使DSP系統成為獨立運行系統,其地址范圍是8000H~FFFFH。 當DSP芯片工作在微計算機方式(MP/MC=0)下,復位時,外部并行8位引導裝程序從外部EPROM中讀取引導裝載表,并且裝載程序代碼到DSP片外程序存儲器中。在外部并行8位引導裝載模式下,可對軟件等待狀態寄存器(SWWER)和切換控制寄存器(BSCR)進行配置,使高速DSP芯片能從相對較慢的外部EPROM中讀取數據,缺省的設置是7個等待狀態。 硬件的設計是最為重要的,必須嚴格分析DSP工作過程中的時序問題,而且還要考慮到指令在執行時所消耗的時間;要考慮到該時間與外圍器件的運行速度是否匹配等諸多因素,若單個軟件設計成功而支持軟件的硬件未設計成功,也就意味著整個設計等于零。 (3)軟件設計 軟件開發過程包括:利用任何文本編輯器編寫源代碼文件,然后通過編譯、匯編和鏈接,生成DSP可執行的COFF目標代碼,最后將生成的可執行目標代碼通過仿真器下載到DSP目標系統中運行,再利用調試工具進行調試,達到設計要求。待程序調試通過后,就可以將所調試通過的程序代碼利用Hex轉換工具轉換為二進制文件,再用編程器將程序寫入外部EPROM中,形成獨立的DSP系統。 開發語言分為匯編語言與高級語言兩類。其中匯編語言編譯器的效率高,但是由于生產DSP芯片的廠家開發出的DSP芯片所支持的匯編語言差異較大,其指令、尋址方式差異更大,并且可讀性與可移植性不強。為克服這個缺點,廠家大都開發出支持高級語言的工具,典型的如“C語言”;而C語言的編譯器效率比不上匯編語言;特別是在處理低層硬件中就顯得蒼白無力,所以一個優化高效的DSP應用程序都采用高級語言與匯編語言共同完成。 結語 本文介紹了RSA算法的基本原理以及用TMS320C5402 DSP芯片的實現方法。DSP芯片因其特有的硬件結構和靈活的軟件編程功能,比較適合于RSA算法的實現。實踐證明,以這種方式實現的RSA算法在速度和安全性能上都有較大提高,因此可應用于互聯網和分散控制系統等領域。 |