行人是城市交通系統的主要參與者,保障行人安全和減少其對機動車的干擾是城市交通系統建設的重要目標,因此對行人交通的研究也越來越受到重視。行人交通研究的主要問題包括行人檢測、目標跟蹤和行為分析。基于視頻的行人檢測與傳統的紅外檢測、GPS檢測、激光檢測等方法相比,具有不破壞路面、維護方便、實時性好、可檢測的參數多等優點,成為實時交通信息采集和處理技術的發展方向。 視頻圖像中的陰影會影響行人的檢測與跟蹤,因為陰影的存在會造成檢測目標的變形、合并、甚至丟失,使得目標定位及計數不準確。近年來,科研工作者對圖像中的陰影去除問題進行了大量研究,在這些研究方法中,考察的圖像特征主要有三種:光譜特征、空間特征和時間特征。光譜特征針對像素點,如灰度值、顏色信息等,根據當前圖與背景圖的色差、亮度差值等判斷像素點是否為陰影,或者對圖像進行變換得到光照無關圖進而去除陰影;空間特征是針對某一區域或某一幀圖像,根據檢測到的圖像的輪廓、紋理、邊緣等信息判斷是否為陰影,如利用圖像的輪廓特征,找到目標與陰影的邊界線,對本體和陰影粗分,再建立陰影像素的高斯模板進行細分,既減少了計算量又能達到較好效果;時間特征一般都是與前兩種特征結合使用,可以用于對陰影方向或運動速度的估算等,以進一步提高陰影去除效果。 本文提出一種新的基于YUV顏色空間的陰影去除算法,因為很多攝像頭的輸出信號采用YUV顏色空間,與基于RGB顏色空間的處理方法相比,省去了圖像顏色空間轉換的步驟,能提高處理速度。在圖像特征上,本文結合像素點的光譜特征與圖像整體的空間特征,首先通過亮度差和色差對像素點進行判斷,再利用目標本體與陰影只相接不相交的空間特征,對去除結果進行修正,使其陰影去除效果更好。同時,為了使算法適應光照、場景等的變化,采用模糊神經網絡進行目標本體與陰影的分類,用遺傳算法對網絡參數和權值進行自適應調整,以提高算法的魯棒性。 1 YUV顏色空間 在色彩學上,為了可以準確定量地描述顏色,將色彩定義為三大屬性:“Y”表示明亮度,即灰度值;“U”和“V”表示色度,作用是描述圖像色彩及飽和度,用于指定像素的顏色。根據美國國家電視制式委員會NTSC制式的標準,白光的亮度用Y來表示,色差U、V由B-Y、R-Y按不同比例壓縮而成,與紅、綠、藍三色光的關系可用式(1)描述,這也是常用的轉換公式。YUV到RGB的轉換公式則如式(2)所示。 式中,R、G、B的取值范圍均為0"255。通常攝像機的數據以RGB、YUV或YCrCb的格式輸出。采用YUV顏色空間的重要性是它的亮度信號Y和色度信號U、V是分離的。目前有很多種顏色空間可以將圖像的色度分量和亮度分量區分開來,如HSV顏色空間,但是這種轉換較為復雜,對于大型圖像非常耗時,并且在亮度值和飽和度較低的情況下,采用HSV顏色空間計算出來的H分量是不可靠的。 在YUV顏色空間中,如果只有Y信號分量而沒有U、V信號分量,則這樣表示的圖像就是黑白灰度圖像。除去亮度信號后,由U和V單純表現出色度。因此,如果要將U與V色差信號用色相及飽和度來表示,必須從含有三維空間的色點P投影到U-V平面的P′點,如圖1(a)所示。U-V平面投影法在受到不穩定光源亮度的擾動時,對于目標色度有較大的精確性且不易辨識錯誤,但是當光源色溫變化過大時,其飽和度和色相的增減變化不易掌握。因此,如果需要判定兩個任意色點是否為同一色度時,必須確定其色相與飽和度都是相等的。如圖1(b)所示,對兩個色點P1與P2,當其與U軸的夾角α1=α2時,表示色相相等;當其與原點的距離L1=L2時,表示飽和度相等。當兩者都相等時,表示色度完全相同。 對于光源亮度的不穩定因素,只要光源亮度不是極值(極亮或極暗),對于相似顏色,如深藍色和藍色,就有相近的色度關系。對運動目標本體和陰影,也有相近的色度,但亮度值差別較大,可通過計算當前圖與背景圖之間的亮度差值和色差來進行陰影去除。 上述準則在應用中,要注意Ymin、ε和Δα等閾值的選取,因為這對判斷結果的影響較大。要找到合適的閾值[9],需要對視頻資料進行大量的仿真實驗,這需要花費很長時間,而且根據現有資料得到的閾值不能根據場景、光照等的變化自適應進行調整,實用價值不大。 針對上述問題,將模糊神經網絡[10-11]融入到目標本體與陰影的分類中是很好的解決方法。它利用神經網絡的自學習能力和自適應能力來調整模糊規則和隸屬度函數,通常對神經網絡的訓練采用BP算法,但是BP算法具有收斂性依賴初始條件,容易陷入局部極小值等問題。因此,本文采用遺傳算法優化模糊神經網絡的結構和參數,并自動獲得最優的模糊規則,使網絡能自動適應場景與光照的變化。 2.3 模糊神經網絡 模糊神經網絡的結構如圖2所示。 式中,ui表示對第i個模糊子集的隸屬度,zi表示輸出結論的支集值。最后,對輸出結果進行二值化表示,1表示目標本體,0表示陰影。當結果小于0.05時,認定為陰影;結果大于0.95時,認定為目標本體,當結果在0.05"0.95之間時,認為無法判斷。 2.4 網絡自適應優化 用遺傳算法對模糊神經網絡的結構和參數進行優化。網絡的結構優化指確定第3層節點數、第3層和第2層的連接數、以及第3層和第4層的連接數和連接權值。網絡的參數優化包括輸入變量的隸屬度函數的中心參數和寬度參數、輸出變量的隸屬函數支集值。 種群的每個個體由網絡結構和網絡的輸入隸屬度函數參數和結論參數組成,其長度為結構基因長度+參數基因長度。結構基因中“連接”采用二值的編碼,“0”表示沒有連接,“1”表示有連接,連接權值ωji用(0"1)之間實數編碼。輸入的隸屬度參數Cji和bj、結論參數zi采用實數編碼。一個染色體對應一種模糊神經網絡結構及其參數。初始種群中包含著對應于最大節點數及輸入變量和輸出變量在其變化范圍內均勻劃分模糊子集的個體,其余個體隨機產生。將根據經驗得到的規則集及輸入輸出模糊劃分對應的向量選入初始種群。 遺傳操作包括復制、交叉、變異。為簡化運算實現實時處理,本文僅采用變異操作。二值編碼按一定的概率將控制基因串中的位從0變異為1,或者從1變異為0。實數編碼按下式突變: 2.5 空間特征 考慮到圖像中陰影和目標本體相接但互不相交,對于不能判斷的像素及初步識別結果,按下述規則進行判斷和修正:(1)如果周圍像素點多數為“陰影”,則該點是“陰影”。(2)如果周圍像素點多數為“目標”,則該點是“目標”。(3)如果周圍像素點多數是目標而被判斷為“陰影”,則改判斷為“目標”。(4)如果周圍像素點多數是陰影而被判斷為“目標”,則改判斷為“陰影”。這里的多數是指相鄰8個像素點中5個以上。 3 實驗結果和分析 圖3、圖4是室外拍攝的視頻序列的處理結果,視頻序列共2 571幀,單幀圖像大小為354×288,圖3是第154幀圖像,圖4是第363幀圖像。 童車在圖3中作為背景被提取出來,而在圖4中成為前景。與圖3相比,圖4中光照有較大變化,圖3(d)、圖4(d)、圖5(d)表明模糊神經網絡分類器能有效地進行陰影去除。由圖5(d)可見,通過陰影去除,行人能被分隔開來,這樣有利于提高視頻檢測的準確率。 表1是對在不同路口拍攝的行人視頻進行行人檢測的結果,進行陰影去除后視頻檢測的平均準確率由61.52%提高到80.15%。 本文給出了一種新的陰影去除算法,該算法以YUV顏色空間為基礎,用模糊神經網絡分類器識別對像素點提取的光譜特征是否為陰影,網絡的結構和參數采用遺傳算法進行實時更新,最后結合運動目標與陰影的空間特征對分類結果進行修正。實驗表明,該方法能適應光照、場景的變化,通過陰影去除能明顯提高行人視頻檢測的準確率。 本文關于行人視頻檢測的研究尚處于起步階段,對視頻檢測中的遮擋問題、運動描述和行為理解問題還在進一步研究中。 |