智慧社區(qū)的安全 當(dāng)人們談?wù)撐磥?lái)的生活時(shí),智慧社區(qū)一直是繞不開(kāi)的話題。2020年5月,中國(guó)《2020年國(guó)務(wù)院政府工作報(bào)告》提出,要重點(diǎn)支持“兩新一重” (新型基礎(chǔ)設(shè)施建設(shè),新型城鎮(zhèn)化建設(shè),交通、水利等重大工程建設(shè)),其中前兩項(xiàng)“新基建”和“新城建”,都會(huì)把智慧社區(qū)作為一個(gè)關(guān)注點(diǎn)。 智慧社區(qū)包含大量新鮮技術(shù),可以方便人們的生活。除了社區(qū)的自動(dòng)售貨超市,典型的應(yīng)用還有家里的智能家居系統(tǒng)、樓下的自動(dòng)停車系統(tǒng)。眾多應(yīng)用中,以社區(qū)安保系統(tǒng)最為關(guān)鍵。小到進(jìn)入社區(qū)和住宅樓的門禁系統(tǒng),大到整個(gè)社區(qū)的攝像頭網(wǎng)絡(luò),智能系統(tǒng)可以代替保安進(jìn)行身份驗(yàn)證、巡邏、危險(xiǎn)預(yù)警等工作。 美劇《疑犯追蹤》(Person of Interest)就描述了由高級(jí)人工智能支持和具有強(qiáng)大功能的安保系統(tǒng)。遍布在城市內(nèi)的攝像頭網(wǎng)絡(luò)負(fù)責(zé)記錄全方位的信息,包括身份、行為甚至人與人的關(guān)系,這些相關(guān)的信息由中央大腦進(jìn)行分析,從而判斷威脅甚至對(duì)潛在威脅做出預(yù)測(cè)。當(dāng)然,劇中近乎上帝一般的人工智能身上存在相當(dāng)多科幻色彩,但其描繪的智能安保系統(tǒng)如今正在慢慢變成現(xiàn)實(shí)。在智慧社區(qū)和智能城市中,智能安保系統(tǒng)是實(shí)施安全防范控制的重要技術(shù)手段,它結(jié)合了人臉識(shí)別 (Face Recognition)、行為識(shí)別 (Action Recognition)、身份識(shí)別 (Person Re-identification) 的人工智能系統(tǒng)。 人臉識(shí)別技術(shù) 基于計(jì)算機(jī)的人臉識(shí)別技術(shù)研究發(fā)軔于20世紀(jì)中期,最早是模式識(shí)別 (Pattern Recognition) 的一個(gè)分支,后來(lái)逐漸發(fā)展完善了人臉檢測(cè)、人臉配準(zhǔn)、人臉屬性識(shí)別、人臉驗(yàn)證和識(shí)別等多種算法。現(xiàn)在這些技術(shù)已經(jīng)廣泛應(yīng)用在日常生活中,包括手機(jī)和相機(jī)的人臉捕捉功能、上班自動(dòng)人臉識(shí)別打卡,一些新型住宅小區(qū)已經(jīng)加入了具有人臉識(shí)別功能的門禁系統(tǒng)。 人臉檢測(cè) 人臉識(shí)別算法的第一步就是確定當(dāng)前圖像和視頻中是否有人臉的存在,并且把對(duì)應(yīng)的人臉?lè)秶Χǔ鰜?lái)。2001年,Paul Viola與Michael Jones共同發(fā)明了著名的Viola-Jones目標(biāo)檢測(cè)方法,這是后來(lái)人臉檢測(cè)算法的基礎(chǔ)。 Viola-Jones算法包括特征和分類器兩部分。算法利用了人臉的Haar特征,也就是由黑白矩形形成的、可以模擬目標(biāo)的不同部分之間明暗關(guān)系的特征。這些特征可以用來(lái)尋找正面人臉上存在的一些明暗對(duì)比的區(qū)域,比如鼻梁部分比眼睛更亮、嘴巴部分一般會(huì)比其他區(qū)域更暗等等。這些特征可以匹配圖像中一些候選框,再用這些候選框經(jīng)過(guò)AdaBoost分類器,輸出“是人臉”或“非人臉”的標(biāo)記。值得指出的是,在Viola-Jones算法中,多個(gè)分類器級(jí)聯(lián)形成一個(gè)集成分類器。這樣的好處是逐級(jí)減少候選框的數(shù)量,提高了算法的計(jì)算速度。 后續(xù)的一些研究也立足于特征和分類器兩個(gè)方面。在特征方面,現(xiàn)在的安保系統(tǒng)傾向于使用一些相對(duì)復(fù)雜的特征替代Haar特征,一方面可以提高系統(tǒng)的檢測(cè)率,另一方面可以更好地解決非正面臉部帶來(lái)的檢測(cè)失敗問(wèn)題。在分類器方面,非極大值抑制 (NMS,Non-Maximum Suppression) 方法可以組合位置和大小相近的候選框,從而大規(guī)模地減少候選框的數(shù)量;深度神經(jīng)網(wǎng)絡(luò)可以利用顯卡來(lái)進(jìn)行大部分運(yùn)算,極大提升運(yùn)算速度。 人臉配準(zhǔn) 由于標(biāo)準(zhǔn)的人臉可以讓人臉識(shí)別等算法的結(jié)果更加穩(wěn)定,因此一個(gè)關(guān)鍵步驟就是將不同角度、不同分辨率的人臉經(jīng)過(guò)算法匹配到標(biāo)準(zhǔn)的位置,這就是人臉配準(zhǔn) (Facial Alignment)。從這個(gè)角度上說(shuō),所有人的臉都可以看做是標(biāo)準(zhǔn)人臉經(jīng)過(guò)仿射變換 (縮放、旋轉(zhuǎn)、平移) 之后的結(jié)果,而人臉配準(zhǔn)算法的目標(biāo)就是根據(jù)人臉的特征點(diǎn)還原這個(gè)變換過(guò)程。 計(jì)算機(jī)科學(xué)家首先定義了人臉的68個(gè)特征點(diǎn),可以勾勒出人臉的主要特征。一個(gè)經(jīng)典的算法思路就是讓計(jì)算機(jī)學(xué)習(xí)標(biāo)準(zhǔn)的人臉圖像在這些特征點(diǎn)上是如何一步一步變換成真實(shí)圖像的。它通過(guò)訓(xùn)練級(jí)聯(lián)的回歸器,讓每一個(gè)回歸器都學(xué)習(xí)一部分變換的信息,從而在真實(shí)人臉圖像上找到了標(biāo)準(zhǔn)人臉圖像的映射。 人臉屬性識(shí)別 人臉的屬性包括性別、種族、年齡、表情等,對(duì)于這些屬性的精準(zhǔn)區(qū)分可以更好地判斷當(dāng)前人物的喜好和心理狀態(tài)等。如果完成了人臉的檢測(cè)和配準(zhǔn),人臉屬性識(shí)別相對(duì)簡(jiǎn)單,其實(shí)質(zhì)就是一個(gè)在大數(shù)據(jù)幫助下的圖片分類和回歸問(wèn)題。 2015年,微軟開(kāi)發(fā)了一款預(yù)測(cè)年齡的應(yīng)用 (how-old.net),根據(jù)用戶上傳的圖片給出圖中人物年齡的預(yù)測(cè)。在這個(gè)系統(tǒng)中,人臉先被圈出,然后提取出的特征向量會(huì)經(jīng)過(guò)分類器給出性別的標(biāo)簽,再經(jīng)過(guò)年齡的回歸分析器得到相應(yīng)的年齡數(shù)字。如果利用深度神經(jīng)網(wǎng)絡(luò),特征提取和分類回歸就可以集成在一個(gè)算法中,同時(shí)實(shí)現(xiàn)多個(gè)屬性的實(shí)時(shí)預(yù)測(cè)。類似地,對(duì)人臉表情也可以實(shí)現(xiàn)相應(yīng)的分類和回歸,這可以用在一些智能家居和安保系統(tǒng)的控制系統(tǒng)中,遇到危險(xiǎn)時(shí),可能僅僅眨眨眼就可以把報(bào)警信息傳遞出去。 人臉驗(yàn)證與識(shí)別 基于上述算法,就可以判斷兩張圖片是否是同一個(gè)人,這就是人臉驗(yàn)證。推而廣之,對(duì)于輸入的任意一張人臉圖像,計(jì)算機(jī)可以從數(shù)據(jù)庫(kù)中匹配到相關(guān)人員,并輸出其身份信息和屬性信息,這個(gè)過(guò)程就是人臉識(shí)別。 由于要進(jìn)行輸入圖片和數(shù)據(jù)庫(kù)內(nèi)大量圖片的對(duì)比,算法的速度對(duì)用戶的體驗(yàn)至關(guān)重要。一個(gè)解決的方案就是從圖片中提取特征。一個(gè)方法是主成分分析 (Principal Component Analysis),也就是從檢測(cè)出來(lái)的人臉選框中獲得其特異性特征,然后通過(guò)相關(guān)性分析獲得最一致的人員信息。另一個(gè)重要的特征是SIFT (Scale-Invariant Feature Transform,即尺度不變特征變換),即使圖像有旋轉(zhuǎn)、尺度變化甚至分辨率的變化或者使用不同的相機(jī),都可以從圖像中匹配特征點(diǎn),準(zhǔn)確率很高。 人臉在不同光照、不同媒介中的樣子是不同的,直接的特征提取方法可能無(wú)法滿足所有人臉識(shí)別場(chǎng)景的需求,因此就需要把人臉的特征跟光照等信息完成去耦合。經(jīng)典算法LBP (Local Binary Patterns,即局部二值模式) 所做的就是去掉光照信息。在LBP算法中,每一個(gè)像素會(huì)跟相鄰像素作比較,然后保留整張圖片中像素之間的大小關(guān)系,但去掉了其具體的數(shù)值。這樣一來(lái)面部特征仍然得到保留,但光照或紋理造成的像素值偏移就會(huì)被去掉。近幾年發(fā)展的去耦合表示法 (Disentangled Representation) 使用了類似的想法,把深度神經(jīng)網(wǎng)絡(luò)提取出來(lái)的人臉特征分成形狀 (Shape) 和外觀 (Appearance) 兩部分,可以更好地保留人臉圖像的特征,提升了識(shí)別準(zhǔn)確率。 行為識(shí)別和身份識(shí)別技術(shù) 除了人臉識(shí)別技術(shù)之外,對(duì)于行為和身份的識(shí)別也是智能安保系統(tǒng)的重要組成部分。其中行為識(shí)別就是對(duì)視頻中的人物行為進(jìn)行分類,而身份識(shí)別是指從攝像頭網(wǎng)絡(luò)中發(fā)現(xiàn)同一個(gè)個(gè)體,進(jìn)而獲得其行動(dòng)軌跡并判斷其行進(jìn)目標(biāo)和可疑與否。把身份識(shí)別和行為識(shí)別相結(jié)合,可以更好地判斷視頻中人物的行動(dòng)狀態(tài)。 行為識(shí)別 最早的行為識(shí)別只是圖像分類的一個(gè)分支,只不過(guò)分類的對(duì)象從圖像轉(zhuǎn)變?yōu)橐曨l,分出的類別也從物品、人臉變成了動(dòng)作。視頻作為智能安保系統(tǒng)的主要存儲(chǔ)內(nèi)容,可以看做是多個(gè)圖像的組合,因此圖像分類的方法 (如深度學(xué)習(xí)算法等) 可以直接用于行為識(shí)別中。但是,由于行為本身具有時(shí)序性,相關(guān)的時(shí)序特征也可以用來(lái)提升準(zhǔn)確率。光流 (Optical Flow) 就是一個(gè)適用于視頻的特征,它標(biāo)記了連續(xù)兩幀圖像之間相應(yīng)的點(diǎn)的變化軌跡。當(dāng)把連續(xù)多幀的對(duì)應(yīng)點(diǎn)以及其周邊的像素信息編碼成一個(gè)特征,就形成了一個(gè)視頻軌跡 (Trajectory),多個(gè)軌跡的組合就可以很好地表示行為信息。 近年來(lái)深度學(xué)習(xí)算法在行為識(shí)別中取得了很大進(jìn)展。由香港中文大學(xué)的計(jì)算機(jī)科學(xué)家提出的TSN (Temporal Segment Network) 算法提高了行為識(shí)別的水平。在TSN算法中,原始的視頻和其光流圖像被同時(shí)用來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),這使得同一個(gè)模型同時(shí)編碼了外觀信息和動(dòng)態(tài)信息。另外,同一個(gè)視頻被隨機(jī)采樣成多種組合,使同一動(dòng)作的不同速度也都可以被識(shí)別。除了以TSN為代表的算法之外,新加坡南洋理工大學(xué)還標(biāo)記了大型的行為識(shí)別數(shù)據(jù)庫(kù)NTU RGB+D,其中包含一些醫(yī)院和養(yǎng)老院中常見(jiàn)的動(dòng)作 (比如坐下、躺下、跌倒等)。用這些算法和數(shù)據(jù)訓(xùn)練出來(lái)的行為識(shí)別系統(tǒng)可以很好地進(jìn)行重點(diǎn)人員、重點(diǎn)地區(qū)的監(jiān)控。 身份識(shí)別 身份識(shí)別用到的特征可以是全方位的,包括面部特征、肢體特征、姿態(tài)特征、動(dòng)作特征、衣著特征等。由于攝像頭的分辨率限制,面部特征的使用只能作為輔助,而較大的特征如體態(tài)、動(dòng)作、衣著等會(huì)作為主要特征,其中衣著特征占有較大比重,這與人眼的識(shí)別過(guò)程是類似的。因此,身份識(shí)別算法的核心在于如何用好多種特征。 深度學(xué)習(xí)算法依然起著重要作用,因?yàn)樗梢酝ㄟ^(guò)輸入大量數(shù)據(jù),讓深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征并分配不同的權(quán)重給不同的特征,并訓(xùn)練多個(gè)分類器從不同維度進(jìn)行判斷。具體來(lái)說(shuō),身份識(shí)別的算法會(huì)綜合考慮幾個(gè)目標(biāo),包括外觀分類 (衣著、背包、掛飾等)、體態(tài)分類 (男女、身高等)、部件分類 (手臂、腿、軀干等),最終的識(shí)別結(jié)果是多個(gè)分類器的加權(quán)綜合。近年來(lái),為了同時(shí)擴(kuò)大不同個(gè)體的區(qū)別和減小同一個(gè)體不同場(chǎng)景下的區(qū)別,三樣本損失函數(shù) (Triplet loss) 被引入深度學(xué)習(xí)算法中,對(duì)一組三個(gè)樣本進(jìn)行訓(xùn)練和區(qū)分,獲得了不錯(cuò)的效果。 技術(shù)難點(diǎn)與展望 無(wú)論是人臉識(shí)別還是身份和行為識(shí)別,在安保系統(tǒng)中都具有很大的優(yōu)勢(shì)。首先,計(jì)算機(jī)的參與可以完成人類所無(wú)法完成的全方位24小時(shí)監(jiān)督,覆蓋度的增加也就提升了安保系統(tǒng)的安全系數(shù)。第二,強(qiáng)大的計(jì)算機(jī)可以快速處理海量數(shù)據(jù),極大提高了發(fā)現(xiàn)安全隱患的速度。但是,盡管具有上述功能的智能攝像頭已經(jīng)開(kāi)始在一些公共場(chǎng)所和社區(qū)內(nèi)落地,大規(guī)模的部署還需要解決一些技術(shù)難點(diǎn)。 系統(tǒng)的魯棒性 人臉識(shí)別中,臉部會(huì)經(jīng)常被眼鏡、墨鏡、口罩等遮蓋;行為識(shí)別和身份識(shí)別中,也存在肢體被遮蓋的情況,這些都給算法帶來(lái)不小的考驗(yàn)。雖然一些光照問(wèn)題可以通過(guò)解耦算法部分解決,但是一些特殊需求如黑暗條件、分辨率不同的攝像頭等,仍然會(huì)影響算法精度。另外,長(zhǎng)相相似的人臉、穿著和動(dòng)作相似的人物、隨著時(shí)間改變而造成人臉和動(dòng)作特征的變化,都會(huì)造成識(shí)別的不準(zhǔn)確。 數(shù)據(jù)規(guī)模和反饋速度 理論上,數(shù)據(jù)量越大就可以讓計(jì)算機(jī)獲得越全面的學(xué)習(xí)。但實(shí)際情況下,人臉、行為和身份識(shí)別的數(shù)據(jù)集均可以達(dá)到上億量級(jí),而只有這些數(shù)據(jù)被人工標(biāo)記之后才可以被用作機(jī)器學(xué)習(xí)算法的訓(xùn)練。因此,僅標(biāo)記這一個(gè)工作就需要大量人力的投入。另一方面,安保系統(tǒng)部署之后,每一秒鐘計(jì)算機(jī)都需要處理海量的新數(shù)據(jù),這會(huì)拖慢計(jì)算機(jī)的反饋速度。在安保系統(tǒng)中,計(jì)算機(jī)還需要從數(shù)據(jù)中提取關(guān)鍵的特征和信息,并綜合分析這些信息得到更復(fù)雜的結(jié)果。現(xiàn)階段算法還只是基于某一個(gè)具體的任務(wù),比如人臉檢測(cè)、行為識(shí)別等。未來(lái)當(dāng)數(shù)據(jù)規(guī)模和算力達(dá)到一定水平之后,還需要新的算法來(lái)綜合考慮多個(gè)維度的信息并快速反饋給安全管理人員。 數(shù)據(jù)和算法的安全 安保系統(tǒng)本身的安全性能是一個(gè)重要的評(píng)價(jià)標(biāo)準(zhǔn)。而在互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)的安全性遭受巨大考驗(yàn)。由于社交媒體的普及,幾乎每個(gè)人的人臉數(shù)據(jù)和身份信息都可以從網(wǎng)上獲得。這些信息一旦與成像技術(shù)乃至3D打印技術(shù)相結(jié)合,人臉識(shí)別系統(tǒng)就很可能被攻破。比如,現(xiàn)在一些研究就集中在如何在人臉識(shí)別系統(tǒng)中加入真假人臉的識(shí)別,正是為了防范這樣的潛在安全威脅。 其他算法也在不斷升級(jí),給現(xiàn)有的識(shí)別技術(shù)帶來(lái)新的挑戰(zhàn)。比如近年來(lái)的生成對(duì)抗網(wǎng)絡(luò)已經(jīng)可以生成真假難辨的人臉圖像,甚至自動(dòng)換臉的視頻也已經(jīng)司空見(jiàn)慣。這些生成的人臉甚至可以通過(guò)現(xiàn)有的人臉識(shí)別系統(tǒng)。另外,最近的一篇論文指出,如果對(duì)身份識(shí)別系統(tǒng)加入一個(gè)干擾,算法的身份匹配結(jié)果與真實(shí)結(jié)果之間可能南轅北轍,不法分子甚至可以通過(guò)干擾算法來(lái)逃過(guò)攝像頭的追蹤。 總結(jié) 由此可見(jiàn),新算法的提出仍然是實(shí)現(xiàn)智慧社區(qū)智能安保系統(tǒng)的基礎(chǔ)。除了提高現(xiàn)有算法的魯棒性,對(duì)大規(guī)模數(shù)據(jù)的處理能力,還需要逐步引入新型的數(shù)據(jù)和算法保護(hù)機(jī)制,來(lái)應(yīng)對(duì)新的挑戰(zhàn)和需求。計(jì)算機(jī)科學(xué)家也一直在試圖攻克這些困難。基于稀疏表達(dá)的人臉識(shí)別系統(tǒng)可以很好地識(shí)別不同遮蓋條件下的人臉,從而提高人臉識(shí)別算法對(duì)特殊環(huán)境數(shù)據(jù)的處理能力。在訓(xùn)練識(shí)別算法的同時(shí),引入生成對(duì)抗網(wǎng)絡(luò)和遷移學(xué)習(xí)等學(xué)習(xí)機(jī)制,在部署的時(shí)候利用容器技術(shù)和聯(lián)邦學(xué)習(xí),不僅可以讓算法完成識(shí)別的任務(wù),還可以讓算法分辨數(shù)據(jù)來(lái)源以及惡意攻擊,從而更好地保護(hù)數(shù)據(jù)和算法。在未來(lái),隨著算法在這些方面的不斷迭代,更先進(jìn)的自動(dòng)識(shí)別技術(shù)會(huì)成為智慧社區(qū)和智慧城市不可或缺的組成部分。 文章來(lái)源:貿(mào)澤電子 作者簡(jiǎn)介:王東昂是悉尼大學(xué)在讀博士。他的研究領(lǐng)域涉及了醫(yī)學(xué)圖像、人工智能、神經(jīng)科學(xué)、視頻分析等多個(gè)領(lǐng)域,并致力于在實(shí)際系統(tǒng)中應(yīng)用人工智能技術(shù)。他曾在CVPR、ECCV等國(guó)際會(huì)議中發(fā)表過(guò)論文,并受邀長(zhǎng)期為IEEE Transactions on Circuits and Systems for Video Technology、IEEE Transactions on Multimedia等學(xué)術(shù)雜志和ICML、AAAI等國(guó)際會(huì)議審稿。他在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域有超過(guò)5年的開(kāi)發(fā)經(jīng)驗(yàn),曾與中國(guó)、美國(guó)、澳大利亞的多家公司和機(jī)構(gòu)合作開(kāi)發(fā)項(xiàng)目,其中包括多角度視頻中的行為識(shí)別、基于道路監(jiān)控的路況預(yù)測(cè)和自動(dòng)化腦CT篩查系統(tǒng)。 |