1 引言 全國有線廣播電視監(jiān)測網(wǎng)是基于國家廣電骨干網(wǎng)和省級干線網(wǎng)而建設的大型監(jiān)測網(wǎng)絡系統(tǒng);隨著地面無線電視納入其監(jiān)測范圍,使得監(jiān)測規(guī)模越來越大被監(jiān)測的頻道和電視節(jié)目數(shù)越來越多。視頻信息技術(shù)的發(fā)展導致多媒體數(shù)據(jù)庫日益龐大,一些特殊應用需要快速地完成特定目標視頻片斷的檢索查詢,特別作為廣播電視監(jiān)測部門,更要面對與日俱增的廣告、視頻節(jié)目及特定內(nèi)容的快速檢索。在一個視頻節(jié)目中,如何快速查找某段節(jié)目(或某幾幀)是否存在、播放的起止時間等信息、傳統(tǒng)的方法是靠人工將視頻節(jié)目文件逐一播放,查找所要的內(nèi)容,整個過程耗時費事,效率低,勞動強度大。因而人工檢索方式無法滿足多媒體信息快速檢索需求,特別是對在存儲的視頻節(jié)目中尋找指定的視頻片斷這樣的應用需求。因此,需要建立一套快速的智能視頻檢索系統(tǒng).以提高有線電視監(jiān)測數(shù)據(jù)統(tǒng)計、分析和報告的質(zhì)量和效率。 2 視頻檢索技術(shù)簡介 視頻檢索技術(shù)是世界各國學者研究的熱點問題之一,如基于壓縮域的視頻檢索、基于語義的視頻檢索以及動態(tài)特征的提取等。目前,國內(nèi)外已研究出多個視頻檢索系統(tǒng),如:IBM Almaden研究中心開發(fā)的QBIC(Query ByImage Content)系統(tǒng),美國哥倫比亞大學電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的"基于內(nèi)容"的檢索系統(tǒng)VisualSeek,清華大學開發(fā)的視頻節(jié)目管理系統(tǒng)TV-FI(Tsinghua videoFind lt)等。 視頻檢索把圖像檢索、模式識別、圖像數(shù)據(jù)庫等技術(shù)成果結(jié)合了起來,會有廣闊的發(fā)展前景。 視頻檢索是從大量的視頻數(shù)據(jù)中找到所需的視頻片斷及自動統(tǒng)計出所需要的信息。用戶提供的例子(模板)或特征描述,系統(tǒng)就能夠自動地找到所需的視頻片斷點,即實現(xiàn)基于內(nèi)容的視頻檢索。通常,一段視頻可以劃分為幾個場景,每個場景包含一個或多個鏡頭,每個鏡頭又由一系列連續(xù)記錄的圖像幀組成。因此,原始視頻可以按照由粗到細的順序劃分為幾個層次結(jié)構(gòu):視頻(video)、場景(scene)、鏡頭(shot)和圖像幀(frame)。視頻和圖像幀是視頻本身就具有的結(jié)構(gòu),而鏡頭和場景是人為分離出來的結(jié)構(gòu)。鏡頭一般是由攝像機一次攝像的開始和結(jié)束的所有幀構(gòu)成,表示一個物理概念。而場景是指一連串語義相關(guān)的鏡頭,一般發(fā)生在相同的時間和地點,出現(xiàn)相同的人物或事件,表示的是一個語義概念。通過視頻解析技術(shù)提取出鏡頭和場景后,可以用一幀或幾幀來表示它們,這樣當檢索需要視頻資料時,就不用從頭到尾地查找一段視頻,而是通過關(guān)鍵幀的非線性瀏覽來快速定位查詢的內(nèi)容,同時這種方式也有助于我們快速理解一段原始視頻的內(nèi)容,以決定是否是需要的資料。 根據(jù)有線電視監(jiān)測的應用需求.首先利用抽取關(guān)鍵幀的方法,將視頻檢索轉(zhuǎn)化為圖像檢索,基于內(nèi)容的圖像檢索理論和方法便可以很方便地應用于圖像檢索當中。基于內(nèi)容的圖像檢索,是指通過對圖像視覺特征和上下文聯(lián)系的分析,提取出圖像的內(nèi)容特征作為圖像索引來得到所需圖像,然后通過視頻片斷的匹配定位出需要查找的視頻片斷的位置,為查詢、下載、觀看所用。 3 視頻檢索的關(guān)鍵技術(shù) 視頻檢索的關(guān)鍵技術(shù)主要有:圖像特征提取、圖像特征的相似性度量、關(guān)鍵幀提取、視頻片斷匹配和評價指標等。 (1)圖像特征提取 圖像特征提取是針對圖像內(nèi)容的底層物理特征進行提取.如顏色直方圖、圖像輪廓特征等。特征的表示方式有三種:數(shù)值信息、關(guān)系信息和文字信息。目前,多數(shù)系統(tǒng)采用的都是數(shù)值信息。 (2)圖像特征的相似性度量 相似性度量在鏡頭檢索上,早期的工作主要是從鏡頭中提取關(guān)鍵幀,把鏡頭檢索轉(zhuǎn)化為圖像檢索。例如,在通常情況下,圖像的特征向量可看作是多維空間中的一點,因此,用特征空間中點與點之間的距離來代表它們的匹配程度。距離度量是一個比較常用的方法,還有相關(guān)計算、關(guān)聯(lián)系數(shù)計算等。此外,目前研究的問題還在于怎樣對視頻中的時間信息充分進行利用。 相似性度量在片段檢索上,把視頻片段分為片段、幀兩層考慮,片段的相似性利用組成幀的相似性來直接度量,缺點在于限制相似的片段必須遵守同樣的時間順序,這種基于每幀的比較,也使得檢索速度比較慢。 (3)關(guān)鍵幀提取 關(guān)鍵幀是用于描述一個鏡頭的關(guān)鍵圖像幀,它反映一個鏡頭的主要內(nèi)容。關(guān)鍵幀的選取一方面必須能夠反映鏡頭中的主要事件,因而描述應盡可能準確完全;另一方面,為便于管理,數(shù)據(jù)量應盡量小,且計算不宜太復雜。 關(guān)鍵幀的選取方法很多,比較經(jīng)典的有幀平均法和直方圖平均法。幀平均法是從鏡頭中取所有幀在某個位置上像素值的平均值,然后將鏡頭中該點位置的像素值最接近平均值的幀作為關(guān)鍵幀;直方圖平均法則是將鏡頭中所有幀的統(tǒng)計直方圖取平均,然后選擇與該平均直方圖最接近的幀作為關(guān)鍵幀。 (4)視頻片斷匹配 先找出視覺上相似的片段,再根據(jù)不同的因子計算相似片段的相似度,最后按照相似度的大小從高到低排列它們。這種方法不會造成相似片段的遺漏,同時又能根據(jù)不同的因子度量相似片段的相似度。已經(jīng)有研究提出了最優(yōu)匹配法、最大匹配法和動態(tài)規(guī)劃算法等。 (5)評價指標 查準率和查全率是視頻檢索常用的兩個評價指標,描述了檢索結(jié)果的準確性。此外,檢索效率也是一個重要的衡量指標。影響這些指標的因素有很多,例如源流文件質(zhì)量、匹配度、服務器性能、檢索鏡頭數(shù)等。 4 基于內(nèi)容的圖像檢索常用算法 圖像檢索就是根據(jù)對圖像內(nèi)容的描述,在目標圖像集合中找到具有指定特征或包含指定內(nèi)容的圖像。圖像的內(nèi)容可以分為兩類:視覺內(nèi)容和信息內(nèi)容。視覺內(nèi)容對應圖像的物理表示,如顏色、形狀、紋理等。信息內(nèi)容對應圖像的語義,如主題、人物、場景等。圖像比對是圖像檢索的核心算法之一,即判斷原圖片與目標圖片是否一致。常用的圖像比對算法主要有直接比較法、顏色特征法、紋理特征法、形狀特征法、以及壓縮域的圖像比對算法等。 (1)直接比較法 直接比較法就是將兩幀圖像的像素點的值直接進行比較,方法簡單易行,但是效率低且魯棒性能差。 (2)顏色特征法 顏色特征是圖像最直觀、最明顯的特征,一般用直方圖描述。直方圖的橫軸表示顏色等級,縱軸表示在某一個顏色等級上具有該顏色的像素在整幅圖像中所占的比例。以直方圖為特征的常用的匹配方法有:矢量距離法、直方圖交叉法和直接差值法。 (3)紋理特征法 紋理是圖像中一個重要而又難以描述的特性。很多圖像在局部區(qū)域內(nèi)可能呈現(xiàn)出不規(guī)則性,而在整體上卻表現(xiàn)出某種規(guī)律性。習慣上把圖像中這種局部不規(guī)則而整體有規(guī)律的特性稱之為紋理。從人類的感知經(jīng)驗出發(fā),紋理特征主要有粗糙性、方向性和對比度,這也是用于檢索的主要特征。 (4)形狀特征法 形狀特征是圖像目標的一個顯著特征,很多查詢可能并不針對圖像的顏色,因為同一物體可能有各種不同的顏色,但其形狀總是相似的。如檢索某輛汽車的圖像,汽車可以是紅的、綠的等,但形狀決不會與飛機外形相似。另外,對于圖形來說,形狀是它唯一重要的特征。從圖像中提取的目標邊緣稱為輪廓。基于形狀或輪廓的檢索是基于內(nèi)容檢索的一個重要方面,它能使用戶通過勾勒圖像的形狀或輪廓,從圖像庫中檢索出形狀相似的圖像。 (5)壓縮域的圖像比對算法 基于壓縮域的圖像比對技術(shù),實際上是把圖像的壓縮技術(shù)與比對技術(shù)融合在一起,能夠在不解碼(或不完全解碼)的情況下抽取到圖像可用于比對的信息特征。對于這種信息特征的提取,可以利用離散余弦變換DCT(Discrete CosineTransform)域的一些特征,主要包括顏色特征、輪廓特征和輪廓直方圖等。基于DCT壓縮域的圖像比對算法,能夠大大縮短檢索用時,是現(xiàn)階段視頻檢索的研究熱點,但是實際應用還不夠成熟,有待于進一步研究。 (6)基于模糊的塊圖像比對算法 考慮到有線電視信號的特殊性,針對監(jiān)測網(wǎng)的信號特征提出了一種模糊的塊圖像比對算法。即將一幀圖像的YUV彩色模型(Y代表亮度分量,U、V代表兩個色差分量)分量分為固定大小的小塊,然后將原圖像幀與目標圖像幀一小塊為單位分別進行對比,統(tǒng)計相似個數(shù),作為兩幅圖像的相似性度量。通過與顏色直方圖法的比較,可以看出,在有線電視信號檢索中,該算法能夠增大比對算法的魯棒性且提高檢索速度。 5.1 系統(tǒng)功能 有線電視視頻檢索系統(tǒng)的主要功能包括:樣本制作和管理、任務下發(fā)和管理、結(jié)果查詢和系統(tǒng)管理等。 (1)樣本制作和管理 樣本制作和管理包括錄像下載、源文件庫、樣本幀制作和樣本幀庫管理等模塊。在樣本制作時,支持MP4、WMV等多種視頻格式;制作完成后還可根據(jù)用戶需要進行分類管理,如廣告類、電視劇類等。 (2)任務下發(fā)和管理 任務下發(fā)和管理包括單任務、多任務并發(fā)、特定內(nèi)容任務下發(fā)和管理模塊。用戶可根據(jù)任務需要設定相應的匹配度。所謂匹配度,就是檢索結(jié)果幀數(shù)與樣本幀數(shù)的百分比值。因此,匹配度低.漏報少,但可能會產(chǎn)生誤報;反之,漏報可能增加,誤報減少。 (3)結(jié)果查詢 結(jié)果查詢包括檢索結(jié)果查看和管理、結(jié)果下載和報表管理等模塊。 (4)系統(tǒng)管理 系統(tǒng)管理包括用戶管理、權(quán)限管理、設備管理、系統(tǒng)運行狀態(tài)和基礎信息管理等。 5.2 系統(tǒng)工作原理 系統(tǒng)工作原理如圖1所示,分為中心系統(tǒng)、前端設備和傳輸網(wǎng)絡三部分。用戶通過WEB服務器下發(fā)檢索任務至數(shù)據(jù)庫服務器,調(diào)度服務器實時輪巡數(shù)據(jù)庫,一旦發(fā)現(xiàn)新的檢索任務,調(diào)度服務器自動提取任務通過廣電專用網(wǎng)絡下發(fā)到前端檢索服務器;檢索服務器收到檢索任務后,同時向中心系統(tǒng)存儲服務器和有線電視前端分別調(diào)取樣本文件和目標文件進行比對,比對完成后,檢索服務器將結(jié)果及下載錄像路徑通過調(diào)度服務器回傳至數(shù)據(jù)庫服務器,最終將結(jié)果回傳到客戶端。 5.3 圖像比對原理 本系統(tǒng)采用的是基于模糊的塊圖像比對算法。 可以從底層分解和高層分解兩部分來理解,底層分解包括視頻解碼、圖像比對、檢索結(jié)果分析和數(shù)據(jù)存儲等算法;高層分解可將系統(tǒng)分為生成樣本投影、解析樣本投影空間和檢索信息存儲三部分。 首先從樣本源流文件中抽取所需的樣本幀,生成樣本序列,將目標流文件進行視頻解碼,解碼后逐幀與樣本序列幀進行圖像比對,將所有相似幀放入樣本投影空間,再根據(jù)樣本的其他信息(例如:時間戳等)進行有效性校驗、片斷統(tǒng)計和結(jié)果篩選,最終檢索出目標視頻片斷。 視頻檢索技術(shù)引入到有線電視監(jiān)測系統(tǒng),建立了一種快速的智能視頻檢索手段。通過系統(tǒng)運行測試.對于普通新聞、廣告、電視劇等類型的視頻,可以檢索出幾乎全部的視頻片斷;對于一些特殊視頻,也能夠檢索出大部分的視頻片斷,其檢索準確度大于90%。單機單任務檢索效率大于1:10,單機多任務檢索效率大于1:20,與人工回放檢索相比大大節(jié)省了時間,理論上系統(tǒng)可支持分布式檢索前端大于1000個。 通過系統(tǒng)建設的實踐,有以下幾個問題是值得注意的: (1)由于有線電視信號在傳輸過程中存在衰減,各個前端由于距離、設備等因素不同,對信號的衰減補償產(chǎn)生的機械噪聲也不同,導致不同前端的信號會有所差異。再者,有線電視信號的衰減是非線性的,很難找到一個合適的補償算法使信號強弱都一樣。因此會影響到檢索結(jié)果的準確性。 (2)視頻檢索是針對已經(jīng)存儲的視頻文件,在對信號進行采集、壓縮和存儲的過程中會產(chǎn)生部分損耗,也會影響檢索結(jié)果的準確性。 (3)系統(tǒng)采用大型網(wǎng)絡進行傳輸且?guī)捰邢蓿蚨捎孟到y(tǒng)分布式的檢索模型和"短鏈接"通訊模式。所謂"短鏈接",就是在沒有檢索任務時,中心系統(tǒng)與檢索前端服務器問不保持通訊連接,一旦有檢索任務時,則在兩者間建立臨時性的TCP通道連接,檢索任務完成后,檢索前端自動拆除該連接。 由于上述原因,給系統(tǒng)的架構(gòu)和檢索算法帶來了很大困難,造成了檢索準確度不能達到100%,因而,對于非常重要的檢索任務,仍需人工輔助核實。 在電視監(jiān)測領域中建立快速智能的視頻檢索方法和視頻監(jiān)測數(shù)據(jù)的快速處理機制,為安全播出和行業(yè)管理提供了又一種監(jiān)測的重要應急手段。實際證明,雖然有線電視信號的特殊性與檢索算法有限的實用性,使得查全率還未能達到100%,但是該視頻檢索系統(tǒng)為滿足監(jiān)測工作日益增長的要求提供了一種有效的解決方案,已經(jīng)能夠有效幫助監(jiān)測工作人員完成大部分的檢索任務,大大提高了檢索效率。 |