人們如何在海量的媒體信息中迅速找到自己所需的內容,并對其進行個性化的訪問?MPEG-7媒體內容描述規范使無法通過現有的搜索引擎查詢視頻、音頻等內容的難題迎刃而解。本文分析了MPEG-7的描述方案,并重點分析了它的集中應用。 一、引言 國際標準化組織(ISO)在制定MPEG-1、MPEG-2及MPEG-4的標準基礎上,推出了新的標準MPEG-7,該標準的正式名稱為“多媒體內容描述接口”(MultimediaContentDescriptionInterface),其目標就是產生一種描述多媒體內容數據的標準,滿足實時、非實時以及推-拉應用的需求,它既不同于基于波形和基于壓縮的表示方式如MPEG-1和MPEG-2,又不同于基于對象的表示方式如MPEG-4,而是將對各種不同類型的多媒體信息進行標準化描述,并將該描述與所描述的內容相聯系,以實現快速有效的搜索。 二、MPEG-7的目標 1.支持多種音頻和視覺的描述 描述包括自由文本、n維時空結構、統計信息、客觀屬性、主觀屬性、生產屬性和組合信息。對于視覺信息,描述可能包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關系、運動及變形等。對于音頻信息,描述可能包括音調、調式、音速、音速變化等。 2.根據信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次的用戶對信息的需求。 3.支持數據管理的靈活性、數據資源的全球化和互操作性。 三、MPEG-7構成要素 MPEG-7的主要元素包括以下幾種。 1.描述五金|工具,包括一組描述符D(Descriptor)和描述方案DS(DescriptionSchemes)。描述符是指用來定義和表達實體某一方面特征的句法或語法。表達實體是由特征標識符(如顏色)和數據類型(如字符串)等構成的。數據類型可以是“復合”的,既可以由幾個數據類型的組合來構成,也可以由數個D來“描述”一個特征。描述方案是由一個或多個D和DS構成,DS規定了它們相互關系的結構和語法。 2.描述定義語言DDL(DescriptionDefinitionLanguage),用來指定描述方案的一種語言。它是一種模式化語言,是對音視頻數據建模結果的一種表征。DDL規定了MPEG的描述工具,包括描述符和描述方案,并提供了把描述符構建為描述方案的規則。DDL同時也允許定義特殊應用中的擴展DS.描述工具通過DDL被實例化,并以文本格式(XML)被描述。 3.用來支持多路描述、同步問題、傳輸機理、文件格式等的系統工具。 四、MPEG-7屬性描述工具 MPEG-7標準提供了一系列的屬性描述工具對屬性進行統一的管理,屬性描述工具多用在多于一個媒體被描述時(如音頻和視頻)。 這些描述工具根據功能分為內容描述、內容管理、內容組織、導航和訪問以及使用者交互5類。 1.基本元素(BasicElements) 基本的數據類型提供了一組對描述AV(Audio-Visual)內容有幫助的擴展的數據類型和數學類型,如矩陣和向量等。基本數據類型同時也能構建連接媒體文件、定位內容、描述時間、地點、人物等。正是這些基本元素通過DS規范構成了定義MPEG-7描述方案的基礎。 2.內容描述(ContentDescription) 內容描述的目的是描述可察覺信息內容,用以表征可知覺的內容信息。內容描述包括結構和語義兩個方面的內容。結構工具通過劃分片斷、幀、靜態和動態區域來描述AV內容的時間及空間方面的結構信息。語義工具通過對象、事件、抽象觀念和關系等描述了和AV內容所反映的現實世界。結構工具和語義工具通過鏈接共同作用,共同完成了對內容的描述。 3.內容管理(ContentManagement)內容管理用于處理那些與多媒體文檔創建、媒體所有權和編碼等相關的信息,即那些不能被抽象出來的信息。 4.內容組織(ContentOrganization)內容組織提供一種來描述多媒體數據的分析和分類的方法,它可以用來描述一群對象的屬性。 5.導航和訪問(NavigationandAccess) 導航和訪問工具被用來定義音頻、視頻內容的一系列摘要,分解和變換信息,使瀏覽和獲取AV內容更加便利。它包含概述、分解和變換三部分的內容。 6.使用者交互(UserInteraction) 它描述了用戶喜好以及使用信息等,使對媒體的訪問變得更加個性化,為用戶使用提供了方便。例如,可以根據用戶的愛好來定義媒體的優先級,使用戶盡快找到最適合的信息。 五、MPEG-7的應用領域 人們對日常生活中的多媒體信息,要求能高效率地進行訪問、交互操作和顯示。這就是MPEG-7“Pull”(拉)和“Push”(推)的兩類應用。這兩類應用與社會的政治和經濟有著密切的聯系,在教育、影視等專業領域和消費應用的不同場合都是必不可少的。 1.Pull類型 MPEG-7標準產生的目的是要定義一種規范,使對AV資料的查詢變得和現在的文本查詢一樣方便。盡管其公認的多媒體內容描述的應用遠不止“獲取”這一種,但它還是作為許多原始的MPEG-7應用而保留下來。這些“獲取”,即“Pull”類型的應用涉及到數據庫、多媒體信息檔案以及基于網絡的Intenet模型(用戶向服務器索取資料)。 以下是“Pull”類型的一些應用。 (1)商業音樂類應用(卡拉OK和音樂銷售) 當用戶從電視臺看到一首歌,只要唱幾段,就可不費力地從數據庫中“搜索”出完整的歌曲來;在收取了適當的費用后,即可把整首樂曲下載到用戶的計算機上。 (2)聲音效果庫 藝術家、聲響設計師可以指定一個聲效類型,然后從這個聲源的眾多變化中選擇適合的需要。例如提供一個原型聲響,指定細節特征,或者使用擬聲,通過哼曲進行“搜索”的一種變形方式,來發出他想要找的那種類型的抽象聲音。 (3)歷史數據庫 人們可以通過一些特定的關鍵詞(“中華人民共和國成立啦!”)、關鍵事件(WTO)、演講人(比爾?蓋茨)、地點(首都)、日期(2001年9月11日),或者是以上幾個方面的任意組合,來“搜索”一個音視頻記錄或其他相關事件。 (4)通過可回憶的聽覺事件進行電影場景“搜索” 在人們的記憶世界里,許多的視覺事件是難以忘懷的。最明顯的例子就是用特定的“描述”來指代電影電視場景或對白、音響等,用這樣的方式查找到一部電影。 2.Push類型 “Push”與“Pull”類型的應用是相反的,“Push”類型應用更像是廣播方式,以及剛出現的網絡廣播。“Pull”模型是從索引到“搜索”,“Push”模型是從選擇到“過濾”。這兩類應用有著完全不同的要求,通常“Pull”處理的是存儲在數據庫里的靜態信息“描述”,而“Push”處理的是變化的動態信息“描述”。“Push”,即“過濾”的要求是提供用戶只想收看或收聽到的多媒體信息。 如在數字系統中(包括數據廣播),MPEG-7描述可以幫助用戶選擇節目和各類數據廣播信息,用于當時或以后觀看,以及記錄、存貯。在個性化廣播系統的環境中,提供給用戶的數據可以按照各自的類型從數據廣播中“過濾”出來,而類型的生成可以是自動的(如根據地點、年齡、性別、或以前的選擇行為等),也可以是半自動的(如根據預設的興趣等)。 六、結束語 MPEG-7的出現是文本信息時代向多媒體信息時代過渡的必然產物,在未來的多媒體信息檢索服務中,MPEG-7必將發揮主導作用。目前,許多研究機構都已開始對其中的關鍵技術進行研究,并已取得一定成果,但離實際應用還有相當差距。隨著MPEG標準和網絡系統的快速發展,MPEG-7的應用也將蓬勃發展,為我們的學習和生活提供更多的方便。 |