隨著以深度 神經網絡為代表的人工智能技術的發展,新一輪的人機交互技術熱潮正在興起。在 機器視覺領域,由于海量圖像和視覺場景數據庫的誕生,催生了人臉識別、姿態識別、自動駕駛、無人機等領域的技術革新。目前世界上已有的典型的大規模海量圖像和視覺場景數據庫包括,ImageNet、MSCOCO等業界知名的數據庫。 在聲音場景和聲音事件的識別領域,技術的發展已經成熟,然而商業應用滯后于機器視覺領域的應用。在聲音領域,目前世界上最著名的音頻數據庫包括:歐洲的DCASE(聲音場景和事件數據庫)和谷歌的Audio Set(包括各類層次結構化的音頻分類數據)等。 在家庭環境領域,能夠用來服務于AI應用的聲音數據極為缺乏,本產品旨在填補這一空白,為全球的智能家庭環境的AI應用落地做出貢獻。 聲音場景(Acoustic Scene)指的是室內、室外、火車站、餐廳、看電影、聽音樂等實際生活中人們的有聲的生活場景,通過聲音信號的識別來辨識這類場景,就是聲音場景識別;聲音事件(Acoustic Event)指的是根據短時聲學特征,利用統計學習的建模方法,對不同的聲源所關聯的事件,進行類別的分類。例如,對哭聲、咳嗽聲、腳步聲,能夠通過聲音頻率特征的分布規律,進行實時的檢測,發現家居環境中的突發性事件、嬰幼兒的行為事件、家庭成員的異;顒拥取 |