語音技術的發明最早可以追溯到半個世紀之前,1952年,貝爾實驗室制作了一臺高6英尺的自動數字識別機“Audrey”,能夠識別數字0-9的發音,準確率達到90%以上。 不過這一系統主要基于簡單的模板匹配方法識別個體說出的孤立數字,也導致作為模板的熟人說出的語音識別會更精準,而陌生人識別率會低一些。在此之后,連續語音識別系統開始出現,語音合成的參數合成法能夠生成比較自然的語音。 到二十世紀八十年代中期,IBM創造了一臺可以用語音控制的打字機“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號處理技術中加入了統計信息,可以讓機器在聽到第一個音節時,便能夠預測單詞。到了1984年,這一系統在5000個詞匯量級上達到了95%的識別率。 時間來到2011年,微軟研究院將DNN技術應用在大詞匯量連續語音識別任務上,極大地降低了語音識別錯誤率。 2016年,微軟團隊已經將語音識別的詞錯率(WER)降低至了5.9%,這一數據已經相當于專業速錄員速記同樣一段話的水平。這標志著機器的語音識別準確率第一次達到人類水平,智能語音語言技術開始逐步落地。 到了這一階段,端到端的語音識別開始被廣泛應用,智能語音助手、智能音箱等多款應用智能語音識別的產品相繼落地。發展到近期,語音識別的準確率進一步提升,且針對遠場的語音識別和喚醒得到進一步發展,全雙工語音交互開始出現。語音識別準確率已經達到98%以上,并且能根據實際應用痛點針對性強化。 從2011年第一款手機語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標志著正式開啟智能語音應用元年,到2017年下半年開始通過開放語音生態系統進行產業內合作,語音識別系統也開始向可穿戴、智能家居、車載等領域延伸。 據ReportLinker的預測:到2024年全球智能語音市場規模將達到215億美元,其中智慧醫療健康、智慧金融以及各類智能終端智能語音技術需求將成為主要的驅動因素。目前國內主要智能語音服務商如百度、科大訊飛、思必馳、樂言科技、聲揚科技、竹間智能等。 |