人工智能在廣闊的領域實現了技術突破,讓AI的表現形式(載體)上,完成了交互體驗升級換代,比如視覺領域里的避障技術、圖像識別領域里的人臉識別,還有語音領域中的語音交互。而語音交互主要涉及語音識別、語義理解、機器翻譯、語音合成和麥克風陣列。我們以麥克風陣列為例,看看它是如何被捷通華聲攻克?
神秘的麥克風陣列,是什么樣一種技術?
麥克風陣列(Smart Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行采樣并處理的系統。一般應用于語音處理的按一定規則排列的多個麥克風系統,也可以簡單理解為2個以上麥克風組成的錄音系統。
麥克風陣列一般來說有直線形、環線形和球狀之分,嚴謹的應該說成一字、十字、平面、螺旋、球形及無規則陣列等。至于麥克風陣列的陣元數量,也就是麥克風數量,可以從2個到上千個不等。
看捷通華聲如何攻克麥克風陣列的四大難點!
如此復雜的麥克風陣列主要應用于工業和國防領域,消費領域(例如機器人領域)考慮到成本會簡化很多,但也需要攻克四大技術難點:
01噪音抑制:太嘈雜了,聽不清!
語音識別在有些場合需要完全去除噪聲,通話系統中則需要的技術則是噪聲去除。這里說的噪聲一般指環境噪聲,比如空調噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。一般情況下,不怎么做強噪聲環境下的處理,只需滿足日常場景的語音交互就夠了。
02聲源定位:聲音太多,在哪里?
現實中,聲源的位置是不斷變化的,這對于麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及后續的語音定向拾取,是人機交互、音視頻會議等領域非常重要的前處理技術。所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強的抗干擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。
03混響消除:享受混響,卻麻煩!
一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。
混響(Reverberation)現象指的是聲波在室內傳播時,要被墻壁、天花板、地板等障礙物形成反射聲,并和直達聲形成疊加;而當聲源停止發聲后,聲波在房間內要經過多次反射和吸收,似乎若干個聲波混合持續一段時間。
混響會嚴重影響語音信號處理,比如互相關函數或者波束主瓣,降低測向精度。由于混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(Phoneme Overlap Effect),從而嚴重影響語音識別效果。
混響去除的效果很大程度影響了語音識別的效果,因此利用麥克風陣列去混響的主要方法有以下幾種:
a.基于盲語音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個上面應用語音增強算法。
b.基于波束形成的方法(Beamforming based approach),通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
c.基于逆濾波的方法(An inverse filterin gapproach),通過麥克風陣列估計房間的房間沖擊響應(Room Impulse Response,RIR),設計重構濾波器來補償來消除混響。
良好的麥克風陣列的去混響技術能很好的對房間的混響情況進行自適應的估計,從而很好的進行純凈信號的還原,顯著的提升了語音聽感和識別效果,在測試對比中,多種混響時間下識別效果接近手機近講水平。
嚴格來說,這里說的“回聲消除”不應該叫回聲,應該叫“自噪聲”。回聲是混響的延伸概念,這兩者的區別就是回聲的時延更長。一般來說,超過100毫秒時延的混響,人類能夠明顯區分出,似乎一個聲音同時出現了兩次,我們就叫做回聲,比如天壇著名的回聲壁。實際上,這里所指的是語音交互設備自己發出的聲音,比如Echo音箱,當播放歌曲的時候若叫Alexa,這時候麥克風陣列實際上采集了正在播放的音樂和用戶所叫的Alexa聲音,顯然語音識別無法識別這兩類聲音。回聲消除就是要去掉其中的音樂信息而只保留用戶的人聲,之所以叫回聲消除,只是延續大家的習慣而已,其實是不恰當的。
04云端識別:聲音很多,卻好用!
麥克風陣列增益,主要是解決拾音距離的問題,若信號較小,語音識別同樣不能保證,通過陣列處理可以適當加大語音信號的能量。
而波束形成是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經過處理(例如加權、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個人圍繞機器人談話的時候,機器人只會識別其中一個人的聲音;但對于機器人來說,能同時識別不同距離和不同方位的聲源,變得尤為重要——這也代表了人工智能的語音交互領域趨于成熟!
對于語音交互中的模型匹配,主要是和語音識別以及語義理解進行匹配,使得語音交互成為一個完整的信號鏈,從麥克風陣列開始的語音流不可能割裂的存在,必然需要模型匹配在一起。實際上,效果較好的語音交互專用麥克風陣列,通常是兩套算法,一套內嵌于硬件實時處理,另外一套服務于云端匹配語音處理;而“本地+云端”中,成立于世紀之交2000年的捷通華聲是一家專注于智能語音、智能圖像、生物特征識別、語義理解等人工智能技術的研究與應用,全面發展人工智能云服務的高新技術企業。
捷通華聲的靈云平臺在2014年面向人工智能產業全面開放,并以“云+端”方式,為產業界提供語音合成(TTS)、語音識別(ASR)、聲紋識別(VPR)、手寫識別(HWR)、光學字符識別(OCR)、指紋識別(FPR)、機器翻譯(MT)、自然語言理解(NLU)等全方位的人工智能云服務;服務于百度導航、搜狗導航、小米、樂視、京東商場、攜程網、去哪兒網、奔馳、中國農業銀行、導航犬、嘀嘀打車、快的打車、漢字英雄、天行聽書、天行輸入法、觸寶輸入法等知名公司。