婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 微軟:語音識別技術突飛猛進

微軟:語音識別技術突飛猛進

熱門標簽:懷仁縣地圖標注app 百度地圖標注點修改 微信小程序地圖標注信息 電話機器人如何用 外呼系統支持手機的 楚雄電銷 徐州電銷智能機器人銷售公司 德州真人電銷機器人供應商 聯通400電話網上申請

  2011年國際語音通訊協會第12次年會(Interspeech 2011)于8月28日至31日在意大利佛羅倫薩舉行。來自微軟研究院的研究人員在會上發表了他們的研究成果,這些成果極大地提升了非特定人實時語音識別系統的潛力。

  來自微軟雷德蒙研究院的研究員俞棟博士以及來自微軟亞洲研究院的高級研究員兼研究經理Frank Seide是這項研究的帶頭人,兩支團隊精誠合作,在基于人工神經網絡的大詞匯量語音識別研究中取得了重大突破。


  語音識別研究的終極目標

  語音-文本轉換(voice-to-text)軟件和自動電話服務等應用背后的關鍵技術是語音識別,該技術廣泛地應用在呼叫中心。在這些應用中語音識別準確率是至關重要的,而為了做到這一點,語音-文本轉換軟件通常要求用戶在安裝過程中對軟件進行訓練”,軟件本身也要隨著時間的推移慢慢適應用戶的語音模式。需要與多個說話者互動的自動語音服務則不允許存在使用者對軟件進行訓練的環節,因為它們必須能夠在第一時間為任何用戶服務。為了解決識別準確率較低的問題,這些系統要么只能處理很小的詞匯量,要么嚴格限制用戶可以使用的字句或模式。

  自動語音識別的最終目標是提供即買即用、可以自動快速適應任何說話者的語音識別服務,這個系統不需要用戶訓練就可以針對所有用戶和各種條件,良好地發揮功用。

  這個目標在移動互聯網時代顯得尤為重要,” 俞棟博士表示:因為語音是智能手機和其他移動設備必不可缺的接口模式。雖然個人移動設備是采集和學習用戶語音的理想設備,但用戶只有在初始體驗,也就是在針對該用戶的模型建立之前的體驗非常良好時,才會繼續使用語音功能。”

  非特定人語音識別技術對于沒有機會或辦法適應用戶的語音識別系統也非常重要,例如在呼叫中心,來電者身份是未知的,而且通話時間只有幾秒鐘;又例如用戶可能會因為擔心隱私問題而不愿意在提供語音-語音(speech-to-speech)”翻譯的網絡服務中留存語音樣本。

  重燃對神經網絡的興趣

  自20世紀50年代以來,人工神經網絡(ANNs),也就是人類大腦低級回路的數學模型,就已經為人們所熟知。利用人工神經網絡改善語音識別性能的想法早在20世紀80年代就已出現,而且一項名為人工神經網絡-隱馬爾可夫混合模型(ANN - HMM)的技術顯示了其在大詞匯量語音識別中的潛力。那么,為什么商用語音識別系統反而不采納人工神經網絡技術呢?

  這一切都歸結于性能,” 俞棟博士解釋道:在針對傳統的上下文相關的高斯混合模型-隱馬爾可夫模型(CD-GMM-HMMs)區分性訓練算法發明后,高斯混合模型-隱馬爾可夫模型的精度得到了提升,并在大詞匯量語音識別方面的表現超過了人工神經網絡模型。”

  俞棟博士以及微軟雷德蒙研究院語音組的成員們對人工神經網絡模型重新燃起興趣,是因為最近在訓練更加復雜的深層神經網絡(DNNs)方面取得了新的進展,這些進展使得基于人工神經網絡的自動語音識別系統具有超越現有技術水平的潛力。2010年6月,多倫多大學實習生George Dahl加入研究團隊,研究人員開始探討如何利用深層神經網絡改善大詞匯量語音識別。

  George帶來了對深層神經網絡工作原理的深刻見解,” 俞棟博士說:而且他在深層神經網絡訓練方面有著豐富的經驗,而深層神經網絡正是我們所要創建系統的關鍵組成部分之一。”

  語音識別系統在本質上就是對語音組成單元進行建模。英語中表達發音方式的大約30個音素就是這樣的組成單元。最先進的語音識別系統使用更短的稱為senone的單元,總數達到幾千或上萬個。

  之前的基于深層神經網絡的語音識別系統就是對音素進行建模。俞棟博士的研究實現了一次飛躍,當他與語音組首席研究員鄧力博士和首席研究員兼研究經理Alex Acero博士討論之后,提出使用深層神經網絡對數以千計的senones(一種比音素小很多的建模單元)直接建模。由此產生的論文《基于預訓練的上下文相關深層神經網絡的大詞匯語音識別》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)(由George Dahl、俞棟、鄧力和Alex Acero合著)描述了第一個成功應用于大詞匯量語音識別系統的上下文相關的深層神經網絡-隱馬爾可夫混合模型(CD-DNN-HMM)。

  也有人嘗試過上下文相關的人工神經網絡模型,” 俞棟博士指出:但他們使用的架構效果不佳。在我們發現所用的新方法使語音搜索的準確率大大提高地那一刻,我們非常激動。我們意識到,通過使用深層神經網絡對senones直接建模,我們可以比最先進的常規CD-GMM-HMM大詞匯量語音識別系統相對誤差率減少16%以上。考慮到語音識別作為一個活躍的研究領域已經存在了50多年,這樣的進展確實具有非常重要的意義。”

  為了加速實驗,研究小組還使用了通用圖形處理器來進行語音模型訓練和解碼。神經網絡的計算在結構上類似于電腦游戲中使用的3-D圖形,而現代的圖形卡可以同時處理近500個這樣的計算。在神經網絡中運用這種計算能力大大提升了建模可行性。

  2010年10月,俞棟博士在微軟亞洲研究院的一次內部研討中介紹了這篇論文,他提到在此基礎上開發性能更強的大詞匯量語音識別聲學模型面臨以下挑戰:實現并行訓練和使訓練擴展到更大的訓練集。Seide被這項研究深深觸動,他隨即加入該項目,并為團隊帶來了大詞匯量語音識別、系統開發和基準測試等方面的經驗。

  神經網絡基準測試

  我們通常認為數百上千的senones數量太大而無法用神經網絡準確地建模和訓練,”Seide說:然而,俞棟和他的同事們證明,這樣做不僅是可行的,而且還能顯著提高準確率。現在,我們要證明的是這套CD-DNN-HMM模型可以有效使用更多的訓練數據。”


  在新項目中,CD-DNN-HMM模型被用于語音-文本轉換,并在研究界公認的極具挑戰性的電話語音識別標準數據集Switchboard上進行評測。

  首先,研究團隊對深層神經網絡訓練工具進行了改寫,以支持更大的訓練數據集。然后,在微軟亞洲研究院軟件開發工程師李剛的幫助下,他們將新的模型和工具在含有300小時語音訓練數據的Switchboard標準數據集上進行評測。為了支持如此大量的數據,研究人員建立了一些巨大的神經網絡模型,其中一個包含了6,600多萬神經間連結,這是語音識別研究史上最大的同類模型。

  隨后的基準測試取得了令人驚訝的低字詞錯誤率——18.5%,與最先進的常規系統相比,相對錯誤率減少了33%。

  我們開始運行Switchboard基準測試時,”回憶說:我們只期望實現類似語音搜索任務中所觀察到的結果,也就是16-20%的相對改善。整個訓練過程大約花費了20天的計算時間,而且每隔幾個小時就產生一個稍稍改良的新模型。每隔幾個小時,我都會迫不及待地測試最新模型。你無法想象,當相對改善超出預期的20%時,我們有多興奮,而且模型仍在不斷改善,最后定格在30%以上。過去,只有極少數的單項技術能在語音識別方面實現如此幅度的改善。”

  由此產生的論文題為《使用上下文相關深層神經網絡進行交談語音轉寫》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李剛和俞棟合著),已經于8月29日發表。這項工作已經引起了科研界的高度重視,而研究團隊希望通過在會議上發表這篇論文進一步啟迪這條新的研究路徑,并最終將基于深層神經網絡的大詞匯量語音識別推到一個新的高度。

  離未來更近了一步

  這種基于人工神經網絡的非特定人語音識別新方法所實現的識別準確率比常規系統高出了三分之一以上,俞棟、Seide和他們的團隊向著流暢的語音-語音交互”這一目標又邁進了一大步。這項創新簡化了大詞匯量語音識別中的語音處理,能實時識別并取得較高的準確率。

  這項工作仍處于研究階段,還會面臨很多挑戰,其中最嚴峻的挑戰在于擴展到使用數萬小時訓練數據。我們的研究成果只是一個開始,這一領域將來還會有更多令人振奮的進展。”Seide說:我們的目標是實現以前沒法實現的新的基于語音的流暢服務。我們相信,這項研究最終將改變我們的工作和生活。想象一下吧:用語音-語音實時翻譯進行自然流暢的交談,用語音進行檢索,或者用交談式自然語言進行人機互動。”

微軟亞洲研究院博客


標簽:常州 南充 臨沂 遼寧 西藏 河源 佳木斯 梅州

巨人網絡通訊聲明:本文標題《微軟:語音識別技術突飛猛進》,本文關鍵詞  微軟,語音,識別,技術,突飛猛進,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《微軟:語音識別技術突飛猛進》相關的同類信息!
  • 本頁收集關于微軟:語音識別技術突飛猛進的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 醴陵市| 衢州市| 辽源市| 佳木斯市| 桃江县| 崇仁县| 南木林县| 兴和县| 关岭| 西乌珠穆沁旗| 龙南县| 彭泽县| 大理市| 迭部县| 泸西县| 清远市| 桦甸市| 新民市| 聂拉木县| 眉山市| 金秀| 博爱县| 正蓝旗| 黔东| 承德市| 翁牛特旗| 万年县| 通化市| 固阳县| 民丰县| 桐柏县| 三河市| 台安县| 民和| 临夏县| 南汇区| 淳化县| 扬州市| 综艺| 齐齐哈尔市| 湟中县|