微軟雷蒙德研究院開發出一種機器學習算法,使計算機對指定主題對話的語音識別率增至94.1%,首次與人類水平相當;對親戚朋友日常對話的識別率達88.9%,甚至比人類略勝一籌。
美國國家標準與技術研究所2000年時曾發布一個數據庫,以幫助解決語音識別難題。該數據庫包含的電話錄音有些是個人之間既定話題的談話,其余則是親戚朋友間的隨意交談。
結果顯示,人類在轉錄語言時的出錯率約為4%,即每一百個字中人類會錯誤地轉錄4個字。過去,機器的表現距這一數字相去甚遠。如今,計算機在把個人之間既定話題的談話內容轉錄成文字時,出錯率為5.9%,而轉錄親戚朋友間任意主題的隨意交談時,出錯率為11.3%。“這比預想的還要好。”微軟研究人員茨威格表示。
隨后,茨威格基于不同層數的卷積神經網絡來優化他們自己的深度學習系統,從而讓系統的每一層能夠識別語音的不同方面。然后他們用訓練數據作為標準來設置機器,以便識別普通語音并且讓他們能夠適應測試數據庫。
總的來說,微軟的語音識別系統與人類具有相似的錯誤率,但它造成的錯誤類型與人類截然不同。微軟機器最常見的錯誤是混淆反饋聲音。相比之下,人類很少犯這樣的錯誤。對此,茨威格認為,原則上機器沒有不能通過訓練來識別反饋聲音的理由,出現誤差可能與噪聲在訓練數據集中標記的方式有關。
微軟研究人員表示,計算機語音識別能力正超越人類水平,“這對計算機行業的重要意義不亞于圖形用戶界面”,其中既包括Xbox這樣的消費娛樂設備,也包括即時語音轉文字等可訪問性工具,以及“小娜”這樣的個人數字助理。