CTI論壇(ctiforum.com)(編譯/老秦):在2019年,語音引擎變得更加復雜,現在能夠支持其他語言和方言,但也還有更多工作要做。這些解決方案,包括語音到文本,文本到語音,語音識別,語音命令和控制,語音搜索,轉錄,翻譯以及相關活動的技術,現在在識別單詞方面做得更好,但具有諷刺意味的是,這種能力并不是用戶最終想要的。相反,他們需要可以像人一樣對它們做出反應的系統。但是,對于供應商而言,實現該目標仍然遙遙無期。
年度回顧
在2019年添加的新語言和方言中,亞馬遜的Alexa現在支持印地語語音交互。此外,該供應商還增強了系統以了解當地流行語言的變體,例如美國西班牙語和巴西葡萄牙語,從而使更多的消費者可以查看天氣,控制智能家居設備以及使用亞馬遜品牌的設備聽音樂。Bose,LG電子和索尼等第三方訪問Alexa語音服務應用程序編程接口(API)來開發Alexa Skills。
LumenVox還擴展了其系統的支持范圍,以支持本地方言,例如美國,英國澳大利亞人,新西蘭英語和北美西班牙語。
而且由于許多個人和家庭說多種語言,因此Amazon Web Services進一步引入了多語言模式,該模式允許Alexa在兩種語言之間切換。該系統通過識別用戶說出的語音并以相同的語言進行響應來自動進行調整。此功能分為三對可用:美國的英語和西班牙語,印度的印度英語和北印度語以及加拿大的英語和法語。
LumenVox客戶服務副總裁Jeff Hopper表示,與此類似,LumenVox還添加了一個新的轉錄引擎,專門針對無音頻格式。他解釋說:它可以實時工作,因此[交互式語音響應(IVR)]應用程序不僅可以接收結構化數據或自然語言輸入,還可以處理原始文本。
但是,對于整個語音行業來說,更有意義的是人工智能(AI)和深度神經網絡正在開展的工作。人工智能工作已迅速進入主流語音技術,允許更多自然語言,對話交互,并且隨著引擎處理越來越多的語音,機器學習使系統的準確性和性能得以提高。
今年,第四代深度神經網絡(DNN)的出現也顯示了語音引擎的進步。它們在輸入和輸出之間具有多層,因此可以使用線性或非線性關系得出結論。
Nuance Communications是該領域的領導者,該公司在7月推出了Nuance Lightning Engine,這是一種DNN,結合了語音生物識別技術和自然語言理解,可以跨語音渠道提供個性化,人性化的體驗。
展望未來
盡管語音引擎已在許多方面得到了改進,但基礎技術仍存在很多缺點。根據Booz,Allen&Hamilton的前專業人士StephenArnold的說法,當今的系統在識別單個單詞方面明顯要好得多,但需要的是能夠在上下文中理解單詞的解決方案。
由于此限制,當將語音系統部署為企業和消費者使用時,它們有時無法正常運行。用戶專注于最終結果,例如從語音搜索中獲取結果,但是系統通常無法提供所需的理解水平。因此,根據普華永道最近的一項調查,有71%的美國人更愿意與人互動,而不是聊天機器人或其他自動化過程。
供應商正在完善他們的系統以彌合這一差距。Google開發了BERT(來自變形金剛的雙向編碼器表示),這是一種語音識別解決方案,旨在連接單詞和更好地理解句子上下文。例如,如果某人正在尋找有關在另一個國家旅行的信息,則BERT會認識到去(to)一詞比來自(from)更重要。
類似地,Translate Your World一直在構建語音解決方案,以識別對話中的語氣,并且供應商發現,各個人的語氣會因情況而異。最終目標是指導AI翻譯,以便它們在對話的背景下為與個人打交道提供正確的模式,該公司總裁SueReager解釋說。例如,shingles一詞通常是指房屋屋頂上的物品,但在醫療保健領域,它代表病毒感染。
同樣,交流因群體而異。我們發現,消費者通常不會像企業高管那樣講的很清楚。Reager補充說:消費者的發音有時不清楚,他們通常不使用完整的句子。他們的思想缺乏組織,因此有時很難找到固定的模式。
培訓語音引擎以識別和適當地應對此類差異是她的公司以及其他多個行業細分領域將在2020年解決的問題。
誰來承擔當前的語音挑戰一直在變化。試圖翻譯語音變得越來越困難,而且非常昂貴,Arnold堅持認為。在過去的日子里,麻省理工學院機器學習實驗室的一些人能夠建立一個商業系統。但是不做了。
如今,語音引擎的研究需要大量資金,高技能的數據科學家和龐大的數據中心,而這些數據中心將擁有巨大的計算處理能力。因此,谷歌,亞馬遜網絡服務,微軟和IBM等國內行業巨頭正在承擔許多工作。
在國際上,中國公司,例如百度,也在挑戰這些問題。根據Arnold的說法,中國供應商之所以處于有利地位,是因為它們不受傳統技術的束縛,可以采用新的方法來解決這些長期存在的問題。
供應商在擴展其產品功能方面也取得了進展,因此他們支持更多類型的語音,但是仍需要努力以幫助該技術將單個單詞置于上下文中,以便系統可以適當地響應。隨著市場的變化,開發負擔急劇增加。展望未來,似乎只有財大氣粗的行業巨頭才能擁有推動語音解決方案前進所需的資源,從而變得更加人性化。
聲明:版權所有 非合作媒體謝絕轉載
作者:Paul Korzeniowski
原文網址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx