CTI論壇(ctiforum.com)(編譯/老秦):語音應用程序開發市場主要由消費產品驅動。最近,對于公司來說,構建自己的語音解決方案變得越來越容易,盡管這一領域并不像企業所希望的那樣完全明確。
到目前為止,供應商主要專注于創建消費者語音應用程序。Alexa擁有超過10萬種技能,但其中很少有用于嚴肅業務用例的,會話技術負責人、萬維網聯盟多模式交互工作組主席Deborah Dahl解釋道。很多技能都是學生項目和各種類型的實驗。在構建工業級應用程序方面投入的精力還不夠多。
年度回顧
事實上,亞馬遜、蘋果和谷歌等頂級供應商通過創建消費者解決方案來打造自己的業務。2020年,一個企業平臺出現了。通過Nuance Communications'Mix,公司現在可以構建自己的企業智能助理。
該解決方案包括許多組件,使組織能夠創建通過應用程序編程接口(APIs)與企業軟件集成的語音應用程序。通過Mix。nlu,一個自定義自然語言理解(NLU)系統,公司編寫從Mix項目儀表板部署的語音模型。Mix的自動語音識別(ASR)功能由Krypton提供支持,Krypton是一個用于轉錄音頻的實時語音到文本引擎。Krypton使用域語言模型和詞集來定制特定環境的識別。
Dahl指出:Nuance Mix與Alexa Skills Kit在功能上非常相似,它為希望構建語音應用程序的第三方提供了這些功能。由于Nuance解決方案剛剛開始發布,它在可用技能的數量和豐富性方面遠遠落后于更大、更成熟的消費者平臺。
大多數企業開發人員都使用過傳統的文本應用程序,需要熟悉語音APIs中提供的功能。Nuance似乎意識到了這種需要。Dahl說:Nuance創造了非常精良和有用的培訓材料。一個視頻引導新手完成開發過程,最佳實踐和技巧提供了額外的指導。
供應商還繼續調整他們的語音引擎。例如,今年10月,Artificial Solutions更新了Teneo語言,該語言以Teneo NLU本體和語義網絡為特征,并將語言映射到聲音。
Teneo現在也應用句法條件,比如理解一個詞在句子中何時被用作名詞或動詞。附加的會話模塊提供了預構建的解決方案,具有用于常見對話的后端集成,例如實時聊天切換或預訂會議室。
即使在用戶保持沉默的情況下,該產品仍能繼續進行對話;保持與公司品牌價值相一致的個性;即使在用戶偏離主題的情況下,該產品也能保持動力。
另一家開發平臺提供商Voiceitt首先通過與具有非典型語音模式的人合作,建立了自己的語音識別算法和語音數據庫。去年12月,供應商讓殘疾人可以使用Alexa。Voiceitt移動應用程序應用機器學習和語音識別技術,幫助因中風、退行性疾病或發育障礙導致的語音障礙患者進行交流。
此前,Inglis House是一個長期護理輪椅社區,它的試點取得了成功。兩者開發了一個應用程序,幫助腦癱患者使用自己的聲音獨立完成常見任務,比如控制電視頻道或播放音樂。
不過,總的來說,語音解決方案在很大程度上是自主發展的,盡管企業希望將它們相互連接起來。
8月份,Genesys加強了Engage,它的云聯絡中心語音解決方案,因此它在多云部署中運行。
Engage的容器化體系結構支持私有、公共或混合云部署。該產品與領先的基礎設施即服務提供商合作,如Amazon Web Services(AWS)、GoogleCloud和MicrosoftAzure。有了它,組織可以在不同的云之間移動他們的軟件,或者使用多個提供者來滿足不同的系統需求、地理需求或數據主權法規。
展望未來
到目前為止,語音開發平臺主要是由大型成功技術公司推出的專有解決方案。有很多產品可用,但它們有不同的目標、設計基礎和接口,而且很少在緊密結合的生態系統之外工作。
因此,企業無法輕松地將在其中一個平臺上完成的工作應用到在另一個平臺上運行的具有類似需求的應用程序。慢慢地,這個行業正以幾種不同的方式轉向標準的、開放的系統。
其中一個重點領域是開源解決方案。Rasa是一家通過風險投資籌集了4000萬美元的初創公司,它開發了一個開源的語音開發平臺。供應商提供程序員用來創建聊天機器人、語音應用程序和會話服務的基礎設施和編程工具。
Rasa在其會話AI套件中提供三種產品。Rasa Open Source于2019年發布,創建了語音AI軟件。RasaX是一個免費的工具集,幫助開發人員在Rasa開源平臺上構建智能語音助手。RasaEnterprise提供企業級IVA開發平臺。
Dahl認為,開源軟件有優缺點。價格始終是部署的考慮因素,開源解決方案幾乎總是免費提供的。此外,這些產品是柔韌的,人們可以用任何他們想要的方式使用它們。他們反應迅速。有了自己動手的工具包,企業可以立即更改軟件,而不是等待供應商添加所需的功能。
但開源解決方案也有其局限性。核心升級通常需要一段時間,因為它們需要獲得社區的同意,而社區對如何改進功能可能有很大不同的看法。通常,這些系統很復雜,企業缺乏部署和維護它們所需的專業知識。如果出現問題,用戶通常無法拿起電話并獲得技術支持。
另一個新興趨勢是推動行業標準的發展,這也使得組織構建和連接語音軟件變得更加簡單。開放語音網絡(OVN)是由麻省理工學院(MIT)汽車識別實驗室、凱捷咨詢公司和英特爾公司在2016年夏天進行的研究開發出來的。我們認識到語音用戶界面有可能改變人類與計算機系統的交互方式,開放語音網絡的執行董事JonStine解釋說。
OVN是Linux基金會的一個定向基金,去年春天推出。目前,大約有十幾家企業和150多名設計師、開發人員和戰略家正在研究創建通用語音軟件體系結構的方法。它們有四個目標:安全;提供用戶、生態系統和體系結構選擇;具有包容性和可訪問性;支持開放式軟件和硬件,但仍能實現商業差異化。
該集團計劃解決一個市場限制。目前,企業沒有辦法注冊他們的語音產品。Stine指出:沒有用于語音的DNS[域名服務]。
OVN已經開始研究如何建立一個數據庫和流程,這樣公司就可以注冊,比如他們的名字。有了它,例如,消費者可以區分Delta Airlines和Delta Dental語音技能。
到目前為止,消費類應用已經推動了語音開發市場。新的以企業為中心的平臺已經開始出現,向開源和基于標準的系統的轉移有可能使公司在2021年更容易創建更多業務質量的語音應用程序。
聲明:版權所有 非合作媒體謝絕轉載
作者:Paul Korzeniowski
原文網址:
https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145091