10月15日,“包容與多樣”無障礙發展國際學術大會在清華大學成功舉辦。會議現場,捷通華聲“靈云智會”語音轉寫系統將演講者話語進行實時轉寫、實時上屏,轉寫準確率高、斷句準確,受到現場各國研究學者、清華師生及各界人士的高度好評。
關于語音轉寫效果,現場一名清華學生說道:這個語音識別出字快、識別率高,斷句、標點也很準確,不但方便了我們理解學術報告的內容和整體邏輯,更是讓現場的聽障人士能直接用眼睛來“聽”學術報告。
“靈云智會”語音轉寫系統是什么,在現場是怎樣實現語音轉寫實時上屏的?捷通華聲現場工程師介紹說:靈云智會系統,是以靈云語音識別為核心,具備實時語音轉寫、實時內容校核、實時文字上屏功能的智能語音轉寫系統,不僅可以應用在各種大型會議上,也能夠廣泛應用于各種辦公會議,幫助完成會議記錄。
關于現場實時語音識別的整體流程,捷通華聲工程師介紹說,首先,演講者的聲音經過麥克風采集,傳輸至聲控臺,聲控臺將聲音送至PC上的靈云智會系統;然后,靈云智會系統應用現場服務器上的靈云語音識別能力平臺,將語音轉寫為文字,實時反饋至靈云智會系統;最后,應用靈云智會系統的上屏展示功能,把文字投到現場的兩塊大屏上。
此次大會上,靈云智會系統與人工同傳完美結合,實現演講內容英中、日中等語言的同聲傳譯與實時上屏。通過靈云智會系統的輔助,一方面,減輕了同傳人員的工作強度;另一方面,提升了同傳效率,讓參會人員能更快、更及時地聽到翻譯的內容。
靈云科技 源自清華造頂尖語音技術
此次大會上,靈云智會系統應用的是捷通華聲最新一代靈云語音識別技術(ASR):在CTC算法的基礎上,對建模單元粗粒度、模型訓練方法、解碼幀率進行創新優化,有效提升了語音識別引擎的執行效率、魯棒性,增強了對不同口音、語速的適配能力,大幅提升了多人對講、遠場講話等場景中的語音識別率。
目前,靈云語音識別技術已支持中文普通話、英語、粵語、維吾爾語、哈薩克語、藏語安多、藏語康巴、朝鮮語、蒙文、廣東陽江話等多種語言,并針對金融、電信、公檢法、會議、醫療等領域訓練了專用ASR模型,為行業客戶提供識別率更高的ASR能力。
捷通華聲董事長張連毅表示,靈云語音識別技術的重大提升,離不開與清華大學“靈云科技源自清華”的戰略合作。2013年,清華產業基金投資捷通華聲,共同創建“清華靈云人工智能研究中心”。2018年,捷通華聲與清華海峽研究院共建清華海峽研究院靈云人工智能研究中心,張鈸院士親自掛帥,出任研究中心首席科學家。本次清華國際學術會議實時語音轉寫的成功,是對清華大學與捷通華聲科研團隊科研成果的一次完美展現,也是捷通華聲向清華大學的一次合作成果匯報。
靈云智會:語音轉錄利器
靈云智會系統是捷通華聲在政府會議、公檢法審訊辦案、醫療電子病歷等場景應用中打磨出來的智能語音轉錄系統,包含豐富的功能:
語音實時轉寫:開會過程中,發言實時轉寫,并可在編輯框內實時校正修改,實現會議內容實時上屏與分角色記錄;
離線錄音轉寫:政府領導外出講話、司法外出辦案問訊、記者采訪等場景的錄音,可直接在靈云智會系統中轉寫為文檔;
語音輸入:安裝在PC上,讓用戶可以直接通過麥克風,進行文字輸入,提高辦公效率。
為了進一步提升識別率,在行業客戶應用中,捷通華聲會為客戶提供聲學模型、語言模型定制訓練服務,快速實現對行業術語、場景環境噪音的優化,為企業提供專屬、私有化的語音識別能力。
靈云智會系統已廣泛服務于大會會議、政府辦公會議、公檢法庭審與辦案、醫療病歷錄入等場景,給辦公帶來了巨大便利。正如捷通華聲首席科學家呂士楠先生說的,AI技術不是陽春白雪,要實實在在服務國家建設和老百姓生活。捷通華聲董事長張連毅也表示:我們AI公司要腳踏實地,不斷提升算法能力、深入行業了解需求,開發能夠“落地應用”的產品與方案,為行業合作伙伴與市場提供更優質的AI技術與產品。