電影《Her》中,主人公西奧多剛結束一場失敗的婚姻,一次偶然的機會,他接觸到了搭載了人工智能系統的虛擬化身“薩曼莎”。薩曼莎擁有迷人的、磁性的聲線,時而風趣幽默、時而溫柔體貼,與我們實際生活中聽到的許多機器人頓字、頓句的發音相去甚遠,他愛上了這個聲音。
電影《Her》預告片
雖然這個虛構出來的角色是由演員配音完成的,但卻透露出一個真實的訊息——越接近真人說話水準和富有情感表現力的聲音,越容易為大眾所接受。
利用聲音“粘性”為產品打造專屬形象
讓機器擺脫平鋪直敘的發聲,帶來更加舒適自然的聽覺體驗,這也是當前語音合成技術的發展方向。憑借十多年深厚的技術積累及行業應用,捷通華聲打造出具有劃時代意義的靈云情感語音合成技術,能夠合成出帶有語氣、情緒等情感豐富、更接近真人的聲音,可通過“云+端”的形式讓每一家企業都能輕松擁有更動聽、更富感情的語音合成服務。
在語音合成需求市場,不同品牌、公司及服務商會根據自身不同的場景和產品特點采用不同的聲音,例如銀行的智能客服需要嗓音甜美、溫柔動人的聲音,而催收公司則需要措辭懇切、略顯嚴厲的聲音。語音合成的個性化以及情感化成為如今市場的迫切需求。
為了打造優質的語音,讓用戶喜歡從而形成對聲音的“粘性”,捷通華聲采用最新采用的深度學習技術建模,連同高音質聲碼器,產出個性細節豐富的聲線效果,語氣感真實。情感語音合成技術采用高度自動化的數據加工標注,用戶只需提供自己喜愛的錄音,即可快速定制出音庫。
同時,捷通華聲十多年來積累了大量的領域詞庫、預選音庫,可為金融證券、天氣預報、體育賽事、公交汽運、航空、稅務、POI、排隊叫號等眾多領域提供更專業的語音合成播報,客戶能夠快速、輕松定制與自己產品屬性、形象相匹配的聲音,為產品賦能。
聲情并茂全新技術業內領先
傳統語料數據處理方式為手工精標,需要耗費大量人力,捷通華聲采用先進的人工智能技術,通過計算機程序進行預處理,之后再由人工進行校正,大大提高了工作效率。在核心技術方面,捷通華聲也達到了業內領先水平:
聲學模型訓練方面:高魯棒性預處理和建模框架,降低了以往對錄音風格和穩定性的嚴格約束,普通人自然講話、刻意帶情緒講話、角色模仿講話,均可訓練出保真、穩定的效果。
語音合成效果方面:靈云情感語音合成技術已經發布多樣、個性的音色庫:童聲既有夸張俏皮的卡通配音,也有真實小孩的呆萌學語;女聲既有林志玲般的嗲音氣語,也有丹氣十足的磅礴宣讀;男聲既有新聞主播型的正氣播報,也有網絡主播型的地氣貧嘴,為各種應用場景提供合適的聲音。
多語種合成方面:靈云語音合成技術已全面支持中文普通話、粵語、維吾爾語、英語、日語、德語、法語等21種語言。完備的用戶自定義體系,可彌補基礎合成的不足,保證合成效果穩定在高水準;中文腔調讀英文的自定義詞表,保證中英文混雜時的無縫自然過渡。
十多年深耕技術引領行業變革
十多年來,捷通華聲一直專注技術研發與創新,依靠國內領先的靈云語音合成技術,在國內智能語音市場占有率超50%:
早在2001年,捷通華聲便推出代表國際領先水平的jTTS世紀版。隨后,捷通華聲成為建行、農行的唯一語音合成供應商,全國99%的高鐵站也均采用靈云語音合成播報。同時捷通華聲成功服務北京奧運會,上海世博會也采用靈云語音合成技術播報賽事。到2016年,捷通華聲已成功為上千家企業提供語音合成技術。
讓聲音自然,富有情感和表現力,一直是語音合成技術的一大難點。如今,捷通華聲正在利用全新推出的靈云情感語音合成技術,為金融、電信、能源、交通、政府、醫療、互聯網等上千家企業提供更加優質的服務,全新體驗的語音合成產品引發了巨大變革。
不論是智能客服、地圖導航、機場廣播的甜美女聲,還是新聞播報、聽書朗讀的清爽男聲,智能家電、機器人的可愛童聲,靈云情感語音合成技術都能讓有各種需求的企業快速擁有更具競爭力的產品,讓社會大眾能夠體驗到富具情感、更聲情并茂的聽覺體驗。
在核心技術升級的同時,捷通華聲也努力打造出更加穩定、便捷應用的私有云能力平臺以及公有云開放平臺,從而形成了從底層數據、到核心技術,再到服務應用的三層業務結構,極大地滿足了合作伙伴多方位的需求,方便企業用戶實現快速無縫化的產品演進。