
搜狗語音交互技術中心總經(jīng)理王硯峰
搜狗推出語音轉寫文字工具“搜狗聽寫”,基于搜狗知音引擎的長時語音聽寫技術,可實現(xiàn)小時級文字轉寫功能,文本語音同時生存。現(xiàn)已上線Android、iOS移動端和Web版本,提供“聽寫”和“轉寫”兩種模式,辦事免費,主要面向記者、編纂、作家等文字工作者。
活動現(xiàn)場,搜狗方面體現(xiàn),后期將重點推進人工智能技術的落地,并透露將在可穿戴、車載、客廳等場景領域自主研發(fā)硬件。搜狗方面透露,搜狗將于近期推出一款面向家庭和兒童的機器人產(chǎn)品。
據(jù)介紹,搜狗語音輸入法錯誤率已經(jīng)下降到3.8%,語音識別辦事每日請求PV為2. 6 億次,每天產(chǎn)生語料 22 萬小時。基于規(guī)模性的用戶語音數(shù)據(jù),聽寫產(chǎn)品將搜狗的語音識別、自然語言理解等技術進一步延展落地。
傳統(tǒng)語音轉錄產(chǎn)品主要包孕兩大類,錄音類、語音輸入法+備忘錄。前者只能錄音不能實現(xiàn)文字轉寫,不能標注重點;后者無法長時語音輸入,可能被打斷,無法生存原始錄音。搜狗認為語音轉錄產(chǎn)品具備剛性需求。基于上述痛點,搜狗聽寫提供聽寫和轉寫模式,聽寫模式可邊收音邊展現(xiàn)識別結果,轉寫模型支持離線上傳文件給出識別結果。
在功能設計上,搜狗聽寫提供語音和文字無縫對齊,便利重點內容定位;支持重點標注,對應的文本和語音可同時標注。產(chǎn)品可在手機端邊聽邊寫,實現(xiàn)手機端和網(wǎng)頁端內容同步。此外,搜狗聽寫還提供外接藍牙鍵,與手機配對,便利用戶錄音過程中實時標注。搜狗聽寫還可按照語義自動添加標點,標點正確率高達96%,標點類型在滿足逗號、句號、問號、嘆號的基礎上,還率先擴充了書名號。
在應用場景上,搜狗聽寫針對用戶的使用場景,如開會,寫小說等場景進行優(yōu)化。識別效果較通用效果提升15%以上;還針對未便于大聲說話而又有使用語音的場景,提供了耳語識別技術,在人的說話音量低至 30 分貝以下的情況下,依然可以準確識別。
相較于此前的輸入法語音識別,搜狗聽寫的使用場景更加復雜,在算法模型層面,搜狗進行了優(yōu)化。據(jù)介紹,聽寫模式采用業(yè)內領先的端到端深度神經(jīng)網(wǎng)絡技術Deep LC-CLDNN+CTC技術,轉寫模式使用了Deep CNN+CTC的方式,語言模型基于T級海量輸入法文本數(shù)據(jù)使用神經(jīng)網(wǎng)絡進行建模,語音識別準確率高達97%。
在語音文字轉寫工具領域,,科大訊飛已經(jīng)推出錄音寶、訊飛聽見等產(chǎn)品。當談到搜狗聽寫的差異性,搜狗語音交互技術中心總經(jīng)理王硯峰認為,搜狗聽寫的優(yōu)勢在于可支持長時錄音,轉寫辦事免費。在功能設計上,搜狗更看重垂直場景的體驗提升,好比加入藍牙鍵,提供改寫、標注、發(fā)摘要等在線編纂功能。(侯迪憬)