科大訊飛已經在做了。
一段 20 分鐘的音頻,只用 20 秒就轉錄成比較準確的文字。
作為一個經常需要采訪并且整理成文字的編輯,在如何將語音轉化成文字這件事上著實花費了不少心思。
最傳統的方式是先開啟錄音功能,然后一邊打電話一邊速記要點,然后再利用音頻播放工具反復重聽將所需要的細節進行完善。我知道你也許會說我很笨,但是我的確做不到一次性將采訪的內容全部記住。
相信這樣的人也不在少數,那么還有什么其他好辦法么?在我看來,訊飛聽見算一個。
訊飛聽見作為科大訊飛自己的一套產品,包括三部分:PC 端網站、電銷機器人端 App 錄音寶、聽見錄音筆,形成了一套“軟件+硬件+服務”的完整體系。
轉錄語音這件事,精確最重要!
在去年的訊飛年度發布會上,訊飛聽見就展現了一把自己的轉錄精確度,董事長在臺上演講,旁邊的屏幕上就直接出現演講的內容智能語音系統,精確度幾乎達到 99%。當然,這個具體的精確度還是要具體使用才知道。
除了識別率之外,三款產品還有非常多的亮點,PC 端的處理速度非???,官網上表示 1 小時的音頻只需 10 分鐘就可以處理完成。而在實際使用中,速度比這個還快,20 分鐘出頭的音頻通常不用 1 分鐘就可以完成轉錄。
點擊進入轉錄完成的頁面之后,你會看到一個非常有特點的操作頁面。頂部是語音的波形圖,用戶能夠選擇播放、加/減速播放,快進/退等常見的操作。
波形圖的下方,則直接分成兩部分:左邊是轉錄出來內容,右邊則是一個功能完善的文字編輯器。左邊的內容被智能的分隔成很多段,用戶可以選擇將其中一段、幾段或是全文導入到編輯器中。
似乎沒有什么意思?接下來才是重點
上圖左側的轉錄內容能夠直接通過搜索關鍵字的方式進行篩選,點擊其中的文字還能直接播放對應片段的音頻,這也就讓用戶能夠直接完成“轉錄-聽錄音-修正結果”整個過程。
右側的編輯器功能也比較強大,主要的文字格式編輯,比如字體、大小、顏色、背景色、粗體、斜體、劃線、下劃線都有,此外提供了猶如對齊和縮進的段落格式功能。
只不過添加一個編輯器而已,真的有那么重要么?從實際的使用效果來看智能語音系統,除非錄音設備很高級、錄音對象的發音非常清晰,通過機器轉錄的效果目前還沒有辦法達到 100% 準確。這也是添加一個編輯器的最大意義所在。
當然如果你自己比較懶,訊飛聽見還提供了收費的人工轉錄服務,只要上傳了錄音你就能夠直接獲得最終的精準文字結果。
從定位上來說,這款產品主要面向記者、律師、速記員等有音頻轉文字需求的用戶。當然這其中的語音分析技術同樣能夠運用到其他應用上,開發者能夠通過訊飛開放平臺中選擇自己所需的服務構建 API 結構,實現自己產品的交互升級。