婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 智能呼叫系統 > 行業資訊 > AI智能電話銷售機器人源碼搭建部署系統電話機器人源碼

AI智能電話銷售機器人源碼搭建部署系統電話機器人源碼

POST TIME:2021-07-11 23:00

一般智能語音助理或語音機器人工作原理大致如下:
 
第一階段:
語音到文本的過程。信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音→轉換為其他形式(如文本)
 
第二階段:
響應過程。處理文本(如用NLP處理文本,識別意圖)→操作響應。
 
 
在檢測語音過程中,就包括分辨是否為語音信號,該過程會通過指定的頻率對模擬信號進行采樣,將模擬聲波轉換為數字數據。這一過程很重要,是否成功地識別語音。如果生成數字數據都是錯誤的,那么后期的處理響應那肯定是錯的。這也是影響智能語音助理或語音機器人識別率的重要因素。
 
在這個過程,用于語音處理的技術是語音活性檢測 (Voice activity detection,VAD),目的是檢測語音信號是否存在。 VAD技術主要用于語音編碼和語音識別。它可以簡化語音處理,也可用于在音頻會話期間去除非語音片段:可以在IP電話應用中避免對靜音數據包的編碼和傳輸,節省計算時間和帶寬。
 
文本將與大家分享VAD技術,首先講兩個概念:
信噪比(縮寫為SNR或S / N)是科學和工程中使用的一種度量,它將所需信號的電平與背景噪聲電平進行比較。
SNR定義為信號功率與噪聲功率之比,通常以分貝表示。比率高于1:1(大于0 dB)表示信號多于噪聲。
窗口,研究信號源,我們將其分成滑動窗口或僅窗口。
 
編輯
 
能量檢測器
 
能量檢測器對于高SNR信號是有效的,但是當SNR下降直到它在1以下變得無效時失去效率。它也不能將語音與諸如沖擊噪聲(將筆放在桌子上),打字,空調或任何噪聲之類的噪聲區分開來。比人聲更響亮或更響亮。
 
波形和頻譜分析
 
在波形和頻譜分析中,語音活動檢測利用語音的已知特征。在該方法中應用VAD比基于能量的解決方案更加計算密集,但是能夠更好地檢測非平穩噪聲和低SNR場景中的噪聲。
 
對于濁音音素,聲帶的振動產生諧波豐富的聲音,具有50到250 Hz之間的明顯音調。所有元音,但也有一些輔音,表現出這種諧波結構,因此是語音的特征。代表諧波結構的特征是語音的可靠指標。然而,單獨使用基于諧度或基于音調的特征不能預期無聲語音部分(例如一些摩擦音)被檢測到。此外,音樂或其他諧波噪聲分量可能被誤解為語音。
 
總的來說,對信號的倒譜的分析可以揭示信號能量的來源。
 
同樣的,基于該共振峰結構,也是語音識別系統的重要特征。人類聲道中的可變腔允許揚聲器形成不同的音素。強調諧振(或共振峰)頻率,導致頻譜包絡的特征形狀。
 
平滑很重要,在一個對話中,一個人只有50%的時間在說話,并且存在大量非活動幀。諸如[p] [t] [k] [b]之類的音是靜音,并且靜音部分可能不會被算法識別為語音,這將影響自動語音識別系統的性能。
 
解決方案如下:
 
要被視為語音,必須至少有3個連續的窗口標記語音(192ms)。它可以防止短暫的噪音被視為語音。
 
要被認為是沉默,必須至少連續3個窗口標記為靜音。它可以防止過多的語音切入影響語音節奏。
 
如果窗口被認為是語音,則前3個窗口和3個窗口被認為是語音。它可以防止在句子開頭和結尾丟失信息。
 
基于統計分析
 
MFCC,FBANK,PLP是最常用的語音識別功能。有數學運算的連接,旨在通過保持最相關的數據來減少和壓縮信息的數量。
 
在“信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音”過程中,語音成功采樣識別為數字數據,是后期語言處理的前提,在檢測中文面臨更大挑戰,斷句、語氣、語調等因素直接影響識別率。
 
因此,語音活性檢測會影響電話機器人的識別率。


收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266
主站蜘蛛池模板: 宝应县| 黔东| 南雄市| 吉木萨尔县| 商都县| 浮山县| 富宁县| 嘉荫县| 枞阳县| 道真| 侯马市| 庆阳市| 余姚市| 嘉祥县| 安宁市| 英吉沙县| 邻水| 富顺县| 金坛市| 黑河市| 铁岭市| 阿拉善右旗| 武夷山市| 贵港市| 富宁县| 十堰市| 永昌县| 大悟县| 金昌市| 郯城县| 通榆县| 平和县| 镇赉县| 连州市| 芮城县| 东阿县| 万年县| 黎平县| 山丹县| 吉木乃县| 海城市|