POST TIME:2021-07-26 13:21
電話機器人是近兩年興起的人工智能產品,它主要經過電話群呼潛在客戶,溝通進行信息挑選,協助企業選擇意向客戶。企業運用電話機器人能夠削減人工成本,進步作業效率。
電話溝通也是言語進行信息溝通的一種方法,對人類來說,這是十分簡略的一件事,但關于機器而言,就不是一件易事了,其間觸及了主動語音識別技術。
語音識別,又稱為主動語音識別(Automatic Speech Recognition,ASR),指讓計算機主動將人類的語音內容轉換成相應文字。
語音識別技術已經有五十多年的歷史,真實開端得到廣泛使用,仍是近幾年的事。隨著移動設備、可穿戴設備、智能家居設備、車載體系變得越來越盛行,對話交互也逐步變成了人機交互中的要點。
語音識別主要由以下幾個根本模塊組成:信息處理和特征處理、聲學模型(AM)、言語模型(LM)、發音詞典和解碼器。
信號處理和特征提取。它是語音識別體系的榜首部分,其主要使命是接納最原始的音頻信號,為后邊的聲學模型提取合適的有代表性的特征向量。一起,它也包括了一些信號處理技術,如盡可能降低環境噪聲、信道失真、說話人等要素對特征造成的影響。
聲學模型。一般的語音識別體系大都運用隱馬爾科夫模型對詞、音節、音素等根本的聲學單元進行建模,生成聲學模型。能夠簡略了解為是對發聲的建模,它能夠把語音輸入轉換成聲學表明的輸出。
言語模型。言語模型對體系所需識別的言語進行建模。正則言語、上下文無關文法在內的各種言語模型都能夠作為言語模型,現在大多數的語音識別體系遍及選用的仍是基于計算的N元(N-gram)模型及其變體。它能夠估量經過練習學習詞與詞之間的相互聯系,來估量假定詞序列的可能性。
發音詞典。發音詞典包括體系所能處理的單詞的調集及其發音。發音詞典得到了聲學模型建模單元和言語模型建模單元之間的映射聯系,將兩者連接起來,組成一個查找的狀況空間用于解碼器進行解碼作業。
解碼器。解碼器是語音識別體系的中心之一,其使命主要擔任讀取輸入的語音信號的特征序列,再根據聲學模型、言語模型及發音詞典,解碼出以最大概率輸出該信號的詞串。
語音識別就是一個先編碼后解碼的進程,信號處理和特征提取就是編碼的進程,由原始的語音得到語音向量。后邊便是對語音向量的解碼,而解碼需求上面說到的聲學模型和言語模型。
與計算機視覺不同,語音識別有且只有一個中心使命——將人類的語音轉換成文字。簡略來描繪機器識別語音的進程:言語由單詞組成,單詞由音素組成,假設咱們將一段語音的聲波按幀切開,用幀組成狀況,用狀況組成音素,再將音素組成單詞,語音就變成了文字。
音素:音素是最小的語音單位,一個發音動作構成一個音素。音素構成音節,音節又構成不同的詞和短語。音素又分為元音和子音。
狀況:這兒能夠將其了解成比音素更詳盡的語音單位。一般把一個音素劃分紅3個狀況。
現在中使用比較廣泛的語音識別軟件有IBM公司的Viovoice、科大訊飛的語音識別產品、蘋果的Siri等,而現在市面上的智能音箱、車載配備等產品也都是語音識別看得見摸得著的使用。能夠說,語音識別技術是人工智能落地比較老練的技術領域之一。
盡管語音識別技術仍然還有許多亟待進步的地方,比如方言的語音識別、高噪音環境下的語音識別等方面還有一段路要走。但不可否認的是,隨著信息技術的不斷開展,語音識別技術也將不斷獲得打破,有著愈加寬廣的開展空間。
上一篇:電話機器人:自己相信才能用的好
下一篇:電話機器人超越你對語音識別的認知