隨著AI科技的發展,過去很多無法應用計算機算法分析的場景現在已經成為可能,并且能經由AI的算法帶來實際的業務效益,提升營收。本文將以普強的AI建模、語義理解、語音識別等相關技術為核心所建立的一套優化商業場景機制,在行業中的實際應用所產生的效益做詳細闡述。
國內一名列世界500強的保險公司(以下簡稱A保險公司),擁有龐大的電銷團隊,雇傭了上萬名電銷人員,每月電銷電話撥打量達到千萬通。由于客戶名單基本為白名單,即沒有客戶的信息,傳統的格式化維度分析無法應用,所以A保險公司在沒有客戶信息的情況下,實行全量撥打,這樣的撥打效果成交率在千分之一以下。另一方面,全量撥打的電銷電話也給客戶帶來不良的印象,對客戶造成不必要的干擾。近年來,監管力度逐年上升,對電銷電話管控嚴度加大。為能有效運營電銷就需要有特定對象,向有購買保險意愿的客戶精準的撥打。
隨著AI科技的進步,普強AI建模產品的核心運用了最新的AI語音轉譯和語義理解技術,為這樣的場景提供了一個極佳的解決方案,能夠讓A保險公司和有類似業務場景公司的電銷人員將資源集中在有潛在購買意愿的客戶。一方面,避免撥打全量的電話,減少人力資源和電信話費,另一方面,能有效減少對沒有購買意愿客戶的干擾。當客戶有意愿和需求購買保險時,電銷的外呼電話不被認為是干擾;相反,對沒有購買意愿或能力的人,這樣的電話即成為客戶的干擾。
事實上,經過AI建模的分析,在數百萬的客戶名單中,有購買意愿的大約在15%左右,因此80%以上的電話都是不必要撥打的。這樣的應用給A保險公司和有類似應用場景的公司省下巨大的成本。接下來,將會對此做詳盡的描述。
1、語音語義理解可獲取有價值的客戶特征
雖然沒有客戶的固定維度信息,但是有許多已撥打過的錄音,A保險公司擁有海量的客戶通話錄音,錄音內含有寶貴的客戶信息、客戶特征等。這些數據都可以作為篩選客戶的依據,例如在電銷的過程中可以得知:
買過保險:謝謝,我已經有保險了。
可能有車:對不起,我正在開車,不方便講話。
有房人士:我目前房貸壓力大,沒有閑錢買保險。
還有許多類似的特征都可以從電銷人員和客戶的通話中獲取,做成客戶畫像。普強過去積累了許多成功案例,其中就包含大量這樣有價值的客戶特征。從各樣的案例中,電銷人員重點關注擁有這些特征的客戶,撥打給這類有較高意愿的客戶并提高銷售力度,增加撥打次數和跟進,從而提升銷售成交率。因此,若能將這些寶貴的客戶信息特征挖掘出來,也就能更進一步找出潛在客戶,從而將電銷團隊的大量資源(人力、時間、電話費用……)做最有效的運用,達到最大收益。
2、AI語音轉譯和語義理解
自從2010年蘋果電腦、手機發布Siri應用后,語音識別技術不斷的更新、突破。其主要是源于一種計算機算法架構的技術突破:深度神經網絡。使用神經網絡的技術,研究人員不斷推進許多人工智能以前不能突破的障礙,例如語音識別、圖像識別、語義理解等三大領域。借助神經網絡架構,這些領域里的問題都大大提升了應用上的效果。這樣的突破主要由以下幾個因素造成:
- 數據量的徒增:借著互聯網的發展,大量的用戶將語音、圖像、照片、文字上傳到大型的數據中心。
- 大型云計算中心超級的運算能力:能儲存、處理、分析這些海量的數據。
- 算法的突破:借助前兩項,算法得以不斷的被驗證、優化、迭代更新,創新的神經網絡架構不斷的被提出并被驗證。
在語音識別方面,2017年微軟研究院的技術達到了與人翻譯的結果相同的里程碑。在電話對話的數據集(Switchboard),微軟的研究員們使用了多個神經網絡模型來翻譯使結果達到最優,翻譯的字錯誤率與4位專業翻譯人士共同翻譯的錯誤率基本相同。2018年谷歌的DeepMind使用了大型的CNN-RNN-CTC神經網絡架構,翻譯結果比翻譯專家好六倍。同時在圖像識別方面,也同樣有重大突破,使得自動駕駛這樣復雜的工作,變得可實現。
語音、圖像識別持續突破,在語義理解方面,使用神經網絡架構的算法也突破了人的水平。著名的史丹佛大學語義理解競賽的文本問答數據集,內有10萬條問答,都是從維基百科摘選的文章片段,然后對每一片段由真人提出問題,并在文章片段內找出答案的位置。準確率由2017年前的60%迅速攀升到最新的90%以上,遠遠超過人的水平,人的水平為86.8%,而準確率最高的神經網絡是94.6%。它所使用的神經網絡架構為一種稱為Transformer的網絡,疊加24次,形成一個深度大型的網絡(BERT),并使用了兆級數量的詞匯做訓練。在其它常用的語義任務上,神經網絡也都極大的提升了準確率,例如命名實體識別(NER)、關系識別、文本蘊含(textentailment)等。
這些人工智能的科技突破,讓許多以往計算機不能應用到的場景成為新的應用。在語音方面,企業存儲的海量錄音,以往是黑盒子,無法進行分析整理。不像結構化的數據,使用大型的數據庫,可以做查詢、統計、分析、圖表化等工作。如今,可以經由語音識別成為文字,然后再經由語義理解做分析,產生實際的應用效益。接下來將對最新的語音、語義技術在人工智能科技的應用作案例分析。
3、語音語義分析現行科技狀況
語音識別相對比較容易理解和定義,其任務就是將聲音轉成文字,而轉化的效果可以簡易的用字錯誤率來界定。但是識別的準確率與諸多因素相關,可以用人的體驗來做比喻,因為人工智能基本就是模仿人的智能:
- 專業領域:如果在一個不同的專業領域,例如醫學,許多的用語不是一般常用的,一個非醫學專業的人士不容易理解這些醫學的用語,做文字轉化的也會出錯。
- 口音/方言:嚴重的方言口音或是方言。
- 傳播媒介:如電話信道。
- 背景聲音:如吵雜的環境。
這些都會影響識別的結果,就像人需要時間適應后才能聽懂一個新環境里的對話交流。所以要降低語音轉譯的錯誤率,必須要能對專業或應用領域有足夠的認識,熟悉地域的口音、方言等。
普強的語音轉譯專注于固定領域來積累領域的專業話語,也同時積累了大量的語音覆蓋了口音、方言、傳播媒介特性、背景聲音等因素,來優化語音轉譯的正確率。
另一方面,語義理解任務相對的就比較不容易定義和理解,有一組學術界定義的語義理解相關的問題(GLUE):
- CoLA:單句的二分類問題,判斷一個英文句子在語法上是不是可接受的。
- SST-2:單句的二分類問題,句子的來源于人們對一部電影的評價,判斷這個句子的情感。
- MRPC:句子對來源于對同一條新聞的評論,判斷這一對句子在語義上是否相同。
- STS-B:這是一個類似回歸的問題,給出一對句子,使用1~5的評分評價兩者在語義上的相似程度。
- QQP:這是一個二分類數據集,目的是判斷兩個來自于Quora的問題句子在語義上是否是等價的。
- MNLI-m:語型內匹配。推斷兩個句子是意思相近,矛盾,還是無關的。
- MNLI-mm:跨語型匹配。推斷兩個句子是意思相近,矛盾,還是無關的。
- QNLI:也是一個二分類問題,兩個句子是一個(question,answer)對,正樣本為answer是對應question的答案,負樣本則相反。
- RTE:是一個二分類問題,類似于MNLI,但是數據量少很多。
- WNLI:推斷兩個句子是意思相近,矛盾,還是無關的。
- AX:QA型圖像數據庫。
這些任務都有許多應用場景,但是語義理解的應用范疇也有很多不能直接應用這些任務,例如從一段對話文本中來判斷一個人是否結婚,如下面的對話:
A:您好,我想跟您談下我們公司最近的一個產品的活動,這個產品能夠......
B:嗯,謝謝,不過我需要和我老婆商量商量...。
明顯的從這段對話里,可以判定B是已經結過婚的人。再例如,服務業里常有禁忌的用語如:
A-先聽我說orA-是誰說orA-怎么知道orA-誰告訴你orA-有沒有搞錯orA-你弄錯了orA-說重點orA-你必須orA-本來應該orA-這個部門很差勁orA-這個部門差勁orA-到底需要不需要orA-你不要跟我喊orA-你明白了嗎orA-那您覺得呢orA-我說的很清楚了orA-剛才不是對你說了
這樣的語義理解應用均不是GLUE里面的任務能夠直接應用的,并且在GLUE里表現良好的神經網絡架構也不能保證在真實應用的場景里達到產生業務價值的效果。
2018年底,谷歌發布了一種神經網絡架構BERT,一種基于Transformer架構的多層疊加的神經網絡,BERT提出兩種版本,基本版(BASE)和大型版(LARGE),參數如下:
BERTBASE:L=12,H=768,A=12,TotalParameters=110M
BERTLARGE:L=24,H=1024,A=16,TotalParameters=34
使用了3.3Giga的詞匯作預訓練,然后再按任務作微調訓練,硬件使用了谷歌TPUV2.0的處理器,BERT的基礎版(BASE)需要16個TPU芯片,BERT的LARGE版使用了64個TPU芯片,預訓練需要4天。
在GLUE的許多任務上均優于此前的神經網絡架構(如上表所列)。BERT在語音識別和圖像識別突破后帶來了語義理解的突破。此后在BERT的基礎上,在語義理解的許多應用上都帶來了突破。然而由于BERT和后續的神經網絡都需要龐大的計算資源和時間,給私有化部署的應用帶來高昂的成本,除非能夠使用云端共享的BERT計算資源。由于數據保密的要求,許多應用的數據無法上傳到云端,例如金融業的客戶數據等。
如前所述,這樣的科技還需要經過再創新才能應用在實際的商業場景里。普強在這個方面做了十年的科研投入,不斷的將最新的科技應用在實際的商業場景上。
4、普強語音語義框架
當前人工智能算法均屬在高維度的空間中尋找線性/非線性復合函數的最優值點,其最核心的架構設計實為設計此高維度空間里的數學復合函數,許多的復合函數/神經網絡框架都在不同的任務中被驗證有應用的效益,下面列舉了幾個重要的類別:
全聯多層的神經網絡:每層的神經元均與下一層的所有神經元相連,邏輯回歸等算法均使用此種網絡。
- 卷積神經網絡(Convolutional Neural Networks,CNN):是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks),是深度學習(deeplearning)的代表算法之一。卷積神經網絡具有表征學習(representation learning)能力,能夠按其階層結構對輸入信息進行平移不變分類(shift-invariant classification),因此也被稱為平移不變人工神經網絡(Shift-Invariant Artificial Neural Networks,SIANN)。卷積神經網絡架構在視覺辨識里達到了極優的效果。
- 循環神經網絡(Recurrent Neural Network,RNN):是一類以序列(sequence)數據為輸入,在序列的演進方向進行遞歸(recursion)且所有節點(循環單元)按鏈式連接的遞歸神經網絡(recursiveneuralnetwork)。循環神經網絡的研究始于二十世紀80-90年代,并在二十一世紀初發展為深度學習(deeplearning)算法之一,其中雙向循環神經網絡(BidirectionalRNN,Bi-RNN)和長短期記憶網絡(Long Short-Term Memorynetworks,LSTM)是常見的的循環神經網絡。循環神經網絡具有記憶性、參數共享并且圖靈完備(Turingcompleteness),因此在對序列的非線性特征進行學習時具有一定優勢。循環神經網絡在自然語言處理(Natural Language Processing,NLP),例如語音識別、語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報。引入了卷積神經網絡(Convoutional Neural Network,CNN)構筑的循環神經網絡可以處理包含序列輸入的計算機視覺問題。
- Transformer神經網絡:拋棄了傳統的CNN和RNN,整個網絡結構完全是由Attention機制組成。更準確地講,Transformer由且僅由Self-Attenion和FeedForward Neural Network組成。一個基于Transformer的可訓練的神經網絡可以通過堆疊Transformer的形式進行搭建,作者的實驗是通過搭建編碼器和解碼器各6層,總共12層的Encoder-Decoder,并在機器翻譯中取得了BLEU值得新高。
- CTC(Connectionis ttemporal classification):傳統的語音識別的聲學模型訓練,對于每一幀的數據,需要知道對應的label才能進行有效的訓練,在訓練數據之前需要做語音對齊的預處理。而語音對齊的過程本身就需要進行反復多次的迭代,來確保對齊更準確,這本身就是一個比較耗時的工作。與傳統的聲學模型訓練相比,采用CTC作為損失函數的聲學模型訓練,是一種完全端到端的聲學模型訓練,不需要預先對數據做對齊,只需要一個輸入序列和一個輸出序列即可以訓練。這樣就不需要對數據對齊和一一標注,并且CTC直接輸出序列預測的概率,不需要外部的后處理。
以上僅就目前人工智能應用領域里經常使用并產生實際應用效益的網絡做了簡介,當應用到各個實際場景里時,還有基于上述網絡衍生的眾多版本和彼此之間的結合版,不能一一詳述。
深度學習里的神經網絡架構及其參數和超參數均需按實際場景和數據的情況作調試優化,方能達到理想的效果以產生實際應用價值。然而實際的場景雖然都有相似之處,但也有諸多不同的細節,為能滿足每一應用場景的應用效益要求,以過往往需要由資深的算法工程師做深度的調試,此種模式耗時且效率低,常常不能滿足客戶快速的迭代需求。
大型人工智能科技公司提倡將大量的數據存儲在它們的云計算平臺上,并同時按采集到的海量數據調試一個能廣泛應用的平臺。此種商業模式,雖有可行性,但同時也面臨著一些根本的挑戰。例如如何能保證數據的安全,特別是金融行業和其它對數據保密要求高的行業,同時這些大型的人工智能公司現今也不斷的擴張他們的業務領域,將數據提供給此類的云平臺,也加速了他們的競爭力來切入不同的商業領域,這樣的擔憂也是使得這樣的方法無法獲得更多商業應用的數據,從而不能提供一個通用的應用人工智能系統。
據此普強提出發展一種可重復復用的機制,將這個機制靈活的應用到每一個客戶業務場景上,當這個機制應用到特定場景上時,會按已成功的案例,做梳理業務邏輯并同時在客戶內的私有云上采集數據,再用成功案例的深度學習神經網絡,機器學習算法架構來訓練、測試、驗證模型,最終上線運行業務邏輯,提升業務價值及效益。這樣的機制主要包含兩項重要元素,方法論和計算技術框架:
- 方法論:對行業及業務場景整理出流程和規則,并按此流程和規則采集積累海量的數據。
- 計算技術框架:按實際應用場景,建立算法框架,框架是由各類已驗證后的神經網絡和機器學習算法構成的體系,對每一應用場景作全框架計算測試評估,研判出最優的神經網絡架構和機器學習算法,并同時調試參數和配置。
普強在金融及相關領域,積累十年以上的人工智能行業落地經驗,專注于垂直領域,歸納成功的案例、相關的業務流程規則和算法算力需求,建立起一套完整的機制。隨著客戶的業務需求變化和成功案例積累,不斷的擴充加強優化此機制,作快速的迭代。
5、成功案例分享
A保險公司為名列世界500強的保險公司(在本文開頭已有提及),普強將語義分析機制應用在A保險公司的電銷業務里,項目一期應用在A保險公司兩個主要的業務區:BJ市和TJ市。對大約250萬的客戶電銷通話錄音(約400萬通錄音)作落地實施,其中包括了下列的步驟:
- 業務梳理:與客戶業務人員交流,以對客戶的業務做深度的了解,與普強機制框架對接。
- 分析流程建立:分析客戶業務,建立流程,優化流程。
- 客戶特征篩選:基于普強的業務成功案例,使用大數據分析,抽取潛在具有購買意愿客戶特征。
- 成交相關度計算:經由普強大數據分析框架計算客戶特征與成交的相關度,排序客戶特征的優先順序。
- 模型建模/訓練:普強計算技術框架對最優最先進的神經網絡架構和機器學習算法,作架構和算法評估,測試不同架構和算法的效益優劣,及計算資源需求以及是否能達到客戶的時效要求等工作,最終推薦最優的架構/算法。
- 測試:使用海量的數據不斷的測試,并調優參數,達到準確率、召回率等測試標準的要求,并依照業務模式計算相對的業務效益。
- 驗證:實際推送普強業務流程算法推薦的潛在客戶,驗證成交率。
- 上線:將最終驗證通過的整體機制上線,進入實際業務運行。
與使用普強機制前業務情況對比的成效如下:
- 精準的推薦占總量約15%的潛在有購買意愿的優質客戶。
- 推薦的15%的客戶覆蓋了90%的業績。
- 節省了80%+的電銷電話,人員時間。
- 并減少了對沒有意向購買客戶的干擾。
- 確定了潛在購買客戶的特征,作話術優化的依據,有定向的與客戶對話以確認是否是有所確定的特征。
- 發掘了電銷流程的缺失:發現高購買意向客戶的跟蹤力度不及時或遺漏的情況,建立追蹤系統及時找回遺漏的潛在客戶并跟進。
6、結語
隨著計算力和云存儲容量的大幅提升,海量數據的收集,使得以往不能突破的人工智能問題均得到突破:如語音識別、圖像識別、語義理解等領域。借著這些突破,許多商業場景都能應用這些最新的人工智能突破,而產生實際的商業效應。
本文中敘述了語音識別和語義理解在特定的垂直領域中的應用,并詳述案例和其應用的效益。此種效應隨著科技的進步和突破,必能擴及更多的場景和商業應用。本文中所述的方法論和技術計算框架也必定會不斷的迭代更新和擴充,帶給實際的業務更多的效益。