從什么維度評價機器人的服務(wù)能力?
想要全面評價一個機器人,首先必須想清楚它的任務(wù)目標(biāo)。機器人是替代人工客服去承擔(dān)客戶服務(wù)工作,它必須具備怎樣的能力才能合格地完成這項工作。就像人工客服需要一套人力資源的評價標(biāo)準(zhǔn),機器人也需要構(gòu)建一個能力模型。該模型通常由接待能力和應(yīng)答能力兩個方面組成。
首先,企業(yè)一般會從節(jié)能增效,幫助企業(yè)釋放人力的目標(biāo)出發(fā),啟用智能機器人。因此,評價機器人能夠接待多少提問用戶,在何種程度上替代人工是一個必要的維度,我們稱此為機器人的接待能力。接待能力越高,表明機器人可替代的人工量越大,機器人節(jié)能增效的效果越好。
其次,機器人在接待用戶后,根本的任務(wù)是要能夠回答用戶的問題,而這要從兩個子維度去評判,一個是機器人能否回答用戶的問題,另一個是機器人的回答是否正確(圖1)。
圖1:機器人應(yīng)答能力判別維度
“能否回答問題”是由機器人的知識范圍決定的。
如果某企業(yè)機器人知識庫的范圍是APP操作相關(guān)知識,那么當(dāng)用戶問到與APP操作無關(guān)的問題時,如“為什么A產(chǎn)品不賣了”,機器人無法解答,只能給出類似“這對我來說有點難呢,還需要繼續(xù)努力,再換種問法試試唄”的拒識回復(fù)(圖2)。
圖2:機器人拒識回復(fù)
而“問題回答是否正確”是由機器人知識庫質(zhì)量決定的。
其質(zhì)量的好壞體現(xiàn)在,針對業(yè)務(wù)范圍內(nèi)的知識,它能否準(zhǔn)確識別用戶意圖,匹配正確答案,例如,當(dāng)用戶用長難句表達“之前的密碼,說我錯誤,不可能啊,上個星期才登過”的時候,機器人能否識別用戶遇到的問題是“密碼失效,無法登錄”。或者在用戶意圖模糊的情況下,機器人能否引導(dǎo)用戶明確意圖,最終匹配到能夠解決用戶問題的答案。例如,用戶說“我要開卡”,機器人能否引導(dǎo)用戶明確是開借記卡,還是信用卡(圖3)。
圖3:問題回答是否正確示例
以上兩個子維度,我們綜合稱為機器人的應(yīng)答能力。應(yīng)答能力是機器人的內(nèi)功,內(nèi)功不佳,無法解決用戶問題,用戶難免還是尋求人工幫助,那么機器人接待能力也會隨之下降。因此應(yīng)答能力是智能客服機器人最關(guān)鍵的一個能力。
然而,保證機器人的應(yīng)答準(zhǔn)確性,機器人的能力就是最佳了嗎?
并不盡然。
在實際情況中,用戶常常希望得到的答案簡潔明確,也希望客服人員能夠耐心溫柔,態(tài)度親切。因此機器人也需要注意回復(fù)內(nèi)容的形式、態(tài)度,注重用戶體驗。如果一個復(fù)雜業(yè)務(wù)的解決方式已經(jīng)通過文字的形式告知用戶,但用戶操作起來仍然很繁瑣,體驗很不好,那就需要更換一種回復(fù)方式。因此,為了提高用戶體驗,精益求精,機器人的服務(wù)滿意度也需要被關(guān)注。
圖4:機器人三個能力維度
通過圖4三個維度,可以較全面得評價一個智能客服機器人的服務(wù)能力。
如何量化評價?
確定機器人能力的評價維度后,針對各項能力具體如何評價,沒有一個可量化的指標(biāo),評價工作還是無法落到實處。然而用以評價的指標(biāo),需要明確且容易計算,對業(yè)務(wù)有代表性,對問題有指向性,在幫助企業(yè)觀測機器人能力表現(xiàn)的同時,還可以指導(dǎo)業(yè)務(wù)優(yōu)化。
一般來說,行業(yè)內(nèi)通常會采用“業(yè)務(wù)識別率”和“準(zhǔn)確率”來評價機器人的應(yīng)答能力,用“攔截率”評價機器人的接待能力,用“滿意度”或“差評率”評價機器人的服務(wù)滿意度(表1)。
表1:行業(yè)通用機器人能力判別指標(biāo)
1、應(yīng)答能力評估體系
1)業(yè)務(wù)識別率
業(yè)務(wù)識別率指在整個人機對話中,被機器人識別為業(yè)務(wù)問題的數(shù)量占總提問數(shù)的比例。
例如,某企業(yè)知識庫范圍是APP操作相關(guān)知識,機器人日志中用戶總提問數(shù)有2W,被識別為與APP操作有關(guān)并給出相應(yīng)答案的有1.8W,另外的0.2W可能都是跟APP操作無關(guān)的對話,那么該企業(yè)智能機器人的業(yè)務(wù)識別率就為1.8w÷2w=90%。
其中,業(yè)務(wù)匹配數(shù)=總提問數(shù)-拒識問題數(shù)-非業(yè)務(wù)回復(fù)數(shù)。
“拒識問題數(shù)”指機器人無法明確用戶意圖,回復(fù)未知問題話術(shù)的提問;“非業(yè)務(wù)”指機器人將用戶的提問識別為如“你好”、“謝謝”等與業(yè)務(wù)無關(guān)的意圖,并做出對應(yīng)回復(fù)的問題。
2)準(zhǔn)確率
準(zhǔn)確率指回復(fù)正確的對話數(shù)占考察范圍內(nèi)對話數(shù)的比例。
考察范圍內(nèi)對話數(shù)不等同于總提問數(shù)。范圍如何確定,需要企業(yè)根據(jù)自己的業(yè)務(wù)及服務(wù)要求進行判定。有的企業(yè)認(rèn)為超業(yè)務(wù)范圍問題是否給出拒識回復(fù)是需要考察的,閑聊類問題是否進行恰當(dāng)?shù)拈e聊回復(fù)也需要考察,而有的企業(yè)只關(guān)心業(yè)務(wù)范圍內(nèi)的問題。
某企業(yè),抽樣數(shù)據(jù)如表2。總?cè)罩玖繛?萬,隨機抽樣1000條,其中非業(yè)務(wù)、超范圍問題數(shù)共有100條,業(yè)務(wù)范圍內(nèi)問題900條,業(yè)務(wù)范圍內(nèi)人工判斷回復(fù)正確的為820條,非業(yè)務(wù)、超范圍問題數(shù)回復(fù)正確的為70條(進行了恰當(dāng)?shù)拈e聊回復(fù)或拒識回復(fù)視為正確)。
表2:抽樣數(shù)據(jù)表
如果只計算該機器人業(yè)務(wù)范圍內(nèi)準(zhǔn)確率,則計算基數(shù)只取業(yè)務(wù)范圍內(nèi)問題900條,正確的為820條,則準(zhǔn)確率為820÷900=91%。倘若,該企業(yè)同時要考察閑聊與超范圍問題準(zhǔn)確率。則計算基數(shù)應(yīng)為抽樣的總1000條,業(yè)務(wù)回復(fù)正確與非業(yè)務(wù)、超范圍回復(fù)正確共890條,則機器人準(zhǔn)確率為890÷1000=89%。
倘若該企業(yè)的考察范圍再進行變化,那么機器人的準(zhǔn)確率也必然會隨之改變。因此真實場景的準(zhǔn)確率計算,依賴于具體選定的業(yè)務(wù)范圍,不同的企業(yè)客戶,計算的方式各有差異。
但通用的是,判斷什么是正確回復(fù)的方法。機器人回復(fù)是否正確,主要體現(xiàn)在針對用戶意圖是否匹配了正確的知識點,但這一點機器人無法自證,需要人工介入。線上數(shù)據(jù)通常流量很大,人工全量復(fù)檢可行性低,建議采用人工抽檢或標(biāo)準(zhǔn)測試集復(fù)檢的方式來判斷。
關(guān)注業(yè)務(wù)識別率和準(zhǔn)確率,不只可以觀測到機器人的質(zhì)量表現(xiàn),更重要的是可以明確機器人的短板,找到提高改進的方向。
2、接待能力評估體系
機器人的接待能力,可以通過“攔截率”評價。
攔截率對應(yīng)的是用戶提問由機器人解答之后,用戶沒有進一步要求人工服務(wù),而直接結(jié)束了本次會話的情況,可以通過以下方式計算:
設(shè)置機器人的目的就是替代人工回復(fù)用戶問題,但用戶與機器人進行多番交互后,仍然得不到滿意的答案,可能就會轉(zhuǎn)人工。用戶與機器人的多番交互則為一次會話。它指某個用戶登錄開始與機器人交互到用戶退出或者在一定時間內(nèi)沒有回復(fù)的,算作一次會話。而上文提到的對話或提問數(shù)指用戶與機器人的一輪交互,用戶提出一個問題,機器人給出一次答復(fù),就記為一次對話。因此一個會話包含多輪對話。
攔截率的計算必須是基于有效會話的,否則會非常不客觀。
一些用戶進入場景后一言不發(fā)就退出,還有一些用戶進入場景后,直接要求人工服務(wù),未向機器人詢問任何問題。這些沒有實際交互的會話屬于無效會話。
無效會話的產(chǎn)生在一定程度上反應(yīng)了用戶對智能客服的接受度。一些企業(yè)的業(yè)務(wù)本身比較復(fù)雜,或者一些業(yè)務(wù)點如銀行錯賬,引發(fā)用戶焦急情緒,用戶不信任機器人,所以一進線就轉(zhuǎn)人工。還有一些用戶可能年齡層偏大,沒有養(yǎng)成通過互聯(lián)網(wǎng)獲取信息的習(xí)慣,依賴人工服務(wù),因此也會進線即轉(zhuǎn)人工。這種由于業(yè)務(wù)特點或者用戶習(xí)慣產(chǎn)生的轉(zhuǎn)人工會話是機器人無法攔截的,不屬于有效的轉(zhuǎn)人工會話。
另有兩種情況屬于需要設(shè)定轉(zhuǎn)人工回復(fù)的情景。
一種情況是,一些業(yè)務(wù)問題,機器人只能做基礎(chǔ)回答或不做回答,需要進一步或直接引導(dǎo)用戶轉(zhuǎn)人工解決。例如快遞業(yè)的“特殊物品催派”,機器人會采用提醒用戶轉(zhuǎn)人工的策略。
另一種情況,用戶可能觸發(fā)一些敏感詞,需要轉(zhuǎn)人工回復(fù)。這兩類問題是不屬于機器人需要攔截的問題,轉(zhuǎn)人工是業(yè)務(wù)所需的配置策略,因此在計算攔截率時,是應(yīng)當(dāng)剔除的。
所以,如果一個機器人的總會話量為1w,沒有進行任何交互的為500,要求轉(zhuǎn)人工的會話為2000,其中進入機器人就要求轉(zhuǎn)人工的為300,觸發(fā)設(shè)定的轉(zhuǎn)人工場景而轉(zhuǎn)人工的為200,則該機器人的攔截率為1-(2000-300-200)÷(10000-500-300-200)=83.3%。
攔截率的統(tǒng)計,關(guān)鍵是要客觀。采用有效數(shù)據(jù)計算攔截率,可以客觀地評價機器人本身對人力的取代程度。
3、服務(wù)滿意度評估體系
服務(wù)滿意度即通過“滿意度”指標(biāo)進行評價。
滿意度通常以主動推送,邀請用戶評價的方式進行,可以實施于對話維度,也可以實施于會話維度。滿意度指標(biāo)相對主觀,它主要取決于用戶接受機器人服務(wù)后的感受是否良好,一般可以通過統(tǒng)計滿意數(shù)或者差評數(shù)來評估機器人服務(wù)的滿意度。但是,多數(shù)客戶在得到滿意的回答后會直接退出服務(wù)場景,不會給出評價,而在不滿意的時候傾向給出反饋,留下差評。所以關(guān)注差評率是更客觀的評價方式。
滿意度是一個結(jié)果指標(biāo),無法直接指明問題所在。影響用戶使用體驗的因素很多,所以指標(biāo)本身不能指明改進方法,需要通過指標(biāo)追溯具體原因,才能提升用戶體驗。
具體來說,導(dǎo)致用戶不滿意的原因可能是用戶對答案不滿意,或者覺得交互方式太死板等等。而收集具體信息的方法,可以是企業(yè)通過用戶調(diào)研等方式進一步分析,又或者在用戶提交差評的同時直接讓用戶選擇不滿意的原因,收集后分析,針對性優(yōu)化。
結(jié)語
綜上所述,智能客服機器人評價體系包含三個維度,分別為接待能力評價、應(yīng)答能力評價和服務(wù)滿意度評價。三個維度分別可以通過“攔截率”、“業(yè)務(wù)識別率”和“準(zhǔn)確率”、“滿意度”指標(biāo)進行量化分析。
智能客服機器人已經(jīng)成為客服行業(yè)不可阻擋的一股升級趨勢。通過使用量化評估體系對智能客服機器人進行客觀評價,我們可以及時發(fā)現(xiàn)機器人或知識庫的內(nèi)在問題,明確運營優(yōu)化方向,提高知識運營水平,讓智能客服機器人發(fā)揮出最大的效力。