欧美精选一区二区三区,亚洲伊人第一页,久久久久久一区二区三区四区别墅

主頁 > 知識(shí)庫(kù) > 客服領(lǐng)域問答機(jī)器人能力評(píng)價(jià)體系

客服領(lǐng)域問答機(jī)器人能力評(píng)價(jià)體系

從什么維度評(píng)價(jià)機(jī)器人的服務(wù)能力？

想要全面評(píng)價(jià)一個(gè)機(jī)器人，首先必須想清楚它的任務(wù)目標(biāo)。機(jī)器人是替代人工客服去承擔(dān)客戶服務(wù)工作，它必須具備怎樣的能力才能合格地完成這項(xiàng)工作。就像人工客服需要一套人力資源的評(píng)價(jià)標(biāo)準(zhǔn)，機(jī)器人也需要構(gòu)建一個(gè)能力模型。該模型通常由接待能力和應(yīng)答能力兩個(gè)方面組成。

首先，企業(yè)一般會(huì)從節(jié)能增效，幫助企業(yè)釋放人力的目標(biāo)出發(fā)，啟用智能機(jī)器人。因此，評(píng)價(jià)機(jī)器人能夠接待多少提問用戶，在何種程度上替代人工是一個(gè)必要的維度，我們稱此為機(jī)器人的接待能力。接待能力越高，表明機(jī)器人可替代的人工量越大，機(jī)器人節(jié)能增效的效果越好。

其次，機(jī)器人在接待用戶后，根本的任務(wù)是要能夠回答用戶的問題，而這要從兩個(gè)子維度去評(píng)判，一個(gè)是機(jī)器人能否回答用戶的問題，另一個(gè)是機(jī)器人的回答是否正確（圖1）。

圖1：機(jī)器人應(yīng)答能力判別維度

“能否回答問題”是由機(jī)器人的知識(shí)范圍決定的。

如果某企業(yè)機(jī)器人知識(shí)庫(kù)的范圍是APP操作相關(guān)知識(shí)，那么當(dāng)用戶問到與APP操作無關(guān)的問題時(shí)，如“為什么A產(chǎn)品不賣了”，機(jī)器人無法解答，只能給出類似“這對(duì)我來說有點(diǎn)難呢，還需要繼續(xù)努力，再換種問法試試唄”的拒識(shí)回復(fù)（圖2）。

圖2：機(jī)器人拒識(shí)回復(fù)

而“問題回答是否正確”是由機(jī)器人知識(shí)庫(kù)質(zhì)量決定的。

其質(zhì)量的好壞體現(xiàn)在，針對(duì)業(yè)務(wù)范圍內(nèi)的知識(shí)，它能否準(zhǔn)確識(shí)別用戶意圖，匹配正確答案，例如，當(dāng)用戶用長(zhǎng)難句表達(dá)“之前的密碼，說我錯(cuò)誤，不可能啊，上個(gè)星期才登過”的時(shí)候，機(jī)器人能否識(shí)別用戶遇到的問題是“密碼失效，無法登錄”。或者在用戶意圖模糊的情況下，機(jī)器人能否引導(dǎo)用戶明確意圖，最終匹配到能夠解決用戶問題的答案。例如，用戶說“我要開卡”，機(jī)器人能否引導(dǎo)用戶明確是開借記卡，還是信用卡（圖3）。

圖3：?jiǎn)栴}回答是否正確示例

以上兩個(gè)子維度，我們綜合稱為機(jī)器人的應(yīng)答能力。應(yīng)答能力是機(jī)器人的內(nèi)功，內(nèi)功不佳，無法解決用戶問題，用戶難免還是尋求人工幫助，那么機(jī)器人接待能力也會(huì)隨之下降。因此應(yīng)答能力是智能客服機(jī)器人最關(guān)鍵的一個(gè)能力。

然而，保證機(jī)器人的應(yīng)答準(zhǔn)確性，機(jī)器人的能力就是最佳了嗎？

并不盡然。

在實(shí)際情況中，用戶常常希望得到的答案簡(jiǎn)潔明確，也希望客服人員能夠耐心溫柔，態(tài)度親切。因此機(jī)器人也需要注意回復(fù)內(nèi)容的形式、態(tài)度，注重用戶體驗(yàn)。如果一個(gè)復(fù)雜業(yè)務(wù)的解決方式已經(jīng)通過文字的形式告知用戶，但用戶操作起來仍然很繁瑣，體驗(yàn)很不好，那就需要更換一種回復(fù)方式。因此，為了提高用戶體驗(yàn)，精益求精，機(jī)器人的服務(wù)滿意度也需要被關(guān)注。

圖4：機(jī)器人三個(gè)能力維度

通過圖4三個(gè)維度，可以較全面得評(píng)價(jià)一個(gè)智能客服機(jī)器人的服務(wù)能力。

如何量化評(píng)價(jià)？

確定機(jī)器人能力的評(píng)價(jià)維度后，針對(duì)各項(xiàng)能力具體如何評(píng)價(jià)，沒有一個(gè)可量化的指標(biāo)，評(píng)價(jià)工作還是無法落到實(shí)處。然而用以評(píng)價(jià)的指標(biāo)，需要明確且容易計(jì)算，對(duì)業(yè)務(wù)有代表性，對(duì)問題有指向性，在幫助企業(yè)觀測(cè)機(jī)器人能力表現(xiàn)的同時(shí)，還可以指導(dǎo)業(yè)務(wù)優(yōu)化。

一般來說，行業(yè)內(nèi)通常會(huì)采用“業(yè)務(wù)識(shí)別率”和“準(zhǔn)確率”來評(píng)價(jià)機(jī)器人的應(yīng)答能力，用“攔截率”評(píng)價(jià)機(jī)器人的接待能力，用“滿意度”或“差評(píng)率”評(píng)價(jià)機(jī)器人的服務(wù)滿意度（表1）。

表1：行業(yè)通用機(jī)器人能力判別指標(biāo)

1、應(yīng)答能力評(píng)估體系

1）業(yè)務(wù)識(shí)別率

業(yè)務(wù)識(shí)別率指在整個(gè)人機(jī)對(duì)話中，被機(jī)器人識(shí)別為業(yè)務(wù)問題的數(shù)量占總提問數(shù)的比例。

例如，某企業(yè)知識(shí)庫(kù)范圍是APP操作相關(guān)知識(shí)，機(jī)器人日志中用戶總提問數(shù)有2W，被識(shí)別為與APP操作有關(guān)并給出相應(yīng)答案的有1.8W，另外的0.2W可能都是跟APP操作無關(guān)的對(duì)話，那么該企業(yè)智能機(jī)器人的業(yè)務(wù)識(shí)別率就為1.8w÷2w=90%。

其中，業(yè)務(wù)匹配數(shù)=總提問數(shù)-拒識(shí)問題數(shù)-非業(yè)務(wù)回復(fù)數(shù)。

“拒識(shí)問題數(shù)”指機(jī)器人無法明確用戶意圖，回復(fù)未知問題話術(shù)的提問；“非業(yè)務(wù)”指機(jī)器人將用戶的提問識(shí)別為如“你好”、“謝謝”等與業(yè)務(wù)無關(guān)的意圖，并做出對(duì)應(yīng)回復(fù)的問題。

2）準(zhǔn)確率

準(zhǔn)確率指回復(fù)正確的對(duì)話數(shù)占考察范圍內(nèi)對(duì)話數(shù)的比例。

考察范圍內(nèi)對(duì)話數(shù)不等同于總提問數(shù)。范圍如何確定，需要企業(yè)根據(jù)自己的業(yè)務(wù)及服務(wù)要求進(jìn)行判定。有的企業(yè)認(rèn)為超業(yè)務(wù)范圍問題是否給出拒識(shí)回復(fù)是需要考察的，閑聊類問題是否進(jìn)行恰當(dāng)?shù)拈e聊回復(fù)也需要考察，而有的企業(yè)只關(guān)心業(yè)務(wù)范圍內(nèi)的問題。

某企業(yè)，抽樣數(shù)據(jù)如表2。總?cè)罩玖繛?萬，隨機(jī)抽樣1000條，其中非業(yè)務(wù)、超范圍問題數(shù)共有100條，業(yè)務(wù)范圍內(nèi)問題900條，業(yè)務(wù)范圍內(nèi)人工判斷回復(fù)正確的為820條，非業(yè)務(wù)、超范圍問題數(shù)回復(fù)正確的為70條（進(jìn)行了恰當(dāng)?shù)拈e聊回復(fù)或拒識(shí)回復(fù)視為正確）。

表2：抽樣數(shù)據(jù)表

如果只計(jì)算該機(jī)器人業(yè)務(wù)范圍內(nèi)準(zhǔn)確率，則計(jì)算基數(shù)只取業(yè)務(wù)范圍內(nèi)問題900條，正確的為820條，則準(zhǔn)確率為820÷900=91%。倘若，該企業(yè)同時(shí)要考察閑聊與超范圍問題準(zhǔn)確率。則計(jì)算基數(shù)應(yīng)為抽樣的總1000條，業(yè)務(wù)回復(fù)正確與非業(yè)務(wù)、超范圍回復(fù)正確共890條，則機(jī)器人準(zhǔn)確率為890÷1000=89%。

倘若該企業(yè)的考察范圍再進(jìn)行變化，那么機(jī)器人的準(zhǔn)確率也必然會(huì)隨之改變。因此真實(shí)場(chǎng)景的準(zhǔn)確率計(jì)算，依賴于具體選定的業(yè)務(wù)范圍，不同的企業(yè)客戶，計(jì)算的方式各有差異。

但通用的是，判斷什么是正確回復(fù)的方法。機(jī)器人回復(fù)是否正確，主要體現(xiàn)在針對(duì)用戶意圖是否匹配了正確的知識(shí)點(diǎn)，但這一點(diǎn)機(jī)器人無法自證，需要人工介入。線上數(shù)據(jù)通常流量很大，人工全量復(fù)檢可行性低，建議采用人工抽檢或標(biāo)準(zhǔn)測(cè)試集復(fù)檢的方式來判斷。

關(guān)注業(yè)務(wù)識(shí)別率和準(zhǔn)確率，不只可以觀測(cè)到機(jī)器人的質(zhì)量表現(xiàn)，更重要的是可以明確機(jī)器人的短板，找到提高改進(jìn)的方向。

2、接待能力評(píng)估體系

機(jī)器人的接待能力，可以通過“攔截率”評(píng)價(jià)。

攔截率對(duì)應(yīng)的是用戶提問由機(jī)器人解答之后，用戶沒有進(jìn)一步要求人工服務(wù)，而直接結(jié)束了本次會(huì)話的情況，可以通過以下方式計(jì)算：

設(shè)置機(jī)器人的目的就是替代人工回復(fù)用戶問題，但用戶與機(jī)器人進(jìn)行多番交互后，仍然得不到滿意的答案，可能就會(huì)轉(zhuǎn)人工。用戶與機(jī)器人的多番交互則為一次會(huì)話。它指某個(gè)用戶登錄開始與機(jī)器人交互到用戶退出或者在一定時(shí)間內(nèi)沒有回復(fù)的，算作一次會(huì)話。而上文提到的對(duì)話或提問數(shù)指用戶與機(jī)器人的一輪交互，用戶提出一個(gè)問題，機(jī)器人給出一次答復(fù)，就記為一次對(duì)話。因此一個(gè)會(huì)話包含多輪對(duì)話。

攔截率的計(jì)算必須是基于有效會(huì)話的，否則會(huì)非常不客觀。

一些用戶進(jìn)入場(chǎng)景后一言不發(fā)就退出，還有一些用戶進(jìn)入場(chǎng)景后，直接要求人工服務(wù)，未向機(jī)器人詢問任何問題。這些沒有實(shí)際交互的會(huì)話屬于無效會(huì)話。

無效會(huì)話的產(chǎn)生在一定程度上反應(yīng)了用戶對(duì)智能客服的接受度。一些企業(yè)的業(yè)務(wù)本身比較復(fù)雜，或者一些業(yè)務(wù)點(diǎn)如銀行錯(cuò)賬，引發(fā)用戶焦急情緒，用戶不信任機(jī)器人，所以一進(jìn)線就轉(zhuǎn)人工。還有一些用戶可能年齡層偏大，沒有養(yǎng)成通過互聯(lián)網(wǎng)獲取信息的習(xí)慣，依賴人工服務(wù)，因此也會(huì)進(jìn)線即轉(zhuǎn)人工。這種由于業(yè)務(wù)特點(diǎn)或者用戶習(xí)慣產(chǎn)生的轉(zhuǎn)人工會(huì)話是機(jī)器人無法攔截的，不屬于有效的轉(zhuǎn)人工會(huì)話。

另有兩種情況屬于需要設(shè)定轉(zhuǎn)人工回復(fù)的情景。

一種情況是，一些業(yè)務(wù)問題，機(jī)器人只能做基礎(chǔ)回答或不做回答，需要進(jìn)一步或直接引導(dǎo)用戶轉(zhuǎn)人工解決。例如快遞業(yè)的“特殊物品催派”，機(jī)器人會(huì)采用提醒用戶轉(zhuǎn)人工的策略。

另一種情況，用戶可能觸發(fā)一些敏感詞，需要轉(zhuǎn)人工回復(fù)。這兩類問題是不屬于機(jī)器人需要攔截的問題，轉(zhuǎn)人工是業(yè)務(wù)所需的配置策略，因此在計(jì)算攔截率時(shí)，是應(yīng)當(dāng)剔除的。

所以，如果一個(gè)機(jī)器人的總會(huì)話量為1w，沒有進(jìn)行任何交互的為500，要求轉(zhuǎn)人工的會(huì)話為2000，其中進(jìn)入機(jī)器人就要求轉(zhuǎn)人工的為300，觸發(fā)設(shè)定的轉(zhuǎn)人工場(chǎng)景而轉(zhuǎn)人工的為200，則該機(jī)器人的攔截率為1-（2000-300-200）÷（10000-500-300-200）=83.3%。

攔截率的統(tǒng)計(jì)，關(guān)鍵是要客觀。采用有效數(shù)據(jù)計(jì)算攔截率，可以客觀地評(píng)價(jià)機(jī)器人本身對(duì)人力的取代程度。

3、服務(wù)滿意度評(píng)估體系

服務(wù)滿意度即通過“滿意度”指標(biāo)進(jìn)行評(píng)價(jià)。

滿意度通常以主動(dòng)推送，邀請(qǐng)用戶評(píng)價(jià)的方式進(jìn)行，可以實(shí)施于對(duì)話維度，也可以實(shí)施于會(huì)話維度。滿意度指標(biāo)相對(duì)主觀，它主要取決于用戶接受機(jī)器人服務(wù)后的感受是否良好，一般可以通過統(tǒng)計(jì)滿意數(shù)或者差評(píng)數(shù)來評(píng)估機(jī)器人服務(wù)的滿意度。但是，多數(shù)客戶在得到滿意的回答后會(huì)直接退出服務(wù)場(chǎng)景，不會(huì)給出評(píng)價(jià)，而在不滿意的時(shí)候傾向給出反饋，留下差評(píng)。所以關(guān)注差評(píng)率是更客觀的評(píng)價(jià)方式。

滿意度是一個(gè)結(jié)果指標(biāo)，無法直接指明問題所在。影響用戶使用體驗(yàn)的因素很多，所以指標(biāo)本身不能指明改進(jìn)方法，需要通過指標(biāo)追溯具體原因，才能提升用戶體驗(yàn)。

具體來說，導(dǎo)致用戶不滿意的原因可能是用戶對(duì)答案不滿意，或者覺得交互方式太死板等等。而收集具體信息的方法，可以是企業(yè)通過用戶調(diào)研等方式進(jìn)一步分析，又或者在用戶提交差評(píng)的同時(shí)直接讓用戶選擇不滿意的原因，收集后分析，針對(duì)性優(yōu)化。

結(jié)語

綜上所述，智能客服機(jī)器人評(píng)價(jià)體系包含三個(gè)維度，分別為接待能力評(píng)價(jià)、應(yīng)答能力評(píng)價(jià)和服務(wù)滿意度評(píng)價(jià)。三個(gè)維度分別可以通過“攔截率”、“業(yè)務(wù)識(shí)別率”和“準(zhǔn)確率”、“滿意度”指標(biāo)進(jìn)行量化分析。

智能客服機(jī)器人已經(jīng)成為客服行業(yè)不可阻擋的一股升級(jí)趨勢(shì)。通過使用量化評(píng)估體系對(duì)智能客服機(jī)器人進(jìn)行客觀評(píng)價(jià)，我們可以及時(shí)發(fā)現(xiàn)機(jī)器人或知識(shí)庫(kù)的內(nèi)在問題，明確運(yùn)營(yíng)優(yōu)化方向，提高知識(shí)運(yùn)營(yíng)水平，讓智能客服機(jī)器人發(fā)揮出最大的效力。

標(biāo)簽：許昌商洛黔西烏蘭察布咸寧眉山鞍山撫順

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《客服領(lǐng)域問答機(jī)器人能力評(píng)價(jià)體系》，本文關(guān)鍵詞客服,領(lǐng)域,問答,機(jī)器人,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。