之前的文章NLP場景應用中的本體論中提到,場景本體(也稱為OEC模型)是面向場景的形式化模型,是以本體論為指導,對場景應用中,NLP語義分析的業務目標(需求)進行形式化描述,并對場景相關的領域模型、要素模型、概念模型進行形式化描述,提高場景知識的共享、復用能力。
智能輔助建模(也稱為OEC智能輔助建模)將介紹如何利用機器學習算法和語義資源,輔助場景業務人員,自動或半自動化地構建具體場景應用中的OEC模型。本文是輔助建模系列文章的第一篇,將介紹輔助建模的概念、工具和基本功能。
一個場景模型示例
在下邊這個本體場景實例,是銀行領域客服投訴分析挖掘的場景本體模型,可用于對銀行客服投訴進行自動分析。輸入是客服投訴文本,是自然語言表示的文本,輸出結果是客服投訴的自動分類。
客服投訴模型,包括3部分:
1、本體模型:形式上由一個本體樹和領域模型構成。本體樹是類目體系的形式化描述,這里指客服投訴的分類。領域模型,是本體樹對應的推理規則的形式化描述,這里指客服投訴分類相關的業務知識。領域模型支持兩種類型:概念模型、機器學習預訓練模型。上圖中的本體表達式,是概念模型的形式化規則,說明客服投訴的業務知識,一般是用客服人員-態度-不好這樣的三元組表示,其中客服人員是投訴對象要素,態度是投訴涉及的屬性要素,不好是投訴中對投訴對象涉及屬性的評價性描述。
2、要素模型:是對領域相關實體概念的形式化描述。這里指銀行領域相關投訴對象(對象要素)、投訴對象相關屬性(屬性要素)。如工作人員的對象要素,可包括下級要素,如柜員、客服人員、保安、大堂經理等,工作人員的屬性要素,可包括下級要素如態度、效率、業務水平等。
3、概念模型:是對領域無關的語言概念的形式化描述。這里指對象和屬性的評價概念,如不好、惡劣、怠慢等。概念模型可理解為傳統意義上的語言資源形式化管理。
場景本體輔助建模
場景本體模型是業務知識的形式化表示,一般由業務人員主導構建。面向場景應用開發的工具——DINFO-OEC平臺,提供專業、方便、易用的建模IDE集成環境,支持場景化業務建模,可通過概念規則,構建形式化的業務規則,也可通過數據標注,指定機器學習(包括深度學習)算法,來訓練機器學習模型。建模工具支持兩種類型領域模型。
為了提高建模效率,DINFO-OEC平臺也提供OEC智能輔助建模工具,支持利用機器學習算法,對業務數據進行自動學習。輔助建模中涉及到的機器學習算法(包括深度學習)、知識資源及各種功能模塊,均由DINFO-OEC平臺提供。
輔助建模工具
輔助建模工具,提供可視化輔助建模環境,支持業務人員通過拖拉拽的方式,實現各種建模操作。
輔助建模工具的3個分區:
1、組件區:在建模工具左下角。該區提供相關算法組件,如用于本體模型輔助的分類聚類,用于要素模型、概念模型中的實體抽取,用于本體模型中本體表達式輔助的關聯發現、規則生成等組件。每個組件對可以對應一個或多個算法,業務人員無須了解算法的具體細節,只需要在輔助建模工具中拖拽組件(如分類、聚類組件),即可完成自動聚類的任務。組件區也提供建模常用操作,如選擇語料,可以選擇客服投訴語料來作為輔助建模的數據等。
2、建模區:在建模工具左上方。該區支持業務人員將組件區的組件和操作,通過拖拉拽的方式,形成一個處理流程,用以實現多級建模。
3、結果區:在建模工具右方。該區展示當前流程的輸出結果,業務人員可對結果進行合并、修改、刪除等操作。
輔助建模功能示例
以上述客服投訴模型為例,輔助建模工具在以下4個環節中,支持業務人員對客服投訴的文本數據進行分析,提高客服投訴模型的建設效率:
1、分類體系建模:針對本體模型中本體樹建設,輔助自動發現本體樹節點。
2、要素發現:針對要素模型中要素樹建設,輔助自動發現客服投訴場景下的實體對象。
3、評價概念復用:針對概念樹中概念樹建設,可直接復用平臺提供的語言資源。
4、本體表達式發現:針對本體模型中,一個本體樹節點的業務規則,從客服投訴文本中,輔助發現要素與概念的組合關系,自動形成本體表達式。
作者:晉耀紅博士,神州泰岳首席科學家,人工智能研究院院長,北京師范大學教授,博士生導師。