7月9日,2021年世界人工智能大會,竹間智能成功舉辦了AI智簡|認知智能創科技未來分論壇。論壇上,竹間智能創始人兼CEO簡仁賢先生發表了題為《認知智能賦能企業轉型》的演講。他重點探討了認知智能的基石——知識圖譜,環環相扣地闡述了知識圖譜的定義、優勢、獨特能力與構建原理,接著圍繞產業界極重視的大規模落地問題,結合具體例證及經驗心得,描繪了跨越眾多行業的不同應用,最后針對企業在創新進程中易陷入的兩難境地,為Buy or Build這個經典難題給出了一個耐人尋味的答案。事不宜遲,立刻來品讀一下本次演講中最精華的部分。
演講要點
1.認知智能的重要性
2.知識圖譜是認知智能的基石
3.知識圖譜的突出優勢
4.知識圖譜的四大能力
5.知識圖譜的構建原理
6.認知智能的實際應用
7.洞悉未知,收獲意外之喜
8.企業科技創新的兩難之境
01 認知智能的重要性
人工智能簡單來講分三個領域:一是機器視覺;二是ASR跟TTS,也就是語音識別;第三個部分是NLP相關領域,包括自然語言處理、意圖理解、情緒識別、對話交互和知識推理,還有自動閱讀理解,這部分是今天我要講的重點。
竹間智能一直以來關注的便是NLP自然語言處理。人跟人之間的對話基本都要靠語言,讓機器理解人類的自然語言表達,就叫做自然語言處理技術。前面說的機器視覺跟語音辨識更多是屬于感知,而自然語言處理偏向于認知。
大家為什么要學認知智能?其實它在全世界各個高校的研究里面都是非常艱深的一個課題。我們這個世界現有的信息非常復雜,人們生活的方式也非常復雜,如果把整個世界當做一個模型,會是什么樣的模型?假如沒有認知智能與情感智能,你無法了解這個模型的運作,無法理清人跟人之間的關系,無法把握人跟人之間共通的以及相互連接的部分。
對企業來說,隨著時代的發展,互聯網已經變成了一個很常見的模型,是大家所生活的這個世界的一種表現方式。未來,個人的知識資產會決定個人的價值,企業的知識資產也將決定企業的價值。認知智能可以幫助企業在未來的數字化變革潮流當中加速業務發展,如果現在就開始積極采用認知智能,那企業在三五年之后獲得的紅利,將遠遠超過那些沒有采用認知智能的企業。如果你今天不行動,企業未來的盈利和運營能力很可能會大大降低。
02 知識圖譜是認知智能的基石
在認知智能領域,知識圖譜是非常關鍵的技術。知識圖譜,顧名思義,就是用圖譜的形式對知識進行表達和表示。能夠把知識圖譜技術開發好、應用好,就可以產生更高的價值。
我用一個簡單的例子來解釋知識圖譜。先問大家一個問題:大熊貓有沒有尾巴?對這個問題,人會怎么回答?第一種,可能會回答:我去四川見過大熊貓,看到它有尾巴——這是感性記憶;另外一種回答可能是:由于大熊貓是哺乳動物,所以它有尾巴,這是理性推導;還有一種是說,我以前回答過這個問題,所以答案應該是怎樣的——這是斷言式的。以上這些是我們人類的回答,有多種邏輯,有不同的思考方式。
那如果是機器人,它會怎么回答?機器人沒見過大熊貓,除非你給他植入機器視覺。描述大熊貓有很多信息,這些信息都是非結構化數據,你寫出來的文字、你讀過的文檔都是非結構化數據,若沒有經過處理和整理,你要花很多時間去讀、去看、去理解才行,但我們用知識圖譜將其轉變為概念化的表示方式,就會變成下面這個樣子:
然后,機器人就可以根據這個圖譜來回答你:很簡單,大熊貓有尾巴。如果各位用搜索引擎去解答這個問題,你可能找到很多文章,但你要自己去看內容,才會知道大熊貓有沒有尾巴。有時候搜索引擎給你的還是不正確的信息。經過語義理解和知識圖譜,你可以確認大熊貓有尾巴,這是可追溯而且是可解釋的,是基于事實來回答的。這是知識圖譜可以做到的很簡單但很重要的事情。
03 知識圖譜的突出優勢
知識圖譜能協助企業迎接形形色色的業務挑戰。第一,它可以幫助采集知識,包括業務知識、商業知識在內的任何知識。IT行業發展了幾十年,我們囤積了巨量的非結構化數據,以PDF、Word、PPT等多種形式存在。這里面蘊藏著豐富的知識,如果不挖掘出來,就毫無價值;如果能挖掘出來,就可以產生極大的作用——知識圖譜可實現這一點。
第二,知識圖譜有助于發現、整合和使用數據。它將結構化和非結構化數據進行連接,整體利用起來,能夠找出一些以前不為人知的知識。而且知識圖譜會持續性地發生改變,隨著知識的變化而變化。不同的時間段,有些知識會不一樣,我們稱之為時序知識圖譜。建立起這種時序性,才能更準確地描述事實及使用知識。
另外一個是,知識圖譜能簡潔快速地回答復雜的業務問題。過去,企業積累了很多知識,知識跟知識之間存在直接或間接的關聯,你可能要翻查多個系統或大量文檔才能解決問題,或者根本無法查到,如今,通過統一的知識圖譜的推理能力加上自然語言理解能力,可以更快地找到答案。
第四,知識圖譜技術可以讓AI更加高效。因為它可以把實體和實體之間的關系特征都梳理好,在機器學習和深度學習方面減少很多不必要的數據標注以及訓練,讓深度學習模型具備可解釋性,也可以輔助多任務的機器學習,從而提升整體效率。這是知識圖譜的一大主要優勢。
04 知識圖譜的四大能力
知識圖譜有四項重要能力,第一個是可推論,第二個是可關聯,此外還有可解釋和可交付這兩大能力。
什么叫可推論呢?首先,知識圖譜可以從大量的數據中發掘出新的insights和patterns,發現信息之間的關聯性,這靠人力是做不到的。過去沒法形成大規模商業應用,正是因為很多企業都是借助人工來構建知識圖譜,沒辦法自動去發現和挖掘知識,導致它們處于冷封狀態。其次,知識圖譜可以用最自然的方式來挖掘珍貴數據,而無需憑借關系型數據庫,這在是以前也是做不到的。你不用去總結一個關鍵詞來搜索,只要自然而然地發問就行了。此外,可推論能力有利于加速相關的調查研究流程,讓搜索范圍更大。
第二是可關聯,這非常關鍵。知識圖譜用數據和概念的方式去呈現實體及實體間的關系,相當于我們用自然語言的方式,將整個世界變成一個超大的模型。所有的圖譜里的所有實體,上下文中的內容和內涵,都是可關聯的,因而能夠找到一些平常難以發現的隱藏信息或連接。
第三是可解釋。知識圖譜的很多特征可以用到深度學習上面,使其變得可解釋。大家知道深度學習中的非監督機器學習,要一層一層抽絲剝繭地去訓練,是不可解釋的,但是知識圖譜可以讓它變成可解釋的。而且圖譜具有豐富的特征數據,能夠聯結各種數據,從而將整個流程變得更大。
最后,知識圖譜是可交付的。它不像傳統數據庫,數據如孤島般分散,它可以將零散的數據連接起來,用簡單的方式,在中臺完成元數據的交付,我們稱之為Knowledge Fabric。
05 知識圖譜的構建原理
2005年,我第一次接觸到RDF(Resource Description Framework,資源描述框架),深深受到了Tim Berners-Lee的影響。從那個時候起,我就認為世界可以變成一張宏大的知識圖譜。一直到現在,我們有了機器學習和深度學習,能夠處理大量的非結構化數據,才有辦法讓新一代的認知技術適應各種文檔和數據,可以進行交互。沒有自然語言處理與理解NLP與NLU,就沒有辦法做交互,那你縱使有知識也是無法利用的。
我們所說的多源異構數據,涵蓋PDF、PPT、Word、紙質文檔,還有網絡上的信息。知識抽取主要是指抽取關系、抽取屬性、抽取事件,抽取完了以后進行知識融合。知識融合方面,一個是做實體消岐,一個是做實體鏈接,另外還要做實體融合。先看是不是有一樣的實體可以對齊,如果有,那就將它們融合起來,繼而進行消岐,再創建鏈接,然后去補全、校正這些知識,這就形成了知識圖譜。這是一個循環的過程,整個知識圖譜會一直演進,越來越大,不斷更新。加上時間維度,它就變成了時序知識圖譜。
自監督的實體消岐技術非常重要,我們通過已知的知識圖譜去學習不同實體之間的特征,可以自動構建訓練集、測試集,讓訓練更快,如此一來人工標注量會大大減少,甚至于不需要。另外一個焦點是推理的生成,我們通過NLP技術能夠抽取信息,從文本中構建實體間的關系。
就自動構建方面而言,NLP可以把任何的句子和詞都拆解成很小的元素,以此去構建各種實體與屬性,從語義方面進行解析,去發現他們之間的關系,解析完以后也可以建立一幅知識圖譜。
06 認知智能的實際應用
認知技術該怎么落地?如果把它應用到企業中?首先是看在當前的業務流程里,可不可以找出一個清晰的四元組模型,囊括人、實體、地點、事件這四大元素。如果有,那這就是你落地的一個選擇。其次,要關注復雜有難度的業務,不要考慮太簡單的業務,挑選那些需要花很長時間、人力難以企及的場景,知識圖譜可以立竿見影取得極佳的效果。比如我們曾幫很多企業去實現文檔的查重、比對和抽取,靠人力是無法完成的。接著,找到合適的業務場景之后,就可以開始構建MVP,分多個步驟,逐漸迭代,不要一次性把業務系統全部換掉。知識圖譜用不著推翻企業內部結構,它是以企業知識為中心,將數據孤島統統連接起來。
未來,企業的實力取決于科技。競爭力強的企業,經過業務重構之后會成為一家認知智能企業,享受認知技術的便捷,而ERP、OA之類的平臺都只是工具罷了。竹間智能鉆研了6年,取得了一系列突破,如今,從原始文檔自動構建知識圖譜,到對話機器人自動回答,只需要一個小時,就可以達到過去花6個月也無法達到的預期效果。
比如,在我們的產品界面上,先輸入一篇類風濕免疫疾病的文檔,里面講了風濕病的特征、癥狀、治療方式,然后經過我們的平臺,自動生成標簽,把關系、屬性、事件都抽取出來,建立三元組,隨后便可形成可視化的知識圖譜。如果有一萬篇文檔,那這幅圖譜就會變得相當大。通過圖譜,你可以查詢、問答,找到自己想要的答案。它就如同一個大腦,不光是能開展簡單的QA。機器人馬上就可以調用這幅圖譜,直接回答你的提問。你查搜索引擎是沒法找到這樣的答案的,因為機器人是用自然語言理解的技術加上整個知識圖譜來進行解答。
竹間已經將自動構建知識圖譜的技術產品化了,這個產品叫做Gemini,并可以大規模應用。上面這個例子是落地在醫藥醫療行業的,你可以想象,制造、金融、保險、公共安全、城市管理等領域,亟待解決的問題有多少?而且,知識圖譜給出的答案都是正確的,不存在模棱兩可的現象,所以知識圖譜+語義理解,機器人把短文本NLP和長文本NLP結合起來,實現自動化應用,即將顛覆常規的搜索引擎,來賦能于企業。將來,企業和人都不需要搜索引擎了,我們只需要一個載體——將知識圖譜跟對話輸出融合為一的載體就夠了。
07 洞悉未知,收獲意外之喜
剛才秀的只是一個小應用,認知智能的用途極其廣泛。比方說產品導購,可以讓你精確搜到自己想要的產品,而不是廣告。假設分析,就是如果怎么樣,會怎么樣?的問題,也能根據圖譜來回答。再是追蹤預警,采集人和事件之間的關系,看看能不能找出一些異常之處,然后提前預警。反欺詐也是一樣的,去監測交易中是否存在欺詐行為,以降低損失。還有提供個性化的商品推薦,如今主流的邏輯是——你買過或者瀏覽過什么產品,商家就一天到晚給你推相似的東西,但在購物時最開心的其實是遇到驚喜,不遠的未來,知識圖譜技術完全可以做到這一點。
360度繪制客戶畫像更是一個強大的應用,可以全方位分析客戶的愛好、行為和反饋等。最近我們為一家非常大的無人機公司定制了360度客戶畫像應用,收集全網、全世界對于產品的反饋和使用情況,打造一個全方位的Voice Of Customer分析和洞察模型,據此找出產品的瑕疵和優點,揚長避短,以便改進產品與服務。
接下來,我們談一談各行各業的大規模落地情況。在保險業,圍繞保單和保險人,有很多場景,全部可以用到知識圖譜。在房地產行業,從地產開發到銷售到運營,各環節日漸繁復,知識圖譜能夠大顯身手。在醫療行業,前面已經展示過,患者即用戶,從治療方案到疾病診斷,知識圖譜都有用武之地。在物流業,通過圖譜的計算能夠找到最短路徑、最低成本和最有效的方案。至于制造業,是人工智能產值最高的行業,所有的制造企業都在尋求智能化轉型,知識圖譜可以幫助解決生產、銷售、人員、流程、產品反饋等方方面面的問題,整合產業鏈的上中下游,填補斷層,直到觸達終端用戶。
知識圖譜可以清晰顯示數據之間的關系,它的最大價值是幫助人類發現未知,從大量的數據中發掘出你不知道的關聯——這就是驚喜,這就是我們目前所需要的。我們有太多重復性的信息,還有很多不知道的信息,都被鎖起來了,當你把知識圖譜構建起來后,就可以解鎖前所未見的景象。
08 企業科技創新的兩難之境
我們探討這些技術,也非常希望把這些技術落地,唯有落地以后,才能看到它們產生的價值,看到它們可以創造收入、降低成本、提高營業效率,這樣才會吸引更多人把資金投入到學術研究中,然后開發出更多的技術。我覺得,竹間智能和其他一些人工智能公司所肩負的責任就是把所有技術都落地,營造一個認知科學和NLP的產業生態圈,去刺激更多的投資。
然而在落地過程中,所有企業都會碰到創新的兩難困境。什么兩難困境呢?首先,我必須說,我對未來是滿懷希望的。竹間在過去幾年接觸了很多客戶,大約有300家大型標桿客戶,我們發現絕大多數客戶項目負責人都是90后和85后,他們都非常有理想,渴望用科技創造真正的改變。不過他們往往會碰到一些古老的選擇難題——是該買(Buy)還是該自研(Build)?該用這家還是那家的產品?實施時是基于標準化軟件還是從零代碼起步打造?該用云服務還是用低代碼開發平臺?
碰到這些不同維度的問題,我總結了三個要素來幫大家做出判斷:第一個是AI平臺——什么樣的AI平臺才能讓你快速享受到技術帶來的紅利?此外,數據運營也非常重要,好的技術、產品和平臺,只需要很少的人力來進行運營,達到低運營的水準,讓人工不再是人工智能的絆腳石。第二個是場景定制。找到對的場景,才會看到效果,看到價值。你以前做不到的事,借助認知技術,馬上就能做到。人工智能是要顛覆過往,而非取代,是站在傳統的技術和系統上去創造新事物。還有就是價格。人工智能平臺不是越便宜就越好,對于成本和收益,企業要做一個評估,弄清楚自己的投入能不能得到充足的回報。
我們竹間智能的技術,聽上去似乎很簡單,但實際上是很艱深的。有些企業覺得自己能獨立研發,于是花大筆經費,召集了一大群人,做了一兩年,最后卻發現沒辦法做出好的效果來,錯失了創新的契機。如果你只想用傳統的系統,那部署RPA就夠了,我們也能幫企業提供RPA解決方案;然而,如果面對的是需要復雜信息、專業知識、快速決策的業務,或者非常耗時耗力難以實現的,那就必須求助于認知技術和NLP技術了。比如,你的數據分散在很多系統里,沒有辦法整合,只有靠知識圖譜才能解決。知識圖譜就像是一個企業的超級大腦,加上NLP就是一個企業級的操作系統。
所以,買還是自研?最后的答案就在這里。對于復雜且多樣的AI能力,特別是NLP這樣艱深、高門檻的技術領域,企業是沒有辦法從零開發的,難度非常高,何況底層平臺、能力平臺和場景解決方案現在都有人提供,有人幫著做了。那什么地方是需要企業自研的呢?我認為是用戶體驗。這不能假手于人,企業應該花最多的時間,至少80%的時間在用戶體驗上,去重構業務,實現定制化。發展新業務,需要新技術支撐。有很多企業,從上到下都要別人做,這是錯的,還有很多企業,從上到下都想自己做,這也多是以失敗告終。
歸根結底,所有的技術和產品最終都是要落地經受檢驗的,不斷地驗證積累才能大規模商用。以后,我們會將認知科學和技術做進一步的推廣,希望結合中外學術界及產業界,一起完善NLP行業和認知智能行業!