近日,知名快遞公司順豐和電商巨頭阿里巴巴爭端甚囂塵上,這次爭端意味著“數據”已然成為商業必爭的“資產”。因此,陪同大數據時代來臨,數據獲取、存儲、分析等一系列技術的研發和應用已經得到了眾多企業的關注。
作為大數據開發利用的重要組成部分,就數據存儲而言,圖數據庫是利用圖的特性來對數據進行存儲辦理,并對傳統圖的概念進行了擴展。越來越成熟的數據模型,使得利用事物(即“節點”或“實體”)及事物之間的聯系(即“邊”或“關系”)來對各類業務場景進行抽象變得更加容易。也正因為圖數據庫基于圖論的理論和算法實現,相對于關系型數據庫,它也更擅于處理網狀的復雜關系。此外,圖數據庫通常都支持對圖數據模型的增、刪、改、查(CRUD)方法,并較多地用于事務(OLTP)系統中,被應用系統實時拜候。
圖數據庫作為恒昌知識圖譜的底層存儲方案,是多方數據的知識融合及提煉后進行匯聚的場所,為恒昌豐富的辦事線與數據技術間的承轉起著重要作用。由于Neo4j是目前最成熟的圖數據庫之一,恒昌廣泛使用 Neo4j作為知識圖譜底層圖數據持久方案,基于其優異的事務能力而提供實時的數據查詢功能。此外,恒昌還在 Titan、Gaffer等分布式圖數據庫或計算引擎上有著深入的研究。
目前,恒昌的圖數據庫已經融合了多方數據,包孕業務系統主要辦事線各階段的數據、用戶授權數據等。這些數據形成的實體規模已過億、形成的關系已多達數十億。隨著用戶數量的提升,這個數據還在持續增長。因此,基于圖數據庫開發的知識圖譜正在發揮著越來越大的作用,目前已經上線或待上線的技術平臺覆蓋了客戶失聯修復、反欺詐規則引擎、欺詐團伙調查等,近期還會覆蓋風險預警等標的目的。
1.欺詐團伙調查
圖數據庫能通過“實體”和“關系”這種簡單直不雅觀的描述方法來表述現實世界中錯綜復雜的關聯關系。它可以提供逐層挖掘的方式,引導逐步深入分析各種關系;還可以快速呈現實體之間最新的關系變革,積累更新的知識和經驗;也可以清晰地呈現復雜關系間的聯絡線索,為判斷事件來龍去脈提供有效引導。此處,以恒昌的客戶為例,參考圖 1 中的客戶徐某(因數據安適的原因,部分信息作了涂抹,并對原有圖結構進行了簡化),,如果僅考慮該客戶本身填寫的信息,雖然能看到一度關聯信息,但完全看不出該結構會有什么問題,也無法進行深入調查。

圖 1 客戶徐某借款時的聯系人信息簡化圖
當關聯信息得到增補(相對于原進件聯系人,增補了同事、鄰居、親屬、伴侶等關系,還基于用戶授權數據進行了深度擴展)后,暫不考慮物品(如手機號、銀行賬號、地址等),僅考慮自然人,獲取徐某二度關系內同時在恒昌網貸平臺有借款行為的用戶,得到圖2(基于同樣原因數據有涂抹及簡化)的結果。該圖每一個圓都代表一位恒昌客戶,圖頂部的狀態說明了客戶當前所處狀態。不雅觀察左下角以徐某為中心的四個客戶(已用紅框標出),他們剛好是所呈現圖的最大完全子圖,符合圖論中團的定義。再看除徐某外的三個客戶:兩個逾期、一個被拒。如果徐某是新入圖數據庫的借款人,從數學模型的角度看,幾乎可以直接判定拒絕。因為符合這種狀態的團,是欺詐團伙或是組團代辦的幾率非常大。

圖 2 客戶徐某增補關系類型后的一度及二度關聯信息
到這時工作并未完結,如果有需要,可以基于圖中的關系嘗試與幾位客戶聯系以進行深入配景調查證實,調查的結論可以融合到圖數據庫中形成數據閉環,直接改善后續自動化預警的結果。
2.風險事件預警
盡管對欺詐團伙調查能取得不錯效果,但因其可能需要調查員隨時聯系客戶或聯系周邊人群以驗證調查員的推論,因此整體成本還是相當高的。為了解決這個問題,基于模型的風險事件預警就應運而生。如果說欺詐團伙調查是主動出擊,風險事件預警更像是被動防御。
風險事件預警是通過模型生成一組類似上述欺詐團伙調查中出現的場景,給每一個場景一個相對低一些的初始置信度,后期通過不停的反饋迭代來優化置信度。當一個新客戶到來之后,首先會將其信息整合到知識圖譜中。緊接著,該客戶會被規則引擎捕捉到,規則引擎會基于客戶信息從知識圖譜中提取一組特征,由該特征決定了引擎首先會觸發哪些場景,而這些場景的結論可能導致規則引擎又觸發別的一組場景。在滿足特定條件下,最終結果輸出,如果有相應的風險事件被觸發,則信息會送達相關團隊。