導語:
“我們把世界看成數學,并且把你也看成數學”--用這句話來說明數據挖掘技術的復合性和應用的廣泛性似乎再好不過。如今,雖然一些行業在應用這一技術上仍然缺乏足夠的主動,但一個不能阻擋的趨勢是:已經有越來越多的人在快樂而有效地使用這一技術并且不由自主地成為它的“挖掘”對象。
引子:
禽流感該如何更好地監控?今天你寫Blog了嗎?
你是否覺得這兩個問題連在一起問很無厘頭?
事實上,美國一家公司正在試圖讓這兩個事件之間的關系日漸明了。
這家公司目前正在通過從全球的Blog網頁中作挖掘出和禽流感相關的信息,從而建立一個預警機制。這一項目考慮到Blog已經成為新聞傳播的重要途徑,先從網上抓取有關禽流感的網頁,存入到公司的數據倉庫,再指定“國家”為關鍵目標詞,然后利用關聯分析技術,即可得到和禽流感關聯最大的國家,由此可以判定該國的禽流感傳染可能比較嚴重。
就在此前,已經有很多人在抱怨,網上多如牛毛的Blog除去浪費了人們數以十萬年的閱讀時間之外,還有多少用處?如今,商業智能領域中的數據挖掘技術正在力圖從這些爆炸式增長的Blog中“挖”出更有價值的東西,同時它也正在更多領域中展示其非凡的力量。
工具篇:前方是岔路口
數據挖掘其實并非單純的IT技術,而是數學家和計算機科學家之間的合作產物。在過去十年中,高等數學和計算機建模的聯姻改變了科學和工程技術,以至于有人認為這一合作已經開創了一個全新的商業領域。
有關數據挖掘技術的定義有很多版本,綜其要點,主要在于應用一系列統計與人工智能技術來發現以前并不了解的數據規律,并解決實際業務問題。如今,數據挖掘技術已經從最開始的一個簡單的算法包,發展出通用挖掘平臺和專業挖掘工具兩大種類。其中,像IBM、NCR、 SAS、微軟、SPSS、StatSoft等廠商的數據挖掘產品(模塊)基本都是通用型工具平臺;而像美國的 Unica 公司、費爾艾薩克公司(Fair IsaacCorporation)則主要專注于諸如營銷自動化、信用卡積分等細分領域,屬于后一種工具。
具體來看,目前在數據挖掘領域聲勢頗大的大多是通用型工具平臺,像IBM、NCR、SAS、微軟、Oracle 、SPSS、StatSoft等都是如此。
“現在IBM更側重的是平臺優勢。”IBM軟件部中國區DB2信息管理技術經理劉晶煒明確表示。目前,IBM的 DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個數據挖掘模塊,將數據挖掘和數據倉庫整合到一個平臺之上。其中,前者主要針對結構化信息,主要分為建模、瀏覽、Scoring Service三個部分;后者則是針對文本的挖掘模塊,其主要功能是特征抽取、文檔聚集、文檔分類和檢索。
NCR Teradata的數據挖掘工具同樣也是與其數據倉庫整合在一起。具體來說,其數據挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數據挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作為兩家從傳統的統計分析技術發展而來的數據挖掘廠商,二者在業內的影響力可謂有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時間序列預測)、SAS OR(運籌學)、SAS STAT(統計分析)、SAS QC(質量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項產品。
總起來看,像IBM、NCR、Oracle、微軟這些平臺工具廠商基本上都是以提供“整車”為己任。一句話,只要用戶不是很挑剔,基本上都可以在某一家那里即可買全包括數據挖掘工具在內的全套商業智能產品。而像SAS、SPSS、StatSoft等公司雖然也宣稱提供工具平臺,但提供“整車”的實力有限,主要在統計分析和數據挖掘領域延伸提供盡可能多的工具組件。
相對于這些挖掘工具平臺,專業挖掘工具可能在市場的聲勢并不大,但是像Fair Isaac 公司、Unica 公司的發展卻也相當不錯。比如像Fair Isaac 公司就已經占據了全球信用卡積分市場70%-80%的份額,幾乎達到壟斷。該公司的創始人發明了一個信用評分卡(即費寇分數,FICO score),由此可以預測人的未來償付行為,為消費者信用行業提供一個有效的預測工具。同樣,美國 Unica 公司的 Affinium Model 則是一款專注于市場營銷自動化的數據挖掘工具軟件。
那么,面對這兩種工具,用戶該如何選擇?換句話講,哪種工具才是未來的發展方向呢?
中國傳媒大學調查統計研究所副所長、數據挖掘研究室主任沈浩認為,平臺化肯定是將來的一個發展方向,而且,中國的市場足夠廣闊,也可以容得下一批這樣的平臺廠商。IBM軟件部中國區DB2信息管理技術經理劉晶煒也表示,正與SAS進行更多的合作,以便進一步統一數據挖掘領域的技術標準。而Teradata數據倉庫專家盛秋戩博士則認為,目前的平臺工具雖多,但從根本上講,都是在用橫向的數據挖掘工具解決縱向的行業業務問題。他表示,如果從用戶出發,用戶應該更歡迎那些專業挖掘工具。
現在數據挖掘領域的確存在平臺化趨勢,但專業工具也占領了一些市場。有些公司就是只選出并優化某些算法,再加上行業經驗,就可以使建模過程更加優化。另據SYBASE商務智能總監廖鋼城介紹,其實在日本,就有公司專門銷售一種類似“黑匣子”的專業工具,銀行積累的數據在里面跑一遍,就直接出來結果。這種工具用得也很好。而在另一方面,他也認為,提供平臺的廠商會越來越少。
如此看來,業界對于工具的發展方向似乎并無太大異議,即平臺工具會保持在一個適當的數量,而專業工具顯然更得用戶的寵愛。而現在,數據挖掘技術的發展剛好到了一個岔路口,一邊指向通用型,一邊指向專業型,就看企業要往哪個方向走了。
微軟在SQL Server 2005中在數據挖掘方面的突破與創新曾被人看作最令人驚艷的地方。Microsoft SQL Server 2005 Data Mining 平臺的確引入了大量的數據挖掘功能,其本身就是一個開發智能應用程序的平臺,而非一個獨立應用程序。而且,這一平臺與所有 SQL Server 產品實現了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據稱,SQL Server 2005 中最重要的數據挖掘功能就是其處理大型數據集的能力,它允許模型對整個數據集運行,從而消除了采樣方面的挑戰。