
網(wǎng)易科技訊10 月 19 日消息,國(guó)外媒體Slate刊文指出,“大數(shù)據(jù)(Big Data)”一詞已經(jīng)變得沒(méi)有以往那么紅火了,為什么會(huì)這樣呢?“大數(shù)據(jù)”的問(wèn)題并不在于數(shù)據(jù)或者大數(shù)據(jù)自己很糟糕,而是在于盲目迷戀數(shù)據(jù),不加批判地使用,那會(huì)引發(fā)災(zāi)難。數(shù)據(jù)也不必然完全反映你想要了解的事情的實(shí)際情況。
以下是文章主要內(nèi)容:
5 年前—— 2012 年 2 月——《紐約時(shí)報(bào)》刊文高呼人類的一個(gè)新紀(jì)元的到來(lái):“大數(shù)據(jù)時(shí)代”。該文章告訴我們,社會(huì)將開(kāi)始發(fā)生一場(chǎng)革命,在這場(chǎng)革命中,海量數(shù)據(jù)的收集與分析將會(huì)改變?nèi)藗兩畹膸缀趺恳粋€(gè)方面。數(shù)據(jù)分析不再局限于電子數(shù)據(jù)表和回歸分析:超級(jí)計(jì)算的到來(lái),陪同著可持續(xù)記錄數(shù)據(jù)并將數(shù)據(jù)傳送到云端的聯(lián)網(wǎng)傳感器的不停普及,意味著邁克爾·劉易斯(Michael Lewis) 2003 年的棒球書籍《Moneyball》所描述的那種先進(jìn)數(shù)據(jù)分析有望被應(yīng)用于各行各業(yè),從商業(yè)到學(xué)術(shù),再到醫(yī)療和兩性關(guān)系。不但如此,高端的數(shù)據(jù)分析軟件還有助于鑒定完全意想不到的相關(guān)性,好比貸款方用盡額度和他債務(wù)違約的可能性之間的關(guān)系。這勢(shì)必將會(huì)催生會(huì)改變我們思考幾乎一切事物的新穎見(jiàn)解。
《紐約時(shí)報(bào)》并不是第一個(gè)得出這一結(jié)論的企業(yè)機(jī)構(gòu):它的文章引用了麥肯錫咨詢公司 2011 年的一份重大陳訴,其不雅觀點(diǎn)也得到了 2012 年瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇題為“大數(shù)據(jù),大影響”的官方陳訴的支持。但這種宣言仿佛就是標(biāo)識(shí)表記標(biāo)幟大數(shù)據(jù)時(shí)代開(kāi)啟的里程碑。在之后的一個(gè)月里,巴拉克·奧巴馬(Barack Obama)的白宮成了一個(gè) 2 億美元的國(guó)家大數(shù)據(jù)項(xiàng)目,瘋狂熱潮隨即襲來(lái):學(xué)術(shù)機(jī)構(gòu)、非盈利組織、政府和企業(yè)都爭(zhēng)相去探究“大數(shù)據(jù)”究竟是什么,他們可以如何好好利用它。
事實(shí)證明,這種瘋狂沒(méi)有持續(xù)很長(zhǎng)時(shí)間。 5 年后,數(shù)據(jù)在我們的日常生活中飾演重要很多的角色,但大數(shù)據(jù)一詞已經(jīng)不再流行——甚至讓人覺(jué)得有些討厭。我們被允諾的那場(chǎng)革命究竟發(fā)生了什么呢?數(shù)據(jù)、分析技術(shù)和算法現(xiàn)在又在往什么標(biāo)的目的發(fā)展呢?這些問(wèn)題值得回頭去思考。
科技咨詢公司Gartner在它 2015 年相當(dāng)有名的“技術(shù)成熟度曲線”陳訴中不再使用“大數(shù)據(jù)”一次,之后該詞再也沒(méi)有回歸。該公司澄清道,這并不是因?yàn)槠髽I(yè)放棄挖掘巨量數(shù)據(jù)集獲得洞見(jiàn)的概念。而是因?yàn)槟欠N做法已經(jīng)變得廣為流行,以至于它不再符合“新興技術(shù)”的定義。大數(shù)據(jù)幫手驅(qū)動(dòng)我們的動(dòng)態(tài)消息、Netflix視頻保舉、自動(dòng)化股票交易、自動(dòng)校正功能、健康跟蹤設(shè)備等不可勝數(shù)的工具背后的算法。但我們現(xiàn)在不大使用大數(shù)據(jù)一詞了——我們只是將它稱作數(shù)據(jù)。我們開(kāi)始將數(shù)據(jù)集能夠包羅無(wú)數(shù)的不雅觀察結(jié)果,先進(jìn)軟件能夠檢測(cè)傍邊的趨勢(shì)當(dāng)做理所當(dāng)然的事情。
大數(shù)據(jù)引發(fā)的嚴(yán)重錯(cuò)誤
雖然該詞仍有被使用,但它更多地帶有一種欠好的意味,好比凱茜·奧尼爾(Cathy O’Neil) 2016 年的著作《數(shù)學(xué)殺傷性兵器》(Weapons of Math Destruction)或者弗蘭克·帕斯夸里(Frank Pasquale) 2015 年的《黑箱社會(huì)》(The Black Box Society)。匆忙執(zhí)行和應(yīng)用大數(shù)據(jù),即進(jìn)行所謂的“數(shù)據(jù)驅(qū)動(dòng)型決策”,帶來(lái)了嚴(yán)重的錯(cuò)誤。
有的錯(cuò)誤相當(dāng)惹人注目:塔吉特(Target)曾向一位沒(méi)跟任何人說(shuō)過(guò)本身懷孕的少女的家庭派送嬰兒用品優(yōu)惠券;Pinterest曾恭喜一位單身女性即將結(jié)婚;谷歌照片(Google Photos)也曾引發(fā)軒然大波,該公司被大肆吹捧的AI將黑人誤以為是大猩猩,原因是它的訓(xùn)練數(shù)據(jù)不夠多元化。(值得指出的是,至少在該事件中,“大數(shù)據(jù)”還不夠大。)
其它的錯(cuò)誤更為微妙,或許也更加陰險(xiǎn)。傍邊包孕奧尼爾在她的重要著作中記錄的那些不透明的數(shù)據(jù)驅(qū)動(dòng)式制度性模型:被法庭用來(lái)判決罪犯的、帶有種族偏見(jiàn)的累犯模型,或者那些基于可疑的測(cè)驗(yàn)分?jǐn)?shù)數(shù)據(jù)解雇備受愛(ài)慕的教師的模型。大數(shù)據(jù)出錯(cuò)的新案例可謂層出不窮——好比Facebook算法明顯幫手俄羅斯通過(guò)針對(duì)性的假新聞?dòng)绊懨绹?guó)總統(tǒng)大選的結(jié)果。
盲目迷戀數(shù)據(jù)與誤用
“大數(shù)據(jù)”的問(wèn)題并不在于數(shù)據(jù)自己很糟糕,也不在于大數(shù)據(jù)自己很糟糕:謹(jǐn)慎應(yīng)用的話,大型數(shù)據(jù)集還是能夠揭示其它途徑發(fā)現(xiàn)不了的重要趨勢(shì)。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在比來(lái)給Slate撰寫的文章里所說(shuō)的,盲目迷戀數(shù)據(jù),不加批判地使用,往往導(dǎo)致災(zāi)難的發(fā)生。
從素質(zhì)來(lái)看,大數(shù)據(jù)不容易解讀。當(dāng)你收集數(shù)十億個(gè)數(shù)據(jù)點(diǎn)的時(shí)候——一個(gè)網(wǎng)站上的點(diǎn)擊或者光標(biāo)位置數(shù)據(jù);大型公共空間十字轉(zhuǎn)門的轉(zhuǎn)動(dòng)次數(shù);對(duì)世界各地每個(gè)小時(shí)的風(fēng)速不雅觀察;推文——任何給定的數(shù)據(jù)點(diǎn)的來(lái)源會(huì)變得模糊。這反過(guò)來(lái)意味著,看似高級(jí)另外趨勢(shì)可能只是數(shù)據(jù)問(wèn)題或者方法造成的產(chǎn)物。但也許更重大的問(wèn)題是,你所擁有的數(shù)據(jù)通常只是你真正想要知道的東西的一個(gè)指標(biāo)。大數(shù)據(jù)不能解決阿誰(shuí)問(wèn)題——它反而放大了阿誰(shuí)問(wèn)題。