如何識(shí)別濫竽充數(shù)的“數(shù)據(jù)騙子”

Cassie Kozyrkov
多虧了統(tǒng)計(jì)學(xué)專業(yè)以嚴(yán)謹(jǐn)推理而近乎神秘的名聲,數(shù)據(jù)科學(xué)領(lǐng)域?yàn)E竽充數(shù)的騙子們創(chuàng)下了歷史新高。這樣很容易作弊而不被發(fā)現(xiàn),特別是如果你毫無戒心的受害者認(rèn)為這一切都是關(guān)于方程式和數(shù)據(jù)的話。

你可能聽說過分析學(xué)家、機(jī)器學(xué)習(xí)/人工智能工程師和統(tǒng)計(jì)學(xué)家,但你聽說過這些領(lǐng)域也會(huì)有濫竽充數(shù)的“數(shù)據(jù)騙子”嗎?讓我們來認(rèn)識(shí)一下數(shù)據(jù)騙子吧!

在高薪工作的誘惑下,這些數(shù)據(jù)騙子給真正的數(shù)據(jù)專業(yè)人員帶來了不好的名聲。

數(shù)據(jù)騙子無處不在

很有可能,多年來,你的組織里就一直潛伏著這樣的數(shù)據(jù)騙子,但好消息是,如果你清楚要找什么,這些數(shù)據(jù)騙子還是很容易識(shí)別出的。

數(shù)據(jù)騙子非常善于隱藏在人們的視線中,以至于你可能都沒有意識(shí)到自己已經(jīng)成為其中一員。

第一個(gè)警告信號(hào)是沒有理解分析學(xué)和統(tǒng)計(jì)學(xué)是非常不同的學(xué)科。

我將在下一節(jié)做一個(gè)簡(jiǎn)要的概述,但如果你想更深入了解它的話,可以看看我專門寫的一篇文章:《分析學(xué)和統(tǒng)計(jì)學(xué)有什么區(qū)別?》(What’s the difference between analytics and statistics?)。

不同的學(xué)科

統(tǒng)計(jì)學(xué)接受的訓(xùn)練是推斷數(shù)據(jù)之外的內(nèi)容,而分析學(xué)接受的訓(xùn)練是探索數(shù)據(jù)集的內(nèi)容。換言之,分析學(xué)家對(duì)數(shù)據(jù)中的內(nèi)容作出結(jié)論,而統(tǒng)計(jì)學(xué)家則對(duì)數(shù)據(jù)中沒有的內(nèi)容作出結(jié)論。

分析學(xué)家?guī)椭闾岢龊玫膯栴}(假設(shè)生成),而統(tǒng)計(jì)學(xué)家?guī)椭愕玫胶玫拇鸢福僭O(shè)檢驗(yàn))。

也有花樣百出的“混血”角色,他們能夠同時(shí)戴上兩頂帽子……但他們并不會(huì)在同一時(shí)刻戴上兩頂帽子。為什么不這樣做呢?那是因?yàn)?,?shù)據(jù)科學(xué)的一個(gè)核心原則是,如果要處理不確定性,那么在假設(shè)生成和測(cè)試時(shí)都使用相同的數(shù)據(jù)點(diǎn),就是無效的。

當(dāng)你的數(shù)據(jù)有限時(shí),不確定性會(huì)迫使你在統(tǒng)計(jì)學(xué)或分析學(xué)之間做出選擇。(你可以閱讀這篇文章《數(shù)據(jù)科學(xué)中最有力的觀點(diǎn)》(The most powerful idea in data science)來看看我對(duì)此作出的解釋)

沒有統(tǒng)計(jì)數(shù)據(jù),你就無法知道自己剛剛形成的觀點(diǎn)是否站得住腳。

如果沒有分析,你就會(huì)像無頭蒼蠅一樣,幾乎沒有機(jī)會(huì)去馴服你未知的未知。

這是個(gè)艱難的選擇。你是否一邊為自己的靈感(分析)沾沾自喜,一邊又因?yàn)樾掠^點(diǎn)的不確定性而發(fā)誓要放棄它?又或者十分忐忑祈禱你問的問題(在沒有數(shù)據(jù)支撐的情況下獨(dú)自冥想)值得之尋求嚴(yán)謹(jǐn)?shù)拇鸢福ńy(tǒng)計(jì))?

事后諸葛亮

數(shù)據(jù)騙子擺脫這種束縛的方法是選擇忽略它,比如,在薯片中發(fā)現(xiàn)貓王的臉,然后假裝驚訝于同樣的薯片看起來像貓王。

(統(tǒng)計(jì)假設(shè)檢驗(yàn)的邏輯可以歸結(jié)為:我們的數(shù)據(jù)是否足以讓我們感到驚訝,從而改變我們的想法。如果我們已經(jīng)看到數(shù)據(jù),怎么還會(huì)對(duì)這些數(shù)據(jù)感到驚訝呢?)

2345截圖20200908083720.png

你覺得這些圖片看起來像兔子和貓王的臉嗎?或者是美國(guó)總統(tǒng)的肖像?

每當(dāng)數(shù)據(jù)騙子找到一個(gè)模式,得到啟發(fā),就會(huì)在相同模式測(cè)試相同數(shù)據(jù),然后在他們的理論旁邊加上一兩個(gè)合法的P值來發(fā)布結(jié)果時(shí),他們實(shí)際上是在愚弄你(也許糊弄他們自己)。而這個(gè)P值并沒有任何意義,除非你在查看數(shù)據(jù)之前,堅(jiān)持自己的假設(shè)。

真正的統(tǒng)計(jì)學(xué)家有決定權(quán)

多虧了統(tǒng)計(jì)學(xué)專業(yè)以嚴(yán)謹(jǐn)推理而近乎神秘的名聲,數(shù)據(jù)科學(xué)領(lǐng)域?yàn)E竽充數(shù)的騙子們創(chuàng)下了歷史新高。這樣很容易作弊而不被發(fā)現(xiàn),特別是如果你毫無戒心的受害者認(rèn)為這一切都是關(guān)于方程式和數(shù)據(jù)的話。

數(shù)據(jù)集就是數(shù)據(jù)集,對(duì)嗎?錯(cuò)了。你如何使用數(shù)據(jù)集很重要。

幸運(yùn)的是,對(duì)于他們的潛在目標(biāo)來說,你只需一條線索能抓住他們:數(shù)據(jù)騙子們都是放馬后炮的事后諸葛亮。

數(shù)據(jù)騙子是放馬后炮的事后諸葛亮——從數(shù)學(xué)上重新發(fā)現(xiàn)他們已經(jīng)知道存在于數(shù)據(jù)中的現(xiàn)象——而統(tǒng)計(jì)學(xué)家卻是提供前瞻性測(cè)試。

與數(shù)據(jù)騙子不同,優(yōu)秀的分析學(xué)家是思想都很開放,他們鼓舞人心的見解中總能給人以提醒,讓人們注意到他們觀察到下現(xiàn)象背后有不同種解釋,優(yōu)秀的統(tǒng)計(jì)學(xué)家在做出決策前會(huì)認(rèn)真權(quán)衡。

優(yōu)秀的分析學(xué)家是思想開放的典范。與數(shù)據(jù)騙子不同的是,他們不會(huì)在數(shù)據(jù)之外得出結(jié)論。

分析學(xué)家產(chǎn)生靈感

只要分析學(xué)家不超出自己的數(shù)據(jù)范圍,他們就不必拍板決定。如果他們想要宣稱沒見過的東西,那就是另一種工作了,他們應(yīng)該摘下分析學(xué)家的帽子,換上統(tǒng)計(jì)學(xué)家的帽子。畢竟,不管你的正式職位是什么,并沒有規(guī)定說你不能同時(shí)學(xué)這兩種行業(yè),但如果你想這樣做的話,只要你不將它們搞混淆就行。

擅長(zhǎng)統(tǒng)計(jì)并不意味著你擅長(zhǎng)分析,反之亦然。如果有人試圖告訴你不是這樣,那么請(qǐng)想想是不是被騙了。如果有人告訴你,你可以在你已經(jīng)探索過的數(shù)據(jù)上進(jìn)行統(tǒng)計(jì)推斷,請(qǐng)?jiān)俅_認(rèn)你是不是被騙了。

隱藏在花哨的解釋背后

如果你仔細(xì)觀察那些數(shù)據(jù)騙子,你會(huì)發(fā)現(xiàn)他們喜歡編造花哨的故事來“解釋”所觀察到的數(shù)據(jù)。這故事聽起來越學(xué)術(shù)越好。別忘了,這些故事只不過是事后才會(huì)符合數(shù)據(jù)。

當(dāng)數(shù)據(jù)騙子這樣做的時(shí)候,讓我來直截了當(dāng)告訴你吧,他們就是在胡說八道。再多的方程式或漂亮的論斷也無法彌補(bǔ)這樣一個(gè)事實(shí):即他們根本沒有提供任何證據(jù)來表明他們除了數(shù)據(jù)之外還知道自己在談?wù)摰氖鞘裁础?/p>

不要被他們花哨的解釋所打動(dòng)。如果是統(tǒng)計(jì)推斷,他們必須在看到數(shù)據(jù)之前作出決定。

這就相當(dāng)于炫耀他們的“通靈”能力,先偷看你手中的牌,然后預(yù)測(cè)你正拿著的是什么牌……而不管你手中拿的是什么牌。準(zhǔn)備好看看他們是怎么表演吧,他們的表演是如何因?yàn)槟愕谋砬樾孤抖鴪?zhí)行的。這就是放馬后炮的事后諸葛亮,連累數(shù)據(jù)科學(xué)專業(yè)因此飽受詬病。

2345截圖20200908083720.png

分析學(xué)家說,“你剛才拿的是方塊Q。”統(tǒng)計(jì)學(xué)家說,“在我們開始之前,我就在這張紙寫下了我的假設(shè)。讓我們打牌,觀察一些數(shù)據(jù),看看我說的對(duì)不對(duì)。”而數(shù)據(jù)騙子說,“我就知道你會(huì)出方塊Q,因?yàn)?hellip;…”(而機(jī)器學(xué)習(xí)說:“我要提前不斷地叫牌,一遍又一遍地看看我做得如何,我可能會(huì)調(diào)整我的反應(yīng),以適應(yīng)一個(gè)有效的策略。但我會(huì)用算法來做,因?yàn)槭謩?dòng)跟蹤一切都很煩人。”)

提防數(shù)據(jù)騙子

當(dāng)沒有太多數(shù)據(jù)時(shí),你將不得不在統(tǒng)計(jì)學(xué)和分析學(xué)之間做出選擇。

數(shù)據(jù)分割是每個(gè)人都需要的文化權(quán)宜之計(jì)。

幸運(yùn)的是,如果你有大量的數(shù)據(jù),你就有一個(gè)絕佳的機(jī)會(huì)來利用分析學(xué)和統(tǒng)計(jì)學(xué),而不用作弊。你也有完美的保護(hù)措施來對(duì)付數(shù)據(jù)騙子。這叫做數(shù)據(jù)分割,在我看來,這是數(shù)據(jù)科學(xué)中最強(qiáng)大的想法。

永遠(yuǎn)不要把未經(jīng)檢驗(yàn)的意見當(dāng)回事。相反,要使用藏匿的測(cè)試數(shù)據(jù)來找出誰知道它們?cè)谡f什么。

為了保護(hù)自己免受數(shù)據(jù)騙子的忽悠,你所要做的就是確保你把一些測(cè)試數(shù)據(jù)放在他們窺探不到的地方,然后將其他的東西都當(dāng)做分析數(shù)據(jù)(不要當(dāng)真)。當(dāng)你面對(duì)你有可能相信的理論時(shí),用它來拍板決定,然后打開你的秘密測(cè)試數(shù)據(jù),看看這個(gè)理論是不是瞎扯。就這么簡(jiǎn)單!

要確保在探索階段不允許任何人查看測(cè)試數(shù)據(jù)。為此,請(qǐng)堅(jiān)持使用探索性數(shù)據(jù)。測(cè)試數(shù)據(jù)就不應(yīng)用于分析。

這與人們?cè)?ldquo;小數(shù)據(jù)”時(shí)代所習(xí)慣的做法相比是一個(gè)很大的文化轉(zhuǎn)變,在“小數(shù)據(jù)”時(shí)代,你必須解釋你是如何知道你所知道的東西的,以便讓人們相信你可能確實(shí)知道一些東西。

同樣的規(guī)則也適用于機(jī)器學(xué)習(xí)/人工智能

一些冒充機(jī)器學(xué)習(xí)/人工智能專家的“數(shù)據(jù)騙子”很容易被識(shí)破。你揪出他們的方式和抓住其他糟糕的工程師的方式是一樣的:他們?cè)噲D構(gòu)建的“解決方案”都是無法交付的。(早期的警告標(biāo)識(shí)是缺乏行業(yè)標(biāo)準(zhǔn)編程語言和庫的經(jīng)驗(yàn)。)

但是,那些生產(chǎn)出似乎可以工作的系統(tǒng)的人呢?你怎么知道里面是不是有什么貓膩呢?同樣的規(guī)則也是使用的!騙子是一個(gè)陰險(xiǎn)的角色,他向你展示他們的模型在制作模型時(shí)所用的相同數(shù)據(jù)上的表現(xiàn)是多么優(yōu)異。真是不忍直視??!

如果你已經(jīng)構(gòu)建了一個(gè)極其復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng),那你怎么知道它能不能起作用呢?你沒有辦法的。除非你證明它能處理之前從未見過的新數(shù)據(jù)。

如果你在制作模型之前就看過這些數(shù)據(jù),那就不算是預(yù)測(cè)了。

當(dāng)你有足夠的數(shù)據(jù)可以分割時(shí),你無需虛張聲勢(shì)地拿著漂亮的公式來證明你的項(xiàng)目完美(這仍然是一個(gè)隨處可見的舊式習(xí)慣,不僅僅是在科學(xué)領(lǐng)域)。你可以說,“我之所以知道它是有效的,是因?yàn)槲铱梢阅靡粋€(gè)我從未見過的數(shù)據(jù)集進(jìn)行驗(yàn)證,可以準(zhǔn)確地預(yù)測(cè)那里會(huì)發(fā)生什么……并且是正確的。一遍又一遍。”

在新數(shù)據(jù)中測(cè)試你的模型/理論是建立信任的最好基礎(chǔ)。

統(tǒng)計(jì)數(shù)據(jù),或者保持謙遜

套用經(jīng)濟(jì)學(xué)家Paul Samuelson的一句俏皮話:

在過去的五次經(jīng)濟(jì)衰退中,騙子成功地預(yù)測(cè)到了九次。

我對(duì)數(shù)據(jù)騙子沒有耐心。你以為你“知道”什么樣的薯片長(zhǎng)得跟貓王的臉一樣嗎?我才不管你的觀點(diǎn)有多適合你的老薯片呢。甭管你的解釋有多么花哨,我都不以為然。讓我看看你的理論/模型在一堆你以前從未見過的新數(shù)據(jù)中是不是能起作用(并且一直都起作用)。這才是對(duì)你觀點(diǎn)的真正考驗(yàn)。

給數(shù)據(jù)科學(xué)專業(yè)人士的意見

數(shù)據(jù)科學(xué)專業(yè)人士,如果你想被任何理解這種幽默的人認(rèn)真對(duì)待,就不要再躲在花哨的方程式后面來支撐你的人性偏見了。讓我們看看你到底有什么本領(lǐng)。如果你想讓那些“明白”的人將你的理論/模型看作是一首鼓舞人心的詩歌,那么你就有勇氣在一個(gè)全新的數(shù)據(jù)集上,當(dāng)著人們的面前,展示它是如何工作的!

給領(lǐng)導(dǎo)的建議

領(lǐng)導(dǎo)要做到拒絕認(rèn)真對(duì)待任何數(shù)據(jù)“見解”,除非它們已經(jīng)在新的數(shù)據(jù)上進(jìn)行了測(cè)試。不想付出努力嗎?那就堅(jiān)持分析,但不要依賴于這些見解,它們是脆弱的,而且也沒有經(jīng)過檢查以確??尚哦取4送?,當(dāng)你的組織擁有大量數(shù)據(jù)時(shí),將數(shù)據(jù)分割作為你數(shù)據(jù)科學(xué)文化的核心部分,甚至通過控制對(duì)指定用于統(tǒng)計(jì)的測(cè)試數(shù)據(jù)的訪問來在基礎(chǔ)架構(gòu)級(jí)別實(shí)施這種做法,也沒有什么壞處。這是一個(gè)偉大的好方法,可以將數(shù)據(jù)騙子企圖扼殺在萌芽狀態(tài)!

總結(jié)

當(dāng)數(shù)據(jù)太少而無法進(jìn)行數(shù)據(jù)分割時(shí),只有數(shù)據(jù)騙子才會(huì)試圖用“嚴(yán)謹(jǐn)”的態(tài)度追隨靈感,通過數(shù)學(xué)方式重新發(fā)現(xiàn)他們已經(jīng)知道數(shù)據(jù)中存在的現(xiàn)象,并稱他們的驚喜具有統(tǒng)計(jì)學(xué)意義,從而放馬后炮,當(dāng)事后諸葛亮。這就把他們與開明的分析學(xué)家和細(xì)致的統(tǒng)計(jì)學(xué)家區(qū)別開來,前者以靈感處理問題,而后者提供前瞻性的證據(jù)。

當(dāng)數(shù)據(jù)充足時(shí),要養(yǎng)成數(shù)據(jù)分割的習(xí)慣,這樣,你就可以在不作弊的情況下實(shí)現(xiàn)兩全其美了!一定要確保對(duì)原始數(shù)據(jù)的不同子集分別進(jìn)行分析和統(tǒng)計(jì)。

分析學(xué)家為你提供思想開放的靈感。

統(tǒng)計(jì)學(xué)家為你提供嚴(yán)格的測(cè)試。

數(shù)據(jù)騙子是放馬后炮的事后諸葛亮,假裝是分析和統(tǒng)計(jì)。

作者介紹:

Cassie Kozyrkov,Google決策職能主管。熱衷統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)/人工智能、數(shù)據(jù)科學(xué)、雙關(guān)語、藝術(shù)、戲劇和決策科學(xué)。

原文鏈接:https://towardsdatascience.com/how-to-spot-a-data-charlatan-85785c991433

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論