人妻无码aⅴ中文字,亚洲精品电影在线观看

如何識(shí)別濫竽充數(shù)的“數(shù)據(jù)騙子”

2021-01-07 15:26

AI前線

Cassie Kozyrkov

多虧了統(tǒng)計(jì)學(xué)專業(yè)以嚴(yán)謹(jǐn)推理而近乎神秘的名聲，數(shù)據(jù)科學(xué)領(lǐng)域?yàn)E竽充數(shù)的騙子們創(chuàng)下了歷史新高。這樣很容易作弊而不被發(fā)現(xiàn)，特別是如果你毫無戒心的受害者認(rèn)為這一切都是關(guān)于方程式和數(shù)據(jù)的話。

你可能聽說過分析學(xué)家、機(jī)器學(xué)習(xí)/人工智能工程師和統(tǒng)計(jì)學(xué)家，但你聽說過這些領(lǐng)域也會(huì)有濫竽充數(shù)的“數(shù)據(jù)騙子”嗎？讓我們來認(rèn)識(shí)一下數(shù)據(jù)騙子吧！

在高薪工作的誘惑下，這些數(shù)據(jù)騙子給真正的數(shù)據(jù)專業(yè)人員帶來了不好的名聲。

數(shù)據(jù)騙子無處不在

很有可能，多年來，你的組織里就一直潛伏著這樣的數(shù)據(jù)騙子，但好消息是，如果你清楚要找什么，這些數(shù)據(jù)騙子還是很容易識(shí)別出的。

數(shù)據(jù)騙子非常善于隱藏在人們的視線中，以至于你可能都沒有意識(shí)到自己已經(jīng)成為其中一員。

第一個(gè)警告信號(hào)是沒有理解分析學(xué)和統(tǒng)計(jì)學(xué)是非常不同的學(xué)科。

我將在下一節(jié)做一個(gè)簡(jiǎn)要的概述，但如果你想更深入了解它的話，可以看看我專門寫的一篇文章：《分析學(xué)和統(tǒng)計(jì)學(xué)有什么區(qū)別？》（What’s the difference between analytics and statistics?）。

不同的學(xué)科

統(tǒng)計(jì)學(xué)接受的訓(xùn)練是推斷數(shù)據(jù)之外的內(nèi)容，而分析學(xué)接受的訓(xùn)練是探索數(shù)據(jù)集的內(nèi)容。換言之，分析學(xué)家對(duì)數(shù)據(jù)中的內(nèi)容作出結(jié)論，而統(tǒng)計(jì)學(xué)家則對(duì)數(shù)據(jù)中沒有的內(nèi)容作出結(jié)論。

分析學(xué)家?guī)椭闾岢龊玫膯栴}（假設(shè)生成），而統(tǒng)計(jì)學(xué)家?guī)椭愕玫胶玫拇鸢福僭O(shè)檢驗(yàn)）。

也有花樣百出的“混血”角色，他們能夠同時(shí)戴上兩頂帽子……但他們并不會(huì)在同一時(shí)刻戴上兩頂帽子。為什么不這樣做呢？那是因?yàn)?，?shù)據(jù)科學(xué)的一個(gè)核心原則是，如果要處理不確定性，那么在假設(shè)生成和測(cè)試時(shí)都使用相同的數(shù)據(jù)點(diǎn)，就是無效的。

當(dāng)你的數(shù)據(jù)有限時(shí)，不確定性會(huì)迫使你在統(tǒng)計(jì)學(xué)或分析學(xué)之間做出選擇。（你可以閱讀這篇文章《數(shù)據(jù)科學(xué)中最有力的觀點(diǎn)》（The most powerful idea in data science）來看看我對(duì)此作出的解釋）

沒有統(tǒng)計(jì)數(shù)據(jù)，你就無法知道自己剛剛形成的觀點(diǎn)是否站得住腳。

如果沒有分析，你就會(huì)像無頭蒼蠅一樣，幾乎沒有機(jī)會(huì)去馴服你未知的未知。

這是個(gè)艱難的選擇。你是否一邊為自己的靈感（分析）沾沾自喜，一邊又因?yàn)樾掠^點(diǎn)的不確定性而發(fā)誓要放棄它？又或者十分忐忑祈禱你問的問題（在沒有數(shù)據(jù)支撐的情況下獨(dú)自冥想）值得之尋求嚴(yán)謹(jǐn)?shù)拇鸢福ńy(tǒng)計(jì)）？

事后諸葛亮

數(shù)據(jù)騙子擺脫這種束縛的方法是選擇忽略它，比如，在薯片中發(fā)現(xiàn)貓王的臉，然后假裝驚訝于同樣的薯片看起來像貓王。

（統(tǒng)計(jì)假設(shè)檢驗(yàn)的邏輯可以歸結(jié)為：我們的數(shù)據(jù)是否足以讓我們感到驚訝，從而改變我們的想法。如果我們已經(jīng)看到數(shù)據(jù)，怎么還會(huì)對(duì)這些數(shù)據(jù)感到驚訝呢？）

你覺得這些圖片看起來像兔子和貓王的臉嗎？或者是美國(guó)總統(tǒng)的肖像？

每當(dāng)數(shù)據(jù)騙子找到一個(gè)模式，得到啟發(fā)，就會(huì)在相同模式測(cè)試相同數(shù)據(jù)，然后在他們的理論旁邊加上一兩個(gè)合法的P值來發(fā)布結(jié)果時(shí)，他們實(shí)際上是在愚弄你（也許糊弄他們自己）。而這個(gè)P值并沒有任何意義，除非你在查看數(shù)據(jù)之前，堅(jiān)持自己的假設(shè)。

真正的統(tǒng)計(jì)學(xué)家有決定權(quán)

數(shù)據(jù)集就是數(shù)據(jù)集，對(duì)嗎？錯(cuò)了。你如何使用數(shù)據(jù)集很重要。

幸運(yùn)的是，對(duì)于他們的潛在目標(biāo)來說，你只需一條線索能抓住他們：數(shù)據(jù)騙子們都是放馬后炮的事后諸葛亮。

數(shù)據(jù)騙子是放馬后炮的事后諸葛亮——從數(shù)學(xué)上重新發(fā)現(xiàn)他們已經(jīng)知道存在于數(shù)據(jù)中的現(xiàn)象——而統(tǒng)計(jì)學(xué)家卻是提供前瞻性測(cè)試。

與數(shù)據(jù)騙子不同，優(yōu)秀的分析學(xué)家是思想都很開放，他們鼓舞人心的見解中總能給人以提醒，讓人們注意到他們觀察到下現(xiàn)象背后有不同種解釋，優(yōu)秀的統(tǒng)計(jì)學(xué)家在做出決策前會(huì)認(rèn)真權(quán)衡。

優(yōu)秀的分析學(xué)家是思想開放的典范。與數(shù)據(jù)騙子不同的是，他們不會(huì)在數(shù)據(jù)之外得出結(jié)論。

分析學(xué)家產(chǎn)生靈感

只要分析學(xué)家不超出自己的數(shù)據(jù)范圍，他們就不必拍板決定。如果他們想要宣稱沒見過的東西，那就是另一種工作了，他們應(yīng)該摘下分析學(xué)家的帽子，換上統(tǒng)計(jì)學(xué)家的帽子。畢竟，不管你的正式職位是什么，并沒有規(guī)定說你不能同時(shí)學(xué)這兩種行業(yè)，但如果你想這樣做的話，只要你不將它們搞混淆就行。

擅長(zhǎng)統(tǒng)計(jì)并不意味著你擅長(zhǎng)分析，反之亦然。如果有人試圖告訴你不是這樣，那么請(qǐng)想想是不是被騙了。如果有人告訴你，你可以在你已經(jīng)探索過的數(shù)據(jù)上進(jìn)行統(tǒng)計(jì)推斷，請(qǐng)?jiān)俅_認(rèn)你是不是被騙了。

隱藏在花哨的解釋背后

如果你仔細(xì)觀察那些數(shù)據(jù)騙子，你會(huì)發(fā)現(xiàn)他們喜歡編造花哨的故事來“解釋”所觀察到的數(shù)據(jù)。這故事聽起來越學(xué)術(shù)越好。別忘了，這些故事只不過是事后才會(huì)符合數(shù)據(jù)。

當(dāng)數(shù)據(jù)騙子這樣做的時(shí)候，讓我來直截了當(dāng)告訴你吧，他們就是在胡說八道。再多的方程式或漂亮的論斷也無法彌補(bǔ)這樣一個(gè)事實(shí)：即他們根本沒有提供任何證據(jù)來表明他們除了數(shù)據(jù)之外還知道自己在談?wù)摰氖鞘裁础?/p>

不要被他們花哨的解釋所打動(dòng)。如果是統(tǒng)計(jì)推斷，他們必須在看到數(shù)據(jù)之前作出決定。

這就相當(dāng)于炫耀他們的“通靈”能力，先偷看你手中的牌，然后預(yù)測(cè)你正拿著的是什么牌……而不管你手中拿的是什么牌。準(zhǔn)備好看看他們是怎么表演吧，他們的表演是如何因?yàn)槟愕谋砬樾孤抖鴪?zhí)行的。這就是放馬后炮的事后諸葛亮，連累數(shù)據(jù)科學(xué)專業(yè)因此飽受詬病。

分析學(xué)家說，“你剛才拿的是方塊Q。”統(tǒng)計(jì)學(xué)家說，“在我們開始之前，我就在這張紙寫下了我的假設(shè)。讓我們打牌，觀察一些數(shù)據(jù)，看看我說的對(duì)不對(duì)。”而數(shù)據(jù)騙子說，“我就知道你會(huì)出方塊Q，因?yàn)?hellip;…”（而機(jī)器學(xué)習(xí)說：“我要提前不斷地叫牌，一遍又一遍地看看我做得如何，我可能會(huì)調(diào)整我的反應(yīng)，以適應(yīng)一個(gè)有效的策略。但我會(huì)用算法來做，因?yàn)槭謩?dòng)跟蹤一切都很煩人。”）

提防數(shù)據(jù)騙子

當(dāng)沒有太多數(shù)據(jù)時(shí)，你將不得不在統(tǒng)計(jì)學(xué)和分析學(xué)之間做出選擇。

數(shù)據(jù)分割是每個(gè)人都需要的文化權(quán)宜之計(jì)。

幸運(yùn)的是，如果你有大量的數(shù)據(jù)，你就有一個(gè)絕佳的機(jī)會(huì)來利用分析學(xué)和統(tǒng)計(jì)學(xué)，而不用作弊。你也有完美的保護(hù)措施來對(duì)付數(shù)據(jù)騙子。這叫做數(shù)據(jù)分割，在我看來，這是數(shù)據(jù)科學(xué)中最強(qiáng)大的想法。

永遠(yuǎn)不要把未經(jīng)檢驗(yàn)的意見當(dāng)回事。相反，要使用藏匿的測(cè)試數(shù)據(jù)來找出誰知道它們?cè)谡f什么。

為了保護(hù)自己免受數(shù)據(jù)騙子的忽悠，你所要做的就是確保你把一些測(cè)試數(shù)據(jù)放在他們窺探不到的地方，然后將其他的東西都當(dāng)做分析數(shù)據(jù)（不要當(dāng)真）。當(dāng)你面對(duì)你有可能相信的理論時(shí)，用它來拍板決定，然后打開你的秘密測(cè)試數(shù)據(jù)，看看這個(gè)理論是不是瞎扯。就這么簡(jiǎn)單！

要確保在探索階段不允許任何人查看測(cè)試數(shù)據(jù)。為此，請(qǐng)堅(jiān)持使用探索性數(shù)據(jù)。測(cè)試數(shù)據(jù)就不應(yīng)用于分析。

這與人們?cè)?ldquo;小數(shù)據(jù)”時(shí)代所習(xí)慣的做法相比是一個(gè)很大的文化轉(zhuǎn)變，在“小數(shù)據(jù)”時(shí)代，你必須解釋你是如何知道你所知道的東西的，以便讓人們相信你可能確實(shí)知道一些東西。

同樣的規(guī)則也適用于機(jī)器學(xué)習(xí)/人工智能

一些冒充機(jī)器學(xué)習(xí)/人工智能專家的“數(shù)據(jù)騙子”很容易被識(shí)破。你揪出他們的方式和抓住其他糟糕的工程師的方式是一樣的：他們?cè)噲D構(gòu)建的“解決方案”都是無法交付的。（早期的警告標(biāo)識(shí)是缺乏行業(yè)標(biāo)準(zhǔn)編程語言和庫的經(jīng)驗(yàn)。）

但是，那些生產(chǎn)出似乎可以工作的系統(tǒng)的人呢？你怎么知道里面是不是有什么貓膩呢？同樣的規(guī)則也是使用的！騙子是一個(gè)陰險(xiǎn)的角色，他向你展示他們的模型在制作模型時(shí)所用的相同數(shù)據(jù)上的表現(xiàn)是多么優(yōu)異。真是不忍直視??！

如果你已經(jīng)構(gòu)建了一個(gè)極其復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng)，那你怎么知道它能不能起作用呢？你沒有辦法的。除非你證明它能處理之前從未見過的新數(shù)據(jù)。

如果你在制作模型之前就看過這些數(shù)據(jù)，那就不算是預(yù)測(cè)了。

當(dāng)你有足夠的數(shù)據(jù)可以分割時(shí)，你無需虛張聲勢(shì)地拿著漂亮的公式來證明你的項(xiàng)目完美（這仍然是一個(gè)隨處可見的舊式習(xí)慣，不僅僅是在科學(xué)領(lǐng)域）。你可以說，“我之所以知道它是有效的，是因?yàn)槲铱梢阅靡粋€(gè)我從未見過的數(shù)據(jù)集進(jìn)行驗(yàn)證，可以準(zhǔn)確地預(yù)測(cè)那里會(huì)發(fā)生什么……并且是正確的。一遍又一遍。”

在新數(shù)據(jù)中測(cè)試你的模型/理論是建立信任的最好基礎(chǔ)。

統(tǒng)計(jì)數(shù)據(jù)，或者保持謙遜

套用經(jīng)濟(jì)學(xué)家Paul Samuelson的一句俏皮話：

在過去的五次經(jīng)濟(jì)衰退中，騙子成功地預(yù)測(cè)到了九次。

我對(duì)數(shù)據(jù)騙子沒有耐心。你以為你“知道”什么樣的薯片長(zhǎng)得跟貓王的臉一樣嗎？我才不管你的觀點(diǎn)有多適合你的老薯片呢。甭管你的解釋有多么花哨，我都不以為然。讓我看看你的理論/模型在一堆你以前從未見過的新數(shù)據(jù)中是不是能起作用（并且一直都起作用）。這才是對(duì)你觀點(diǎn)的真正考驗(yàn)。

給數(shù)據(jù)科學(xué)專業(yè)人士的意見

數(shù)據(jù)科學(xué)專業(yè)人士，如果你想被任何理解這種幽默的人認(rèn)真對(duì)待，就不要再躲在花哨的方程式后面來支撐你的人性偏見了。讓我們看看你到底有什么本領(lǐng)。如果你想讓那些“明白”的人將你的理論/模型看作是一首鼓舞人心的詩歌，那么你就有勇氣在一個(gè)全新的數(shù)據(jù)集上，當(dāng)著人們的面前，展示它是如何工作的！

給領(lǐng)導(dǎo)的建議

領(lǐng)導(dǎo)要做到拒絕認(rèn)真對(duì)待任何數(shù)據(jù)“見解”，除非它們已經(jīng)在新的數(shù)據(jù)上進(jìn)行了測(cè)試。不想付出努力嗎？那就堅(jiān)持分析，但不要依賴于這些見解，它們是脆弱的，而且也沒有經(jīng)過檢查以確?？尚哦取４送?，當(dāng)你的組織擁有大量數(shù)據(jù)時(shí)，將數(shù)據(jù)分割作為你數(shù)據(jù)科學(xué)文化的核心部分，甚至通過控制對(duì)指定用于統(tǒng)計(jì)的測(cè)試數(shù)據(jù)的訪問來在基礎(chǔ)架構(gòu)級(jí)別實(shí)施這種做法，也沒有什么壞處。這是一個(gè)偉大的好方法，可以將數(shù)據(jù)騙子企圖扼殺在萌芽狀態(tài)！

總結(jié)

當(dāng)數(shù)據(jù)太少而無法進(jìn)行數(shù)據(jù)分割時(shí)，只有數(shù)據(jù)騙子才會(huì)試圖用“嚴(yán)謹(jǐn)”的態(tài)度追隨靈感，通過數(shù)學(xué)方式重新發(fā)現(xiàn)他們已經(jīng)知道數(shù)據(jù)中存在的現(xiàn)象，并稱他們的驚喜具有統(tǒng)計(jì)學(xué)意義，從而放馬后炮，當(dāng)事后諸葛亮。這就把他們與開明的分析學(xué)家和細(xì)致的統(tǒng)計(jì)學(xué)家區(qū)別開來，前者以靈感處理問題，而后者提供前瞻性的證據(jù)。

當(dāng)數(shù)據(jù)充足時(shí)，要養(yǎng)成數(shù)據(jù)分割的習(xí)慣，這樣，你就可以在不作弊的情況下實(shí)現(xiàn)兩全其美了！一定要確保對(duì)原始數(shù)據(jù)的不同子集分別進(jìn)行分析和統(tǒng)計(jì)。

分析學(xué)家為你提供思想開放的靈感。

統(tǒng)計(jì)學(xué)家為你提供嚴(yán)格的測(cè)試。

數(shù)據(jù)騙子是放馬后炮的事后諸葛亮，假裝是分析和統(tǒng)計(jì)。

作者介紹：

Cassie Kozyrkov，Google決策職能主管。熱衷統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)/人工智能、數(shù)據(jù)科學(xué)、雙關(guān)語、藝術(shù)、戲劇和決策科學(xué)。

原文鏈接：https://towardsdatascience.com/how-to-spot-a-data-charlatan-85785c991433

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

2020年全球云存儲(chǔ)行業(yè)市場(chǎng)現(xiàn)狀及發(fā)展前景分析混合云將成為云存儲(chǔ)主流模式

如何識(shí)別濫竽充數(shù)的“數(shù)據(jù)騙子”

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

如何識(shí)別濫竽充數(shù)的“數(shù)據(jù)騙子”

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

數(shù)據(jù)隱私在智慧城市中的重要性

存力中心——構(gòu)建新型數(shù)據(jù)基礎(chǔ)設(shè)施，加速數(shù)據(jù)要素X行業(yè)推進(jìn)高質(zhì)量發(fā)展

實(shí)現(xiàn)數(shù)據(jù)價(jià)值：從“管”到“用”的跨越

工業(yè)大數(shù)據(jù)加速融合AI向數(shù)據(jù)智能發(fā)展

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

2022（第七屆）中國(guó)網(wǎng)絡(luò)信息安全峰會(huì)將于7月5日在京召開

直播預(yù)約 | 納稅信用評(píng)價(jià)政策講解及靈活用工案例分析

時(shí)代天融數(shù)字化內(nèi)控管理平臺(tái) 榮獲2023年中國(guó)醫(yī)療數(shù)字化最佳產(chǎn)品獎(jiǎng)

iVX引領(lǐng)自動(dòng)編程新時(shí)代：從百萬應(yīng)用到普適AST轉(zhuǎn)換的技術(shù)突破

樹熊數(shù)字家攜手代言人，重新定義數(shù)字家庭

中科逆熵榮膺“2024數(shù)字化轉(zhuǎn)型十大杰出企業(yè)”

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

2020年全球云存儲(chǔ)行業(yè)市場(chǎng)現(xiàn)狀及發(fā)展前景分析混合云將成為云存儲(chǔ)主流模式

是時(shí)候?qū)?shù)據(jù)中心脫碳進(jìn)行現(xiàn)實(shí)檢查了嗎?

如何識(shí)別濫竽充數(shù)的“數(shù)據(jù)騙子”

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

數(shù)據(jù)隱私在智慧城市中的重要性

存力中心——構(gòu)建新型數(shù)據(jù)基礎(chǔ)設(shè)施，加速數(shù)據(jù)要素X行業(yè)推進(jìn)高質(zhì)量發(fā)展

實(shí)現(xiàn)數(shù)據(jù)價(jià)值：從“管”到“用”的跨越

工業(yè)大數(shù)據(jù)加速融合AI向數(shù)據(jù)智能發(fā)展

本月熱門

精選文章

熱點(diǎn)資訊

2020年全球云存儲(chǔ)行業(yè)市場(chǎng)現(xiàn)狀及發(fā)展前景分析混合云將成為云存儲(chǔ)主流模式

是時(shí)候?qū)?shù)據(jù)中心脫碳進(jìn)行現(xiàn)實(shí)檢查了嗎?

存力中心——構(gòu)建新型數(shù)據(jù)基礎(chǔ)設(shè)施，加速數(shù)據(jù)要素X行業(yè)推進(jìn)高質(zhì)量發(fā)展