亚洲男人的天堂在线va,国产亚洲日韩网暴欧美台湾

人工智能是大數(shù)據(jù)天體物理時代的萬能鑰匙嗎？

2021-03-11 09:29

賽先生

李楠

大數(shù)據(jù)天體物理時代，機器學習能有效地幫助天文學家完成了海量數(shù)據(jù)的挖掘工作。但機器學習并不是萬能的鑰匙，不能盲目地應用機器學習去解決所有天文學問題，尤其是在問題范圍不明確、數(shù)據(jù)體量不足以及數(shù)據(jù)質(zhì)量不高的情況下。

我曾經(jīng)寫過一篇文章《和Wall-E一起仰望星空》，里面介紹了機器學習在大數(shù)據(jù)天體物理時代的應用，其高效性、自動化、準確性都給人們留下了深刻的印象。

看上去，人工智能也許能夠幫助天文學家有效地解決大數(shù)據(jù)天體物理時代所面臨的難題。然而，人工智能真的是萬能的么？本文將從目前機器學習的局限性探討一下機器學習在天體物理中的應用范圍。

1、剛需：大數(shù)據(jù)天體物理時代到來

隨著觀測技術(shù)的發(fā)展，天文數(shù)據(jù)呈指數(shù)型增長。例如，著名的斯隆巡天（The Sloan Digital Sky Survey）[1]開始于2000年，觀測到了約300萬個天體，數(shù)據(jù)量大約是40TB。而目前正在運行的暗能量巡天（The Dark Energy Survey）[2]的數(shù)據(jù)量至少是斯隆巡天的100倍。未來歐洲的歐幾里得巡天（Euclid）[3]以及美國的大視場時空巡天（LSST）[4]則會把數(shù)據(jù)量推到驚人的50PB和200PB（1PB=1024TB）。

僅僅是可觀測星系一種天體的樣本數(shù)目，就將達到數(shù)十億。因此，以往傳統(tǒng)編程加人工處理方式的效率已經(jīng)不足以應付這樣龐大的數(shù)據(jù)量了。例如，把上百億的星系按照哈勃星系圖表（圖1）分類的工作量就多到讓人望而卻步，這還僅僅是天體物理學研究的基本操作。

也就是說，高效的自動化數(shù)據(jù)處理將成為剛需。幸好人工智能技術(shù)在過去的十幾年里有了突飛猛進的發(fā)展，比如圖樣識別技術(shù)已經(jīng)可以快速地把互聯(lián)網(wǎng)上的圖片進行分類。天文學家們受此啟發(fā)，開始把人工智能領(lǐng)域里的相關(guān)技術(shù)應用到天文數(shù)據(jù)的自動化處理中。

圖1.哈勃星系分類圖表，最左側(cè)分支（E）是橢圓星系，由左到右橢率逐漸增大。S0代表橢圓星系和漩渦星系的臨界點。Sa,b,c分支代表常規(guī)漩渦星系，由a到b星系的光度中漩臂占的比重越來越大。SB分支代表具有棒結(jié)構(gòu)的漩渦星系，由a到b的排序不只考慮了光度比還考慮的懸臂的開放程度。圖片來源：https://en.wikipedia.org/wiki/Hubble_sequence

2、應用：分類、回歸與生成

著名科學家赫伯特·西蒙（Herbert Simon，1975年圖靈獎和1978年諾貝爾經(jīng)濟學獎得主）給機器學習下過定義——“機器學習是計算機程序通過攝取數(shù)據(jù)來自行改進性能的過程”。機器學習和傳統(tǒng)程序根本的不同就是編程邏輯：機器學習的理念是歸納法，而傳統(tǒng)編程更傾向于演繹法。

例如，如果想用傳統(tǒng)編程方法對星系的形狀分類，我們需先測量星系的形狀參數(shù)，然后設(shè)定閾值，再根據(jù)形狀參數(shù)和閾值的關(guān)系對星系分類；而機器學習的邏輯則是：先建立一個普適的模型，不提供特定參數(shù)或閾值，只輸入星系圖像和歸類標簽，這個模型就會根據(jù)輸入的數(shù)據(jù)自我調(diào)整，從而演化成一個可用于星系形狀分類的分類器。圖2展示了傳統(tǒng)程序和機器學習程序工作流程的差異。

圖2.傳統(tǒng)編程和機器學習編程邏輯的差異。圖片來源：https://www.futurice.com/blog/differences-between-machine-learning-and-software-engineering/

眼下，天文學家主要應用機器學習解決分類、回歸、生成等分體，成功案例包括星系形狀分類和指定天體辨識（圖3）、天體物理現(xiàn)象的快速自動化建模（圖5）以及仿真圖像的生成（圖6）。綜合來看機器學習在解決天體物理學問題上具有以下優(yōu)點：1）覆蓋范圍廣，普適性好；2）數(shù)據(jù)驅(qū)動，上限明顯高于傳統(tǒng)方法；3）開發(fā)難度越來越低，移植性好。這些優(yōu)點使得機器學習的方法在天體物理尤其是大數(shù)據(jù)時代的天體物理中越來越流行，幾乎在各個天體物理學領(lǐng)域甚至各個科學領(lǐng)域都能看到其身影。

圖3.應用監(jiān)督學習和非監(jiān)督學習進行星系形狀分類的范例。上圖為監(jiān)督學習分類結(jié)果的范例[5]，下圖為非監(jiān)督學習星系分類結(jié)果的范例[6]。兩個方法都能比較好地根據(jù)形狀對星系進行分類了，如果有興趣了解更多細節(jié)，請訪問圖片來源鏈接里的論文（文末參考文獻，下同）。

圖4.應用機器學習解決“回歸問題”的實例。左圖為宇宙中的投影物質(zhì)分布示意圖，右圖為機器學習的方法根據(jù)宇宙中的投影物質(zhì)分布預言的宇宙學參數(shù)[7]。這個應用的基本思想是通過機器學習的算法建立起左圖和由圖中宇宙學參數(shù)的對應關(guān)系，這樣在將來有新的物質(zhì)分布的數(shù)據(jù)的時候，只要輸入訓練好的模型中，就可以快速地返回對應的宇宙學參數(shù)了。

圖5.機器學習算法生成的仿真星系圖像與真實圖像的對比[8]。左圖為機器學習生成的無噪音漩渦星系，中圖為添加噪音之后的仿真圖像，右圖為哈勃望遠鏡所觀測到的圖像。生成盡可能真實的數(shù)值模擬的圖像有助于天文學家測試和校正數(shù)據(jù)處理軟件和科學建模軟件。

3、短板：門檻、數(shù)據(jù)與黑盒子

然而，機器學習并非無所不能。首先其超高的計算量和特別的硬件需求使其入門門檻要高于傳統(tǒng)方法。另外，模型設(shè)計非常復雜，要投入大量的人力、物力和時間來開發(fā)新算法及模型，大部分人只能使用現(xiàn)有的模型。而且，機器學習是一個隨機的過程，結(jié)果的統(tǒng)計性是自洽的，但無法在個體結(jié)果上實現(xiàn)多次完美重現(xiàn)。

例如，應用機器學習實現(xiàn)分類操作時，小部分目標天體每次的分類結(jié)果都會不一樣；應用機器學習實現(xiàn)回歸計算時，每次預言的參數(shù)也都不是可重復的固定值，盡管不確定性很小。因此，應用機器學習研究天體物理學問題時，有明確一對一關(guān)系的物理過程（如星系動力學仿真和引力透鏡光線追蹤仿真等）依然需要傳統(tǒng)方法來實現(xiàn)。

其次，機器學習是數(shù)據(jù)驅(qū)動的，所以缺少數(shù)據(jù)的科學問題要謹慎采用此方法，尤其是數(shù)據(jù)在參數(shù)空間的覆蓋范圍不夠完備的時候，機器學習將給出有偏差的結(jié)果。當然，可以使用數(shù)值模擬的方式來改進數(shù)據(jù)的完備性和多樣性，但這又導致機器學習給出的結(jié)果強烈依賴仿真數(shù)據(jù)的生成模型，因此應用機器學習解決此類問題的時候，需要盡可能詳盡地設(shè)計仿真過程從而創(chuàng)建合理的訓練樣本。

另一方面，在數(shù)據(jù)體量滿足條件的時候，缺少優(yōu)質(zhì)數(shù)據(jù)的科學問題也不太適合采用機器學習來解決，因為大量的劣質(zhì)數(shù)據(jù)會導致機器學習模型對噪音（非真實優(yōu)質(zhì)的數(shù)據(jù)）做出響應，從而給出可信度很高的錯誤結(jié)果。解決此類問題時，對數(shù)據(jù)謹慎地預篩選和后篩選是必要的，以盡量避免“錯進錯出（Garbage in,Garbage out）”現(xiàn)象。

最后，也是最重要的：機器學習算法的不可解釋性是被人詬病最多的短板，因此機器學習一直被比喻成黑盒，形象的地描述了機器學習算法對相關(guān)性敏感，但極其欠缺因果性的解釋。

目前為止，機器學習，尤其是深度學習的唯一真正成功之處是在給定大量人類注釋數(shù)據(jù)的情況下，能夠使用連續(xù)的幾何變換將空間X映射到空間Y，然而至于為什要從X映射到Y(jié)還需要科學家自己把控。此外，從X映射到Y(jié)的具體細節(jié)也需要更深入的研究。

相關(guān)研究[9]已經(jīng)嘗試用谷歌的Deep-Dream[10]工具包研究星系團質(zhì)量重構(gòu)過程中對特定數(shù)據(jù)點的敏感性（圖6），微軟的InterpretML[11]工具包則專注于神經(jīng)網(wǎng)絡(luò)模型中各部分的邏輯關(guān)系和數(shù)據(jù)流向（圖7），這兩個嘗試可以被看成“向黑盒子照入光”，幫助人們更好地理解其工作原理，當然結(jié)果仍很初步，離完全理解“黑盒子”還有很長的路要走。希望隨著對機器學習工作邏輯研究的深入，人類能最終打開黑盒，讓機器學習幫助科學家更好地探索宇宙。

圖6.應用深度學習算法基于星系團的光度信息重構(gòu)星系團的總質(zhì)量分布的過程中，星系團光度場中數(shù)據(jù)點對重構(gòu)結(jié)果貢獻的權(quán)重示意圖。左側(cè)為星系團的廣度分布（恒星粒子分布）[9]，其中黑圈圈出星系團的中心星系的位置，紅圈圈出星系團的成員星系；右側(cè)為Deep-Dream[10]處理后的結(jié)果，黃色的區(qū)域代表對結(jié)果貢獻比較大的數(shù)據(jù)點。

圖7.機器學習模型解釋軟件InterpretML簡介[11]。

總結(jié)：有效、有選擇、有未來

另外，不可解釋性是機器學習方法目前最大的短板，因此根據(jù)機器學習的結(jié)果下因果性結(jié)論的時候要尤為謹慎。已經(jīng)有一些先驅(qū)性工作嘗試解釋機器學習結(jié)果與數(shù)據(jù)的因果關(guān)系以及機器學習模型內(nèi)部的邏輯關(guān)系，希望隨著此類研究的深入，人類能最終打開黑盒，讓機器學習也能從事推理和抽象相關(guān)的科研工作。

不過話說回來，真到那個時候，天文學家又將扮演何種角色呢？會不會成為失業(yè)的人群？歡迎留下你的看法。圖片

參考文獻：

[1]https://www.sdss.org/

[2]https://www.darkenergysurvey.org/

[3]https://www.euclid-ec.org/

[4]https://www.lsst.org/

[5]Dieleman,S.et al.,Rotation-invariant Convolutional Neural Networks for Galaxy Morphology Prediction,2015,MNRAS,Vol.450,Issue 2,p.1141-1459

[6]Hocking,A.et al.,An automatic taxonomy of Galaxy Morphology Using Unsupervised Machine Learning,2018,MNRAS,Vol.473,Issue 1,p.1108-1129

[7]Fluri,J.et al.,Cosmological Constraints from Noisy Convergence Maps through Deep Learning,2018,Physical Review D,Vol.98,Issue 12,id.123518

[8]Ravanbakhsh,S.et al.,Enabling Dark Energy Science with Deep Generative Models of Galaxy Images,2017,AAAI-2017,Proceedings,id.14765

[9]Yan,Z.et al,Galaxy Cluster Mass Estimation with Deep Learning and Hydrodynamical Simulations,2020,MNRAS,Vol.499,Issue 3,pp.3445-3458

[10]https://github.com/google/deepdream

[11]https://github.com/interpretml/interpret

作者簡介

李楠

2013年在中國科學院大學年獲得天體物理學博士，現(xiàn)中國科學院國家天文臺副研究員，主要研究興趣為機器學習在天體物理中的應用、應用引力透鏡效應研究星系宇宙學問題。

THEEND

免責聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

10月8日
防勒索病毒攻擊關(guān)鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

10月8日
網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領(lǐng)，引領(lǐng)智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

新冠肺炎時代零售業(yè)正面臨兩大問題：物聯(lián)網(wǎng)能同時解決這兩大問題嗎？

人工智能是大數(shù)據(jù)天體物理時代的萬能鑰匙嗎？

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

人工智能是大數(shù)據(jù)天體物理時代的萬能鑰匙嗎？

最新評論（評論僅代表用戶觀點）

信創(chuàng)環(huán)境下，存儲&數(shù)據(jù)保護技術(shù)已經(jīng)達到什么水平？未來將如何發(fā)展？

中國信通院發(fā)布《大數(shù)據(jù)白皮書（2022年）》

探索大數(shù)據(jù)在可持續(xù)發(fā)展中的潛力

國家數(shù)據(jù)局正式揭牌：數(shù)據(jù)要素被提高到前所未有的高度

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領(lǐng)，引領(lǐng)智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

節(jié)省75%人工處理，行業(yè)龍頭日豐集團如何落地精益化生產(chǎn)？

支持國密算法的TurboEx郵件數(shù)據(jù)安全解決方案

解碼可持續(xù)發(fā)展|12月26日—28日開啟第十七屆中國IDC產(chǎn)業(yè)年度大典

騰訊安全肖煜：安全運營體系護航企業(yè)數(shù)字化轉(zhuǎn)型

二十余年變革與迭代華磊迅拓MES“進化論”

美云智數(shù)李俊嶺：制造業(yè)實現(xiàn)彎道超車供應鏈轉(zhuǎn)型需關(guān)鍵利器

熱點資訊

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應用論壇，榮獲“數(shù)智融合標桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

新冠肺炎時代零售業(yè)正面臨兩大問題：物聯(lián)網(wǎng)能同時解決這兩大問題嗎？

河南移動楊劍宇：強化自主創(chuàng)新，加快新計算產(chǎn)業(yè)體系建設(shè)

人工智能是大數(shù)據(jù)天體物理時代的萬能鑰匙嗎？

最新評論（評論僅代表用戶觀點）

欄目推薦

信創(chuàng)環(huán)境下，存儲&數(shù)據(jù)保護技術(shù)已經(jīng)達到什么水平？未來將如何發(fā)展？

中國信通院發(fā)布《大數(shù)據(jù)白皮書（2022年）》

探索大數(shù)據(jù)在可持續(xù)發(fā)展中的潛力

國家數(shù)據(jù)局正式揭牌：數(shù)據(jù)要素被提高到前所未有的高度

本月熱門

精選文章

熱點資訊

新冠肺炎時代零售業(yè)正面臨兩大問題：物聯(lián)網(wǎng)能同時解決這兩大問題嗎？

河南移動楊劍宇：強化自主創(chuàng)新，加快新計算產(chǎn)業(yè)體系建設(shè)

人工智能是大數(shù)據(jù)天體物理時代的萬能鑰匙嗎？

信創(chuàng)環(huán)境下，存儲&數(shù)據(jù)保護技術(shù)已經(jīng)達到什么水平？未來將如何發(fā)展？

新冠肺炎時代零售業(yè)正面臨兩大問題：物聯(lián)網(wǎng)能同時解決這兩大問題嗎？

河南移動楊劍宇：強化自主創(chuàng)新，加快新計算產(chǎn)業(yè)體系建設(shè)