国产亚洲欧洲AⅤ综合一区,国产一线天在线观

如果人工智能的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類

2021-03-12 10:50

阿朱說

呂建偉

人工智能的范疇就被定義了下來。所以現(xiàn)在人工智能領(lǐng)域包括商務(wù)機(jī)器人、家庭機(jī)器人、工業(yè)機(jī)器人、高溫高寒高救援危機(jī)器狗、無人機(jī)、無人車和智能新能源汽車，我也能理解。如果說人工智能市場(chǎng)容量幾十萬億，那我也只能說是。

（1）人工智能適合什么人搞

上學(xué)時(shí)上計(jì)算機(jī)系，是過去數(shù)學(xué)系和自動(dòng)化系合并成的。學(xué)了一堆不扎實(shí)的數(shù)學(xué)：微積分、線性代數(shù)、概率論、數(shù)理統(tǒng)計(jì)、復(fù)變函數(shù)、離散數(shù)學(xué)等等。也學(xué)了一堆不扎實(shí)的計(jì)算機(jī)：計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、數(shù)據(jù)庫、專家系統(tǒng)等等

現(xiàn)在研究人工智能，最后想想，拼的還是基礎(chǔ)數(shù)學(xué)。

（2）人工智能在70年前就開啟了

這人工智能在1955年夏天被麥卡錫定義下來，已經(jīng)快70年了。

一開始干的就是明確規(guī)則的活兒，如定理證明，如下棋。想想90年代人工智能第二次熱潮，IBM的深藍(lán)不就是下象棋么？想想現(xiàn)在第三次人工智能熱潮，不就是2015年DeepMind的AlphaGo下圍棋么？都是明確規(guī)則的活兒。

想想這人工智能一開始發(fā)展就是想搞機(jī)器人。能視覺識(shí)別、能語音識(shí)別、能語義合成講話、能智能問答和會(huì)話交流、能外國(guó)人之間機(jī)器自動(dòng)翻譯來交流。1960年出現(xiàn)的Eliza閑聊機(jī)器人、1972年出現(xiàn)的Parry醫(yī)療問答機(jī)器人就是這樣。所以現(xiàn)在NLP領(lǐng)域的問答與會(huì)話任務(wù)，就分為：?jiǎn)柎?、任?wù)、閑聊。2014年出來的蘋果Siri和微軟小冰，這三種都在搞，什么能力，現(xiàn)在大家也都明擺著，就這個(gè)水平，這是世界最高工程實(shí)用水平了。這就是發(fā)展了70年了的水平。

所以從一開始，人工智能的范疇就被定義了下來。所以現(xiàn)在人工智能領(lǐng)域包括商務(wù)機(jī)器人、家庭機(jī)器人、工業(yè)機(jī)器人、高溫高寒高救援危機(jī)器狗、無人機(jī)、無人車和智能新能源汽車，我也能理解。如果說人工智能市場(chǎng)容量幾十萬億，那我也只能說是。

（3）第三次人工智能興起：哲學(xué)博士的誤打誤撞：反向傳播

這第三次人工智能熱潮興起，主要是深度學(xué)習(xí)引爆。

深度學(xué)習(xí)的基礎(chǔ)，在1957年就產(chǎn)生了，是羅森布拉特做的神經(jīng)網(wǎng)絡(luò)模型。但是他被人工智能的奠基人明斯基批的一無是處，于是深度學(xué)習(xí)這個(gè)支脈一直少有人搞，即使有人搞也比較邊緣，不能在學(xué)術(shù)圈子主流發(fā)聲。

還是外行人瞎蒙瞎闖才使深度學(xué)習(xí)有了突破。Hinton在英國(guó)劍橋大學(xué)獲得的是文學(xué)學(xué)士學(xué)位，主修實(shí)驗(yàn)心理學(xué)，然后又在愛丁堡大學(xué)獲得的是哲學(xué)博士學(xué)位。也許他一直在思考人腦和神經(jīng)網(wǎng)絡(luò)在長(zhǎng)相上相似。他誤打誤撞發(fā)明了最有效的反向傳播算法（1986年發(fā)明），后來應(yīng)用到神經(jīng)網(wǎng)絡(luò)上起到了意想不到的效果，這才引起人工智能學(xué)術(shù)界的主流注意。

Hinton寫了一本書《深度學(xué)習(xí)》，是現(xiàn)在第三次人工智能熱潮中人人捧讀的必讀書籍。

（4）人工智能有用嗎？

深度學(xué)習(xí)的原理也很簡(jiǎn)單。打個(gè)比方：你把十萬張照片里的貓都圈出來，并且都注明是Cat，然后開始訓(xùn)練計(jì)算機(jī)。訓(xùn)練好后，你再找十萬張帶貓的照片，你不用事前把這后來的十萬張照片里的貓圈出來，但計(jì)算機(jī)就能找到這后來十萬張照片里的貓。這個(gè)照片里找貓的實(shí)驗(yàn)就是吳恩達(dá)做的。

所以你要應(yīng)用深度學(xué)習(xí)，你首先要有海量數(shù)據(jù)，其次還還需要有海量的人把這些海量數(shù)據(jù)圈出來，最后再用海量的算力計(jì)算機(jī)把它訓(xùn)練出來。

所以海量的帶人工標(biāo)注的數(shù)據(jù)、算力，是核心。

你看GTP-3，這就是工程界的暴力美學(xué)：有1.7萬億個(gè)參數(shù)，訓(xùn)練需要上千萬美金。

現(xiàn)在中國(guó)各行各業(yè)都流行人工智能，但我想說，海量數(shù)據(jù)在哪里？海量人工在哪里？海量算力在哪里？把模型應(yīng)用到業(yè)務(wù)場(chǎng)景中每天不斷運(yùn)營(yíng)觀察不斷訓(xùn)練不斷微調(diào)的算法工程師團(tuán)隊(duì)在哪里？這ROI太不劃算了。

而經(jīng)典的人工智能呢？就是90年代以統(tǒng)計(jì)方法為主的第二次人工智能熱潮呢？本質(zhì)上就是專家來加工好規(guī)則、專家加工好語料，根據(jù)概率和統(tǒng)計(jì)計(jì)算，才能做到概率性大的答案填空題和選擇題。但這有用嗎？沒用。

自然語言處理，我圍繞智能多輪問答與會(huì)話，又是搞語音識(shí)別語音轉(zhuǎn)文本和語音合成，又是機(jī)器閱讀理解、意圖識(shí)別、情感分析，又是搞搜索、推薦、表格問答、Wiki問答，又是搞任務(wù)執(zhí)行，又是搞文本自動(dòng)摘要與文本自動(dòng)生成，力求不搞預(yù)設(shè)的填空題和選擇題。這還又是添油加醋用知識(shí)圖譜、圖神經(jīng)網(wǎng)絡(luò)、知識(shí)推理增強(qiáng)。

計(jì)算機(jī)視覺，我還不敢搞人臉、人體、商品識(shí)別，這都是四小龍的菜。我就聚焦搞OCR。但OCR領(lǐng)域還是太大，有證照識(shí)別、票據(jù)識(shí)別、文檔圖像識(shí)別、自然場(chǎng)景識(shí)別、手寫識(shí)別。我只能再聚焦文檔圖像識(shí)別。文檔圖像識(shí)別里包含四大要素：印刷文字識(shí)別、表格識(shí)別、公章識(shí)別、公式識(shí)別。真是聚焦聚焦再聚焦。

（5）上半場(chǎng)的終結(jié)，分類：多模態(tài)、多領(lǐng)域、多場(chǎng)景、多語言

第三次人工智能熱潮有幾個(gè)里程碑的算法和方法。

計(jì)算機(jī)視覺領(lǐng)域：2014年的GAN（生成式對(duì)抗網(wǎng)絡(luò)）、2015年的ResNet（殘差網(wǎng)絡(luò)）

自然語言處理領(lǐng)域：2017年的Transformer方法，以及2018年從Transformer衍生出來的BERT。

這三個(gè)東西，經(jīng)過這五六年的發(fā)展，每個(gè)東西都演變出20來個(gè)變形。但是在實(shí)際工程中使用發(fā)現(xiàn)，那些在學(xué)術(shù)實(shí)驗(yàn)室中經(jīng)過精心微調(diào)刷高分的變形算法，還是不如經(jīng)典算法又簡(jiǎn)單又效果好。

而且自從到了2020年，連在學(xué)術(shù)實(shí)驗(yàn)室里刷高分都難了，各種招兒都用了，都很難再提升1分了。不外乎在測(cè)評(píng)數(shù)據(jù)集、測(cè)評(píng)方法、損失函數(shù)搞搞，在網(wǎng)絡(luò)結(jié)構(gòu)上組合組合、又加了多少層。

所以學(xué)術(shù)界的人這幾年又紛紛回歸到高校，工程界只能剩下暴力美學(xué)，搞大數(shù)據(jù)、大模型、開發(fā)乘手的開源框架和平臺(tái)工具。GTP-3、Tensorflow、AutoML平臺(tái)（含動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)），都是這個(gè)背景下的產(chǎn)物。

現(xiàn)在學(xué)術(shù)界不好刷分了，那在干嘛？只好多模態(tài)交叉融合（視覺、語音、NLP大融合）、算法遷移融合（GAN、Resnet、BERT在視覺、語音、NLP各個(gè)領(lǐng)域都用）、多業(yè)務(wù)應(yīng)用場(chǎng)景融合（比如融合到搜索推薦領(lǐng)域，融合到醫(yī)學(xué)、金融行業(yè)），各種的聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)、對(duì)比學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。我相信，2021年學(xué)術(shù)界還是在滿天飛這些Paper。

2021年，我也相信工程界還是暴力美學(xué)。而中國(guó)呢，我個(gè)人挺樂觀，肯定是工程界的大豐收，因?yàn)槲乙姷讲簧賵F(tuán)隊(duì)都計(jì)劃在2021年發(fā)布中文大模型、中文大數(shù)據(jù)、中文開源框架工具。過往那些年，英文論文思想挺好、英文算法模型挺好，但就是很難給中國(guó)人用上，看了也只能白看，回到現(xiàn)實(shí)中還是只能用老方法。但2021年后，這個(gè)局面會(huì)大大改觀一下。

（6）下半場(chǎng)開啟，聚類：少數(shù)據(jù)、少標(biāo)注、少樣本

唉，搞來搞去，脫離不了本質(zhì)的經(jīng)典的貝葉斯分類算法、LSTM（1997年）、隱馬爾可夫（1962年）。還是貝葉斯大神（1761年去世）和馬爾可夫大神（1922年去世）好啊。

現(xiàn)在學(xué)術(shù)界在工程界的暴力美學(xué)的轟炸下一點(diǎn)脾氣都沒有，誰讓自己缺數(shù)據(jù)、缺人工標(biāo)注、缺大算力燒錢呢？所以學(xué)術(shù)界開始在另一條路上探索，那就是：少數(shù)據(jù)、少標(biāo)注、少樣本。

而工程界關(guān)注的卻是如何把大模型裝到小性能的智能手機(jī)上。于是人們一頓的模型壓縮、蒸餾、剪枝等等，就是想如何簡(jiǎn)化模型但又不影響模型的效果。

這樣搞搞搞，就逐步走上了：少數(shù)據(jù)、少標(biāo)注、少樣本。來吧來吧，各種半監(jiān)督、自監(jiān)督、弱監(jiān)督、無監(jiān)督，也都朝我來吧。

其實(shí)少數(shù)據(jù)、少標(biāo)注、少樣本也不神秘，大家用的方法歸根到底到數(shù)學(xué)原理其實(shí)也就是經(jīng)典的各種聚類算法。

如果說第三次人工智能熱潮的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類。當(dāng)然，你也別期望聚類就能讓人工智能真的成為你想的那種人工智能。做夢(mèng)。還不如1930年就流行的運(yùn)籌學(xué)實(shí)用。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

唯快不破時(shí)代，企業(yè)如何落地實(shí)時(shí)數(shù)據(jù)分析？

如果人工智能的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

如果人工智能的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

到2028年，人工智能即服務(wù)市場(chǎng)規(guī)模將達(dá)到480億美元

如何確保人工智能服務(wù)于人類？

人工智能如何幫助制造業(yè)?

金融行業(yè)滿足《數(shù)據(jù)安全法》監(jiān)管要求的建議與應(yīng)對(duì)機(jī)制

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

北京市大數(shù)據(jù)中心副主任唐建國(guó)：搶抓機(jī)遇爭(zhēng)做全球數(shù)字經(jīng)濟(jì)標(biāo)桿

5.9萬億市場(chǎng)的行業(yè)引領(lǐng)者，政采云品牌升級(jí)的背后深意

2024第七屆信息技術(shù)應(yīng)用創(chuàng)新大會(huì)即將召開

還在擔(dān)心驗(yàn)證碼錯(cuò)誤？新的算法將更容易識(shí)別文本驗(yàn)證碼

探尋反脆弱增長(zhǎng)之道，洞見2023中國(guó)企業(yè)服務(wù)年會(huì)即將啟幕

新一代醫(yī)院數(shù)據(jù)中心建設(shè)-貴州省骨科醫(yī)院

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

唯快不破時(shí)代，企業(yè)如何落地實(shí)時(shí)數(shù)據(jù)分析？

運(yùn)維真的被云革命掉了嗎？

如果人工智能的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

到2028年，人工智能即服務(wù)市場(chǎng)規(guī)模將達(dá)到480億美元

如何確保人工智能服務(wù)于人類？

人工智能如何幫助制造業(yè)?

金融行業(yè)滿足《數(shù)據(jù)安全法》監(jiān)管要求的建議與應(yīng)對(duì)機(jī)制

本月熱門

精選文章

熱點(diǎn)資訊

唯快不破時(shí)代，企業(yè)如何落地實(shí)時(shí)數(shù)據(jù)分析？

運(yùn)維真的被云革命掉了嗎？

如果人工智能的上半場(chǎng)是分類，那么下半場(chǎng)就是聚類

到2028年，人工智能即服務(wù)市場(chǎng)規(guī)模將達(dá)到480億美元

如何確保人工智能服務(wù)于人類？

唯快不破時(shí)代，企業(yè)如何落地實(shí)時(shí)數(shù)據(jù)分析？