中國(guó)大模型的路,是不是走歪了?

一蓑煙雨
大模型的出現(xiàn)和快速發(fā)展為AI領(lǐng)域帶來了革命性的變革。其中,大模型的核心流程可以簡(jiǎn)化為兩大環(huán)節(jié):預(yù)訓(xùn)練和微調(diào)。通過預(yù)訓(xùn)練,我們得到了所謂的“通用大模型”。進(jìn)而,基于這種通用模型,我們可以使用特定行業(yè)的數(shù)據(jù)進(jìn)行微調(diào),從而產(chǎn)生“行業(yè)大模型”。

1.png

本文來自微信公眾號(hào)“數(shù)據(jù)猿”,文:一蓑煙雨。

在這波全球大模型的浪潮中,中國(guó)與美國(guó)無疑成為了領(lǐng)軍者。但中美在大模型的發(fā)展策略上卻出現(xiàn)了顯著的分歧。美國(guó),以O(shè)penAI為代表,持續(xù)致力于通用型大模型的研發(fā)。與此相反,中國(guó)則將目光投向了行業(yè)大模型。眾所周知,國(guó)內(nèi)科技巨頭如百度、阿里、華為等,在已有的通用大模型基礎(chǔ)上,紛紛推出了為各個(gè)行業(yè)量身定做的大模型。同時(shí),眾多的創(chuàng)新公司和各行各業(yè)的頭部企業(yè)也開始涌入這個(gè)領(lǐng)域,積極地發(fā)布各類行業(yè)大模型。

然而,當(dāng)我們沉浸在這種欣欣向榮的景象中時(shí),一系列的跡象引起了筆者的關(guān)注,我們不得不思考一個(gè)問題:中國(guó)在大模型的探索之路上是否已經(jīng)偏離了正確的軌道?難道我們又要重蹈當(dāng)年SaaS市場(chǎng)的老路,走入一個(gè)看似繁榮卻可能是誤區(qū)的局面嗎?

行業(yè)大模型并不是空中樓閣

大模型的出現(xiàn)和快速發(fā)展為AI領(lǐng)域帶來了革命性的變革。其中,大模型的核心流程可以簡(jiǎn)化為兩大環(huán)節(jié):預(yù)訓(xùn)練和微調(diào)。通過預(yù)訓(xùn)練,我們得到了所謂的“通用大模型”。進(jìn)而,基于這種通用模型,我們可以使用特定行業(yè)的數(shù)據(jù)進(jìn)行微調(diào),從而產(chǎn)生“行業(yè)大模型”。

1.png

在過去的幾個(gè)月里,我們目睹了中國(guó)涌現(xiàn)出大量的行業(yè)大模型。這種現(xiàn)象背后隱含的一個(gè)事實(shí)是:打造行業(yè)大模型的技術(shù)門檻相對(duì)較低。為什么會(huì)這樣呢?首先,隨著開源技術(shù)的普及,技術(shù)上的壁壘逐漸被打破。許多優(yōu)質(zhì)的預(yù)訓(xùn)練技術(shù)、框架和工具已經(jīng)被廣大研發(fā)者和機(jī)構(gòu)所采納和使用。其次,相對(duì)于開發(fā)一個(gè)全新的大模型,微調(diào)現(xiàn)有的通用大模型更為簡(jiǎn)單快捷,只需要大量、高質(zhì)量的行業(yè)數(shù)據(jù)即可。

打造一個(gè)強(qiáng)大的通用大模型卻是一項(xiàng)長(zhǎng)期且復(fù)雜的任務(wù),這需要巨大的計(jì)算資源、多樣化的數(shù)據(jù)和深厚的技術(shù)積累。因此,相比之下,行業(yè)大模型的產(chǎn)生,就顯得更為便捷了。

但這種便捷性帶來的是雙刃劍效應(yīng)。大量涌現(xiàn)的所謂行業(yè)大模型,并不具備真正的競(jìng)爭(zhēng)壁壘。這其中的原因多種多樣。技術(shù)上,因?yàn)樗鼈兇蠖嗷谙嗨频拈_源技術(shù)和通用大模型進(jìn)行微調(diào),很少有真正的技術(shù)創(chuàng)新。數(shù)據(jù)上,盡管行業(yè)數(shù)據(jù)是關(guān)鍵,但許多企業(yè)并沒有真正挖掘、整合和利用這些數(shù)據(jù)的能力,使得其微調(diào)的效果并不理想。

底層通用大模型的每次迭代,

都將“淹沒”一大批所謂的行業(yè)大模型

當(dāng)我們談?wù)摤F(xiàn)代技術(shù)時(shí),我們必須理解其動(dòng)態(tài)性和快速發(fā)展的特性。大模型技術(shù)的快速迭代就是一個(gè)典型的例子,每次通用大模型的升級(jí)都使其前一代的技術(shù)變得陳舊。

以O(shè)penAI的GPT系列為例,從GPT到GPT-4,其發(fā)展歷程幾乎可以形容為“飛速”。而在技術(shù)世界中,速度就是競(jìng)爭(zhēng)力。每當(dāng)OpenAI發(fā)布一個(gè)新版本,它都會(huì)因?yàn)楦嗟膮?shù)、更先進(jìn)的算法和更高的性能,使前一版本相形見絀。而這種進(jìn)化不僅僅局限于通用模型,實(shí)際上,它更多地影響到了基于前一代模型微調(diào)出的行業(yè)大模型。

試想,一個(gè)企業(yè)可能已經(jīng)投入大量資源在GPT-3上,開發(fā)出一套專門為醫(yī)療領(lǐng)域設(shè)計(jì)的AI系統(tǒng)。但當(dāng)GPT-4問世時(shí),這家企業(yè)突然發(fā)現(xiàn),他們的專業(yè)系統(tǒng)在新的通用模型面前相對(duì)落后,甚至可能不如直接使用GPT-4的效果。這就是因?yàn)?,每次通用大模型的迭代都意味著一個(gè)巨大的技術(shù)飛躍,其對(duì)特定任務(wù)的處理能力會(huì)顯著增強(qiáng)。

這種現(xiàn)象與硬件行業(yè)的情況相似,我們可以把它比喻為計(jì)算機(jī)硬件的迅速更新。當(dāng)Intel推出新的處理器時(shí),前一代處理器即使還能正常運(yùn)行,但在性能和能效方面都會(huì)相對(duì)落后。而在AI領(lǐng)域,這種更新周期更短、變革更劇烈。

回到大模型,當(dāng)我們基于某一代模型投入大量資源進(jìn)行微調(diào)時(shí),我們必須認(rèn)識(shí)到這種投資的風(fēng)險(xiǎn)性。舉例來說,當(dāng)一個(gè)初創(chuàng)公司決定基于GPT-3開發(fā)一個(gè)針對(duì)金融行業(yè)的AI助手時(shí),他們可能面臨的風(fēng)險(xiǎn)是,僅僅過了幾個(gè)月,GPT-4或GPT-5的發(fā)布會(huì)使他們的產(chǎn)品立即過時(shí)。

行業(yè)大模型是商用的重要方式,

但不要忘了前提條件

誠(chéng)然,行業(yè)大模型的出現(xiàn)似乎為各個(gè)垂直領(lǐng)域帶來了巨大的機(jī)會(huì)。它們可以更好地滿足特定行業(yè)的需求,提供更加定制化的服務(wù),幫助企業(yè)提升業(yè)務(wù)效率,提供更高品質(zhì)的客戶體驗(yàn)。

然而,一切的基石依然是一個(gè)強(qiáng)大的通用大模型。只有當(dāng)通用模型具備強(qiáng)大的能力時(shí),行業(yè)大模型的微調(diào)才能真正發(fā)揮價(jià)值。

值得深思的是,中國(guó)在AI領(lǐng)域已取得了許多值得驕傲的成果,但與國(guó)際頂尖的通用大模型,如GPT-4相比,國(guó)內(nèi)仍存在一定的差距。這對(duì)于中國(guó)的技術(shù)界來說是一個(gè)挑戰(zhàn),也是一個(gè)機(jī)會(huì)。挑戰(zhàn)在于如何在短時(shí)間內(nèi)彌補(bǔ)這一差距,機(jī)會(huì)則在于一旦做到,國(guó)內(nèi)的行業(yè)大模型將能夠站在一個(gè)更高的起點(diǎn)。

而現(xiàn)在的現(xiàn)象是,部分企業(yè)在通用模型的基礎(chǔ)還不夠穩(wěn)固的前提下,急于推出一系列的行業(yè)大模型。這種策略顯然有其商業(yè)邏輯——盡早進(jìn)入市場(chǎng),嘗試盡快實(shí)現(xiàn)商業(yè)變現(xiàn)。但這種策略忽視了一個(gè)核心問題,那就是技術(shù)的根本價(jià)值。

企業(yè)應(yīng)用AI技術(shù)的根本目的是為了解決實(shí)際業(yè)務(wù)問題,提高運(yùn)營(yíng)效率和客戶滿意度。而如果一個(gè)行業(yè)大模型在語言理解、邏輯推理、數(shù)理計(jì)算或內(nèi)容生成等核心能力上都表現(xiàn)不佳,那么它所帶來的實(shí)際商業(yè)價(jià)值就會(huì)大打折扣??蛻舨粫?huì)因?yàn)橐粋€(gè)產(chǎn)品聲稱自己是某個(gè)行業(yè)的大模型就選擇購(gòu)買,他們更關(guān)心的是這個(gè)模型能為他們的業(yè)務(wù)帶來什么實(shí)際效益。

因此,對(duì)于企業(yè)和技術(shù)研發(fā)者來說,關(guān)鍵不在于急于推出各種行業(yè)大模型,而是要認(rèn)識(shí)到,強(qiáng)大的通用大模型是所有行業(yè)應(yīng)用的基石。只有在這個(gè)基石穩(wěn)固的基礎(chǔ)上,行業(yè)大模型才能真正發(fā)揮出其應(yīng)有的價(jià)值。

換言之,現(xiàn)在的首要任務(wù)是加強(qiáng)通用大模型的研發(fā),盡快追趕國(guó)際水平,然后再以此為基礎(chǔ),推出真正有價(jià)值的行業(yè)大模型。這樣的戰(zhàn)略布局,既能保障技術(shù)的長(zhǎng)遠(yuǎn)發(fā)展,也更能真正滿足市場(chǎng)和客戶的需求。

真正的創(chuàng)新,應(yīng)該始終以實(shí)際需求為導(dǎo)向,而不是盲目追求短期的商業(yè)利益。

應(yīng)該怎么做呢?

對(duì)于企業(yè)和機(jī)構(gòu)來說,僅僅擁有一個(gè)行業(yè)大模型并不足以確保其在市場(chǎng)中的競(jìng)爭(zhēng)優(yōu)勢(shì)。

那么,應(yīng)該怎么做呢?筆者認(rèn)為,應(yīng)該在通用大模型和行業(yè)大模型上同時(shí)發(fā)力。

首先,通用大模型還需要盡快進(jìn)化。無論是文心一格、通義千問還是盤古、混元大模型,都需要進(jìn)化。

一方面參數(shù)規(guī)模還需要持續(xù)擴(kuò)大,得有萬億級(jí)參數(shù)規(guī)模的大模型。從技術(shù)原理上,擴(kuò)大參數(shù)規(guī)模,是提升模型智能涌現(xiàn)的重要方式,這是大模型智能提升的“物理基礎(chǔ)”。就像人類為什么比其他動(dòng)物聰明,人類大腦的神經(jīng)元數(shù)量要顯著多于其他動(dòng)物,就是一個(gè)關(guān)鍵的基礎(chǔ)。

1.png

另一方面,在大模型構(gòu)建、優(yōu)化的工程能力方面,還需要進(jìn)一步提升。大家都是基于Transformer架構(gòu),技術(shù)原理并不是什么秘密,但為什么ChatGPT就是比其他大模型表現(xiàn)得更好?關(guān)鍵就是其AI工程化能力更優(yōu)。就像造原子彈的技術(shù)原理并不是什么秘密,但要造出原子彈,卻有大量的技術(shù)秘訣和經(jīng)驗(yàn),是一個(gè)浩大的工程。

只有底層通用大模型足夠好,在此基礎(chǔ)上構(gòu)建行業(yè)大模型才有意義。

接下來,在構(gòu)建行業(yè)大模型階段,要在兩方面發(fā)力:

一方面,要匯集足夠規(guī)模的高質(zhì)量行業(yè)數(shù)據(jù)?,F(xiàn)在的情況是,各行各業(yè)的數(shù)據(jù)資源都非常有限,并且散落在不同的公司和機(jī)構(gòu)中。這種分散性不僅導(dǎo)致了數(shù)據(jù)的量不足,更關(guān)鍵的是,沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量控制,使得模型訓(xùn)練效果大打折扣。為了解決這一問題,我們需要促進(jìn)企業(yè)和機(jī)構(gòu)之間的合作,推動(dòng)行業(yè)數(shù)據(jù)的開放和共享。

比如醫(yī)療大模型,關(guān)鍵就是要有足夠的醫(yī)療數(shù)據(jù)。這需要通過醫(yī)療數(shù)據(jù)的開放共享來構(gòu)建行業(yè)數(shù)據(jù)集實(shí)現(xiàn),某個(gè)企業(yè)、機(jī)構(gòu)的數(shù)據(jù)量始終是有限的。現(xiàn)在限制行業(yè)大模型的一個(gè)關(guān)鍵瓶頸,就是沒有足夠的高質(zhì)量行業(yè)數(shù)據(jù),行業(yè)數(shù)據(jù)太分散了,而且質(zhì)量不夠高。要著力解決這個(gè)問題。

另一方面,要將行業(yè)知識(shí)固化到行業(yè)大模型當(dāng)中,這需要一些專業(yè)人士與AI人才配合,進(jìn)行大量的模型調(diào)優(yōu)工作。無論是通用大模型還是行業(yè)大模型,其背后的初衷都應(yīng)該是為用戶和客戶提供真正的價(jià)值??蛻粜枰牟粌H僅是技術(shù)上的新鮮感,更重要的是在真實(shí)的業(yè)務(wù)場(chǎng)景中,模型能夠?yàn)樗麄儙韺?shí)際的幫助和效益。

無論我們?cè)诩夹g(shù)上如何進(jìn)步,始終不能忘記為什么我們要做這一切。

文:一蓑煙雨/數(shù)據(jù)猿

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論