人人都去研究大模型而不關(guān)注自身的業(yè)務(wù)和數(shù)據(jù),這很危險(xiǎn)!

可以肯定的是,未來能把領(lǐng)域大模型搞成功的,一定是那些拿到了高質(zhì)量的領(lǐng)域數(shù)據(jù),找到了最剛需業(yè)務(wù)場景的企業(yè),領(lǐng)域大模型如果做得多了,就可以抽象成行業(yè)大模型,從而找到對外商業(yè)化的機(jī)會。

本文來自與數(shù)據(jù)同行微信公眾號,作者/ 傅一平。

自2022年11月ChatGPT發(fā)布以來,國內(nèi)大模型如雨后春筍般,層出不窮。據(jù)統(tǒng)計(jì),截止至2023年5月,國內(nèi)至少有55個(gè)類GPT大模型已經(jīng)推出或馬上面世?;ヂ?lián)網(wǎng)/云服務(wù)大廠、AI企業(yè)、傳統(tǒng)行業(yè)公司、大數(shù)據(jù)公司以及算法公司幾乎全部入局。應(yīng)該來講,探索一下大模型本身也沒什么問題,沒搞過就不知道大模型有多強(qiáng)大,但大模型的賽道并不適合大多數(shù)企業(yè)。

事實(shí)上,未來大模型的賽道將轉(zhuǎn)向領(lǐng)域大模型,企業(yè)更應(yīng)關(guān)注的是:如何站在通用大模型的肩膀上,基于自身的業(yè)務(wù)和數(shù)據(jù)打造出獨(dú)特的領(lǐng)域大模型,從而獲得差異化競爭力。

640 (1).png

一、通用大模型門檻很高

“今天的初創(chuàng)公司,很多叫做大模型的,包括創(chuàng)業(yè)者,也包括互聯(lián)網(wǎng)大廠我們都不投。”某基金董事長表示只會投有數(shù)據(jù)的具體應(yīng)用,但不投大模型。

“歷史上創(chuàng)業(yè)公司能夠成功很大的原因是你‘為別人所不敢為’,或者做別人認(rèn)為不會起來、不太看得重的東西,這一類的創(chuàng)業(yè)模式我們稱之為‘桃花源式的創(chuàng)業(yè)’。而大模型需要一些必須成功的要素,要有算力,要有錢;在中國,還必須要有政府支持。”某資本創(chuàng)始合伙人也并不看好。

可以看到,大模型的應(yīng)用前景雖然非常廣闊,但并不是所有企業(yè)和創(chuàng)業(yè)者都可以在這個(gè)領(lǐng)域取得成功,究其原因,從大模型的特點(diǎn)就可以看出來:

首先,大模型需要消耗大量的計(jì)算資源進(jìn)行訓(xùn)練和優(yōu)化,需要有足夠的資金來支持,這對于任何一家企業(yè)都是巨大的挑戰(zhàn)。

其次,大模型的開發(fā)和應(yīng)用需要有一個(gè)相對穩(wěn)定且強(qiáng)大的技術(shù)團(tuán)隊(duì)和管理團(tuán)隊(duì),需要大把很貴且很有經(jīng)驗(yàn)的人長期來進(jìn)行調(diào)參和優(yōu)化。一般的企業(yè)其組織和管理經(jīng)驗(yàn)往往不是很足,很難長期順利運(yùn)行下去這樣的項(xiàng)目。

再次,由于大模型的應(yīng)用場景非常廣泛,因此其需要有豐富的數(shù)據(jù)和場景來進(jìn)行不斷滋養(yǎng),如果一個(gè)公司沒什么用戶基礎(chǔ)和數(shù)據(jù)基礎(chǔ),很難訓(xùn)練得出來。

最后,雖然市面上大模型產(chǎn)品眾多,但真正有能力做通用大模型的還是互聯(lián)網(wǎng)大廠,根本原因是技術(shù)實(shí)力的不均衡。

與商業(yè)模式打法不同,大模型跑出來只能靠硬科技,大廠在大模型方面擁有先發(fā)優(yōu)勢,這種先發(fā)優(yōu)勢建立,會帶動整體數(shù)據(jù)、算力以及商業(yè)“飛輪”,不斷加固護(hù)城河,比如OpenAI就具有先發(fā)優(yōu)勢,國內(nèi)要追趕上GPT3.5都還需時(shí)日。

二、領(lǐng)域大模型是成功關(guān)鍵

一位互聯(lián)網(wǎng)人士分享了一個(gè)小故事——幾天前,他曾遇見一幫創(chuàng)業(yè)青年,在交流的過程中,對方告訴他,他們搜集了一大堆修車相關(guān)的案例和知識,想問問他能不能提供通用大模型的能力基礎(chǔ),來幫助他們?nèi)ビ?xùn)練一個(gè)修車行業(yè)的大模型出來,以便讓中國1000萬修車工都能擁有20年老師傅的功力。

“這是一個(gè)典型的行業(yè)的能力。”在他看來,今天有太多垂直領(lǐng)域,其實(shí)是ChatGPT等通用大模型解決不了的,例如面對修車問題,他們都只能泛泛而談,“未來大模型這個(gè)產(chǎn)業(yè)怎么發(fā)展,我覺得還得往垂直化、產(chǎn)業(yè)化、企業(yè)化,甚至個(gè)人化發(fā)展”。

實(shí)際上,相關(guān)企業(yè)都已摩拳擦掌?;ヂ?lián)網(wǎng)大廠百度、阿里紛紛官宣伙伴計(jì)劃和工具鏈,聲稱要讓每一個(gè)行業(yè)都能夠用上自己的大模型。各行各業(yè)的龍頭企業(yè)、創(chuàng)業(yè)公司,同樣馬力十足。金融、教育、醫(yī)療、自動駕駛、智能物流、安防等多個(gè)領(lǐng)域的行業(yè)公司都已相繼傳出要推行業(yè)大模型的消息。

可以預(yù)料,現(xiàn)在只要是上市公司或規(guī)模稍微大一點(diǎn)的企業(yè),都會有自己的大模型,大模型的戰(zhàn)事,已經(jīng)開始從通用大模型,迅速卷向面向垂直領(lǐng)域的行業(yè)大模型。正如李彥宏先生所說:“未來所有的應(yīng)用都將基于大模型來開發(fā),每一個(gè)行業(yè)都應(yīng)該有屬于自己的大模型,大模型會催生AI原生應(yīng)用。未來需要用AI原生思維重構(gòu)所有的產(chǎn)品、服務(wù)和工作流程。”

為什么行業(yè)大模型或者說領(lǐng)域大模型會成為下一個(gè)風(fēng)口呢?原因大概有四個(gè)。

1、通用大模型的能力限制

當(dāng)大模型發(fā)展到一定階段,很多企業(yè)發(fā)現(xiàn),通用大模型雖然具備涌現(xiàn)的能力,但如果原始數(shù)據(jù)里一點(diǎn)行業(yè)數(shù)據(jù)都沒有,那它對行業(yè)理解還是會存在局限性,其通用能力已無法承載更為專業(yè)的領(lǐng)域,比如醫(yī)療、金融等。

每一個(gè)領(lǐng)域都是獨(dú)立的知識體系,具備極為龐雜的知識量,有大量沉默的行業(yè)數(shù)據(jù),這些數(shù)據(jù)的價(jià)值,僅靠通用大模型無法滿足垂直領(lǐng)域的需求,只有通過領(lǐng)域大模型才能激活并發(fā)揮出來。企業(yè)在自己擅長的領(lǐng)域訓(xùn)練適合自己的“產(chǎn)業(yè)版GPT”,這類大模型生成的內(nèi)容會更符合特定垂類場景的需求,質(zhì)量更高。

2、領(lǐng)域大模型的成本優(yōu)勢

從成本方面考量,通過通用大模型微調(diào)實(shí)現(xiàn)的領(lǐng)域大模型相較通用大模型是“幾何級別的下降”。根據(jù)某證券的測算,在模型微調(diào)階段,由于訓(xùn)練量級較小,僅為萬級,相關(guān)的算力成本相比之下可忽略不計(jì)。

以斯坦福大學(xué)于2023年3月發(fā)布Alpaca為例,這是一個(gè)基于LLaMA-7B基座,應(yīng)用5.2萬指令對模型微調(diào)訓(xùn)練而來的對話類語言模型。該模型基于8塊A100微調(diào),微調(diào)時(shí)長3小時(shí),算力成本不超過300元,現(xiàn)在甚至不需要微調(diào)大模型,通過集成LangChain等插件就可以實(shí)現(xiàn)輕量級的領(lǐng)域大模型。

3、國內(nèi)軟件的定制化習(xí)慣

第三方市場調(diào)研機(jī)構(gòu)Gartner在2022年4月的一組數(shù)據(jù)顯示,中國軟件支出在IT支出中的占比僅為4.9%。相比之下,全球市場軟件支出在IT支出中的占比為15.2%。中國IT支出結(jié)構(gòu)特征就是硬件大于軟件,定制化大于產(chǎn)品化。

中國數(shù)字化市場不像美國以公有云為主,而是公有云、混合云、私有云并存。這在SaaS/PaaS軟件發(fā)展階段就出現(xiàn)了明顯分岔。這種分叉將會延續(xù)到了AI模型市場,定制化/私有化需求會占據(jù)較大比重,尤其在政府、金融、制造等市場。

4、大模型信息安全的考量

當(dāng)前在海外市場,部分政府、金融機(jī)構(gòu)、電信運(yùn)營商、制造企業(yè)甚至是科技公司已經(jīng)明確禁止或限制員工在工作場合使用ChatGPT等大模型產(chǎn)品。其中包括蘋果、三星、摩根大通、花旗銀行等知名企業(yè)。理由通常是,擔(dān)心專利或機(jī)密資訊泄密、客戶資料外流。

640 (2).png

從技術(shù)邏輯來看,當(dāng)企業(yè)在公開網(wǎng)絡(luò)使用ChatGPT等跑在公有云上的大模型時(shí),資料會被回傳到云上用于模型的改善、調(diào)教。其他用戶在輸入類似內(nèi)容時(shí),可能會獲取被上傳的資料。

三、領(lǐng)域大模型的三大挑戰(zhàn)

相對于通用大模型,雖然打造領(lǐng)域大模型的門檻和成本大大降低,但還是存在不少挑戰(zhàn)。

1、開源大模型不太給力

領(lǐng)域大模型是在通用大模型基礎(chǔ)上進(jìn)行微調(diào)訓(xùn)練或通過提示詞工程得到的,因此通用大模型的質(zhì)量是領(lǐng)域大模型成功的基礎(chǔ),基于大多企業(yè)私有化部署的需要,私有化部署的通用大模型有三種實(shí)現(xiàn)方式:

第一、直接引入開源大模型,比如chatGLM。

第二、購買商業(yè)化的大模型。

第三、基于領(lǐng)域數(shù)據(jù)微調(diào)開源大模型。

但根據(jù)我們的測試和判斷,當(dāng)前的各種開源大模型(未開源的不得而知)離OpenAI的GPT3.5還有相當(dāng)大的差距,基于這些開源大模型打造的領(lǐng)域大模型基本不可用,同時(shí)微調(diào)領(lǐng)域大模型需要企業(yè)有較高的技術(shù)能力,這進(jìn)一步抬高了領(lǐng)域大模型的門檻。

2、缺乏高質(zhì)量的領(lǐng)域數(shù)據(jù)

領(lǐng)域大模型強(qiáng)調(diào)垂直領(lǐng)域的Know-How,基礎(chǔ)是領(lǐng)域大數(shù)據(jù),即語料。

在質(zhì)量方面,要求領(lǐng)域數(shù)據(jù)具有權(quán)威性,比如金融領(lǐng)域,一個(gè)信息的錯(cuò)誤可能對征信帶來截然相反的判斷,在規(guī)模方面,要求保證質(zhì)量的前提下,訓(xùn)練數(shù)據(jù)量越大,推理能力就越強(qiáng);在多樣性方面,要求訓(xùn)練數(shù)據(jù)集盡可能豐富、全面,能夠提高模型泛化能力,過于單一的數(shù)據(jù)會非常容易讓模型過于擬合訓(xùn)練數(shù)據(jù);在及時(shí)性方面,要求實(shí)時(shí)更新的數(shù)據(jù)盡快得到利用。

很多傳統(tǒng)企業(yè)或數(shù)字化剛起步的企業(yè),大量語料數(shù)據(jù)都是非結(jié)構(gòu)化的,散落在各個(gè)不同部門,沒有什么現(xiàn)成的領(lǐng)域語料數(shù)據(jù)可供訓(xùn)練,領(lǐng)域數(shù)據(jù)的記錄、盤點(diǎn)、采集、清洗和轉(zhuǎn)化成為了前提條件,這實(shí)際上考驗(yàn)著企業(yè)的數(shù)據(jù)治理水平。如果貿(mào)然將未經(jīng)篩選和處理的數(shù)據(jù)直接“喂給”大模型,則會嚴(yán)重影響領(lǐng)域大模型的訓(xùn)練效果。

3、缺乏快速落地的硬場景

現(xiàn)在搞領(lǐng)域大模型的玩家一個(gè)接著一個(gè),但就目前來看,大多其實(shí)都還停留在講概念、講技術(shù)的階段,好一點(diǎn)的在提煉需求,積累數(shù)據(jù),還有一些雖然處于進(jìn)行內(nèi)部測試或項(xiàng)目定制的階段,但離真正的商用距離很大。

要做好領(lǐng)域大模型,企業(yè)一方面要能找到合適的業(yè)務(wù)場景,從邏輯上講,領(lǐng)域大模型一定會是在精度相對較低、容錯(cuò)率較高的領(lǐng)域先引用,再到精度要求高的地方去。另一方面還需整合AI、數(shù)據(jù)、技術(shù)等關(guān)鍵生產(chǎn)要素,這非??简?yàn)企業(yè)對大模型的認(rèn)知水平、技術(shù)能力和組織能力。

企業(yè)也許應(yīng)該成立一個(gè)大模型部門來專門推進(jìn),盡快在具備剛需的應(yīng)用場景落地,形成自我造血的良性循環(huán),不斷自我進(jìn)化、修正和完善。

四、領(lǐng)域大模型的實(shí)現(xiàn)方法

在當(dāng)下的情況下,出于對成本、進(jìn)入門檻和速度等的考慮,“開源大模型+自研小模型+垂直語料”大概率會成為接下來一個(gè)領(lǐng)域大模型的實(shí)現(xiàn)路徑。

一方面,從事大模型開源的可能會越來越多;另一方面,在開源大模型的基礎(chǔ)上去調(diào)試自己的領(lǐng)域大模型,會成為一個(gè)主流。這就像當(dāng)初的Web服務(wù)器、數(shù)據(jù)庫等互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,最后在市場上留下來的,除了少量私有,其余絕大部分場景用的都是開源的。

但就現(xiàn)階段而言,也不能對某個(gè)大模型依賴過重,畢竟戰(zhàn)局還沒有最后確認(rèn)下來。這就好比10年前安卓、塞班、黑莓等一堆底層操作系統(tǒng)廠商在干架,一旦某家企業(yè)對某個(gè)操作系統(tǒng)過于依賴,后期它的方案又長期跟不上迭代,這家企業(yè)就會吃虧。

基于開源大模型做領(lǐng)域大模型的企業(yè),在盡可能跟市場上這些開源大模型結(jié)合的同時(shí),也要解耦。

第一種方案是用提示詞的形式來對接,耦合度很低的,隨便換一個(gè)模型,一下就能換掉。我們現(xiàn)在采用的就是類似的方案,即ChatGLM+LangChain,共分為五步:

1、搜集領(lǐng)域數(shù)據(jù):把領(lǐng)域的相關(guān)文檔資料進(jìn)行收集,并轉(zhuǎn)成文本文件

2、切分領(lǐng)域文本:把領(lǐng)域內(nèi)容拆成一塊塊的小文件塊,因?yàn)槲覀兿M幌虼竽P蛡鬟f最小的、最相關(guān)的文本塊

3、創(chuàng)建嵌入文本:為每一塊文本創(chuàng)建嵌入,并將它們存儲在一個(gè)向量數(shù)據(jù)庫中。這樣就可以使用這些嵌入來查找與問題最相關(guān)的文本塊

4、查找嵌入文本:這個(gè)時(shí)候就可以接受領(lǐng)域輸入了,即Query,將這個(gè)問題轉(zhuǎn)化成詞嵌入的向量,然后查詢前面的領(lǐng)域向量數(shù)據(jù)庫,找到最相似的K個(gè)向量和對應(yīng)的K個(gè)文本塊

5、調(diào)用大模型回答:將K個(gè)相關(guān)的文檔和問題作為上下文輸入大模型,大模型就可以生成了一個(gè)結(jié)合了上下文的回答,這種回答不僅帶有了領(lǐng)域的知識能力,而且能用人話給予回復(fù)。步驟1、2、3、4就是LangChain實(shí)現(xiàn)的功能,它成為了聊天應(yīng)用與大模型的溝通橋梁。

以上方法不需要對大模型做任何變更,僅通過構(gòu)建與問題相關(guān)的上下文來直接調(diào)用大模型,大模型再結(jié)合以前訓(xùn)練的知識庫去做歸納、總結(jié)、推理,這是一種非常輕量化的實(shí)現(xiàn)方法。

第二種方案是基于領(lǐng)域數(shù)據(jù)對大模型進(jìn)行fine-tuning,這樣做的代價(jià)比較大,因?yàn)閒ine-tuning會嘗試優(yōu)化所有的參數(shù),還可能導(dǎo)致模型過擬合。LoRA是新提出的一種方案,效果被認(rèn)為是有希望的,因?yàn)長oRA只修改了一個(gè)相對較小的參數(shù)子集,可以在較小的硬件上進(jìn)行微調(diào),從而更好地避免過擬合問題。LoRA已經(jīng)在ChatGPT中進(jìn)行了應(yīng)用,使用LoRA和DeepSpeed兩種技術(shù),可以在只使用65GB的顯存的情況下,實(shí)現(xiàn)大型語言模型(LLMs)的訓(xùn)練優(yōu)化。

第三種方案則是引入第三方模型服務(wù),即MaaS,由于以上兩種方法對企業(yè)的技術(shù)能力都有較高的要求,因此可以嘗試借助外部力量。當(dāng)前很多企業(yè)都把MaaS當(dāng)為了行業(yè)大模型的新賽道,比如騰訊云TI平臺,結(jié)合過去在文旅、金融、政務(wù)、教育等行業(yè)的需求洞察,封裝成行業(yè)大模型解決方案提供給客戶。企業(yè)可以在這些內(nèi)置行業(yè)大模型基礎(chǔ)上,加入自己獨(dú)有的場景數(shù)據(jù),快速生成自己的專屬定制大模型。MaaS同時(shí)也提供了大模型工具鏈和配套服務(wù),包括數(shù)據(jù)標(biāo)注、訓(xùn)練、測試、評估、部署等全套工具,助力企業(yè)快速精調(diào)大模型。

可以肯定的是,未來能把領(lǐng)域大模型搞成功的,一定是那些拿到了高質(zhì)量的領(lǐng)域數(shù)據(jù),找到了最剛需業(yè)務(wù)場景的企業(yè),領(lǐng)域大模型如果做得多了,就可以抽象成行業(yè)大模型,從而找到對外商業(yè)化的機(jī)會。

通用大模型作為領(lǐng)域大模型的基礎(chǔ),雖然很重要,但未來一定是基礎(chǔ)設(shè)施般的存在(市場上也許只會剩下幾家,現(xiàn)在基本上是“萬事俱備只欠東風(fēng)”,希望后續(xù)大廠給力啊),不會成為企業(yè)領(lǐng)域大模型的勝負(fù)手。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論