亚欧日韩国产综合,亚洲人成无码网www一区,国产97视频人人做人人爱免费

工業(yè)大模型為何要落地很難？

2024-05-08 15:48

工信頭條

孟岱

工業(yè)數(shù)據(jù)收集和清洗本身就是重要挑戰(zhàn)，如果再考慮數(shù)據(jù)安全和隱私保護(hù)，難度就更大。從加速企業(yè)數(shù)字化轉(zhuǎn)型的角度來(lái)看，數(shù)據(jù)和模型質(zhì)量問(wèn)題也面臨著挑戰(zhàn)。

本文來(lái)自工信頭條，作者/孟岱。

工業(yè)大模型（Industrial Large Models,ILMs）是近年來(lái)在工業(yè)4.0和智能制造背景下發(fā)展起來(lái)的新技術(shù)，旨在通過(guò)大語(yǔ)言模型（LLMs）、大數(shù)據(jù)分析和深度學(xué)習(xí)模型來(lái)解決工業(yè)中的復(fù)雜應(yīng)用與需求，其核心在于能夠利用通用知識(shí)或特定領(lǐng)域的知識(shí)來(lái)指導(dǎo)機(jī)器完成特定任務(wù)，如數(shù)據(jù)分析、預(yù)測(cè)、決策支持等。

但就目前的發(fā)展來(lái)看，工業(yè)大模型要落地并提升工業(yè)生產(chǎn)效率，仍面臨諸多難題。

數(shù)據(jù)質(zhì)量和可靠性

01/高質(zhì)量數(shù)據(jù)供給不足

在工業(yè)大模型應(yīng)用中，高質(zhì)量的數(shù)據(jù)是基礎(chǔ)，但目前大多數(shù)情況下高質(zhì)量數(shù)據(jù)的供給不足，這直接影響了模型的訓(xùn)練效果和應(yīng)用性能。同時(shí)，隨著工業(yè)大模型應(yīng)用大潮到來(lái)，高質(zhì)量數(shù)據(jù)的成本可能會(huì)越來(lái)越高，這對(duì)于依賴(lài)大量數(shù)據(jù)訓(xùn)練的工業(yè)大模型來(lái)說(shuō)是一個(gè)重大挑戰(zhàn)。

其原因在于，數(shù)據(jù)處理和治理平臺(tái)缺乏，這導(dǎo)致了工業(yè)大模型在構(gòu)建時(shí)難以獲得全面、高質(zhì)量的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練。高質(zhì)量數(shù)據(jù)供給不足，已影響到工業(yè)大模型的性能和應(yīng)用效果，具體表現(xiàn)如下：

●數(shù)據(jù)治理滯后。大多數(shù)工業(yè)企業(yè)缺乏專(zhuān)門(mén)的數(shù)據(jù)管理組織，數(shù)據(jù)管理人力有限，且大部分工作集中在數(shù)據(jù)操作等基礎(chǔ)領(lǐng)域，缺少頂層規(guī)劃、管理的組織架構(gòu)和人員。這種滯后性使得數(shù)據(jù)治理工作難以有效進(jìn)行，進(jìn)而影響到數(shù)據(jù)的質(zhì)量和可用性。

●數(shù)據(jù)質(zhì)量問(wèn)題。這與上面的問(wèn)題緊密相連。正是由于缺乏對(duì)大數(shù)據(jù)資源的整體規(guī)劃和綜合治理，導(dǎo)致一些項(xiàng)目實(shí)施中止和失敗，結(jié)果數(shù)據(jù)也爛尾?？此剖菙?shù)據(jù)治理技術(shù)的缺失，本質(zhì)是企業(yè)在大數(shù)據(jù)平臺(tái)建設(shè)、分析應(yīng)用等方面沒(méi)有將數(shù)據(jù)質(zhì)量放到重要位置。

●數(shù)據(jù)安全和合規(guī)性問(wèn)題。同樣的邏輯線(xiàn)，如果沒(méi)有有效的數(shù)據(jù)治理，數(shù)據(jù)的安全性和合規(guī)性就無(wú)法得到保障。這導(dǎo)致企業(yè)在使用數(shù)據(jù)進(jìn)行大模型訓(xùn)練時(shí)，面臨法律風(fēng)險(xiǎn)和商業(yè)風(fēng)險(xiǎn)，影響到企業(yè)的長(zhǎng)期發(fā)展。

●數(shù)據(jù)資源的非競(jìng)爭(zhēng)性和非排他性。雖然數(shù)據(jù)具有非競(jìng)爭(zhēng)性和非排他性特征，但在實(shí)際應(yīng)用中，如何有效地管理和利用這些數(shù)據(jù)資源，確保數(shù)據(jù)的質(zhì)量、安全和合規(guī)性，仍然是一大挑戰(zhàn)。

02/數(shù)據(jù)質(zhì)量和多樣性問(wèn)題

大模型的訓(xùn)練過(guò)于依賴(lài)互聯(lián)網(wǎng)數(shù)據(jù)，而專(zhuān)業(yè)語(yǔ)言數(shù)據(jù)（如書(shū)籍、科學(xué)論文等）占比較小，這影響了數(shù)據(jù)的質(zhì)量和多樣性。更困難的是，中文數(shù)據(jù)在互聯(lián)網(wǎng)內(nèi)容資料中的占比不足2%，且質(zhì)量參差不齊。

03/數(shù)據(jù)安全和隱私保護(hù)問(wèn)題

隨著企業(yè)和科研機(jī)構(gòu)紛紛涌入人工智能大模型賽道，數(shù)據(jù)安全和隱私保護(hù)成為重要挑戰(zhàn)。公有大模型在企業(yè)級(jí)場(chǎng)景下的應(yīng)用存在數(shù)據(jù)安全隱患。

04/數(shù)據(jù)開(kāi)放共享機(jī)制不完善

因?yàn)閿?shù)據(jù)開(kāi)放共享機(jī)制不完善，缺少訓(xùn)練大模型的高質(zhì)量工業(yè)數(shù)據(jù)語(yǔ)料庫(kù)，限制了高質(zhì)量數(shù)據(jù)資源的有效利用和共享。

05/產(chǎn)業(yè)數(shù)據(jù)規(guī)模和泛化性不足

產(chǎn)業(yè)數(shù)據(jù)規(guī)模和泛化性不足，導(dǎo)致每次更換場(chǎng)景都需要重新訓(xùn)練大模型，成本很高。同時(shí)，大模型對(duì)數(shù)據(jù)供給的要求極高，如訓(xùn)練GPT-4和Gemini Ultra大概需要4萬(wàn)億至8萬(wàn)億個(gè)單詞，這對(duì)于實(shí)際應(yīng)用中的數(shù)據(jù)規(guī)模是巨大挑戰(zhàn)。

模型的復(fù)雜性和解釋性

多模態(tài)數(shù)據(jù)建模和可解釋的機(jī)器學(xué)習(xí)模型，是工業(yè)大模型當(dāng)前面臨的挑戰(zhàn)之一。這不僅涉及技術(shù)層面的難題，還包括如何使模型更加透明和易于理解。工業(yè)大模型的復(fù)雜性對(duì)其數(shù)據(jù)處理和解釋性產(chǎn)生了顯著影響。

首先，隨著工業(yè)大模型應(yīng)用的復(fù)雜性增加，單一模型已無(wú)法滿(mǎn)足所有需求，因此集成學(xué)習(xí)和多模型協(xié)同成為發(fā)展趨勢(shì)。也就是說(shuō)，為了處理更復(fù)雜的任務(wù)和數(shù)據(jù)，需要采用更加復(fù)雜的模型架構(gòu)。

其次，工業(yè)大模型能夠處理龐大的數(shù)據(jù)量，并將復(fù)雜的數(shù)據(jù)翻譯成人類(lèi)能看懂的語(yǔ)言。這意味著，盡管數(shù)據(jù)處理能力強(qiáng)大，但如何有效地管理和解釋這些數(shù)據(jù)仍然是一個(gè)挑戰(zhàn)。特別是在特定領(lǐng)域和任務(wù)中，訓(xùn)練數(shù)據(jù)的獲取和標(biāo)注仍然是一個(gè)巨大的難題。同時(shí)，大模型的參數(shù)特別多，這帶來(lái)了解釋速度的挑戰(zhàn)。

最后，這些因素共同導(dǎo)致了在工業(yè)應(yīng)用中，雖然大模型能夠捕捉更復(fù)雜、更抽象的數(shù)據(jù)模式，提高模型性能，但在實(shí)際應(yīng)用中，如何確保模型的可靠性和可解釋性，順暢完成工業(yè)應(yīng)用，仍然是一個(gè)難題。

01/模型復(fù)雜性問(wèn)題

在多模態(tài)數(shù)據(jù)建模中，模型的復(fù)雜性對(duì)工業(yè)大模型落地的影響主要體現(xiàn)在以下幾個(gè)方面。

●模型性能的提升。模型復(fù)雜度的增加，使大模型能夠捕捉更復(fù)雜、更抽象的數(shù)據(jù)模式，從而提高模型在各種任務(wù)中的性能，更好地理解和處理工業(yè)場(chǎng)景中的復(fù)雜關(guān)系和需求。

●泛化能力的增強(qiáng)。復(fù)雜的模型結(jié)構(gòu)提供了更豐富的參數(shù)空間，使得模型具有更好的泛化能力。這對(duì)于工業(yè)大模型來(lái)說(shuō)尤為重要，因?yàn)樗鼈冃枰軌蛟诓煌墓I(yè)場(chǎng)景中有效工作，而這些場(chǎng)景往往具有高度的多樣性和不確定性。

●數(shù)據(jù)需求的變化。早期的融合方法表明，在訓(xùn)練數(shù)據(jù)相對(duì)較少時(shí)，多模態(tài)學(xué)習(xí)并不占優(yōu)，但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí)，多模態(tài)種類(lèi)豐富性的作用就凸顯出來(lái)。這表明，只有運(yùn)用大量的行業(yè)數(shù)據(jù)訓(xùn)練和優(yōu)化模型，才能更好提升性能并實(shí)現(xiàn)泛化能力。

●技術(shù)挑戰(zhàn)和成本問(wèn)題。雖然模型復(fù)雜性的增加有助于提升模型的性能和泛化能力，但也帶來(lái)了技術(shù)挑戰(zhàn)和成本問(wèn)題。例如，集成學(xué)習(xí)和多模型協(xié)同成為工業(yè)大模型發(fā)展的趨勢(shì)，這要求更高的計(jì)算資源和技術(shù)支持。

同時(shí)，不應(yīng)忽略如何有效地管理和利用大量行業(yè)數(shù)據(jù)這一挑戰(zhàn)。另外，可解釋性的機(jī)器學(xué)習(xí)之所以成為問(wèn)題，是機(jī)器學(xué)習(xí)模型復(fù)雜性導(dǎo)致的。解決這個(gè)問(wèn)題，通常使用剪枝與稀疏約束、參數(shù)量化、降低網(wǎng)絡(luò)寬度和深度、優(yōu)化算法等技術(shù)手段。

02/模型解釋性問(wèn)題

●用戶(hù)理解和信任。解釋性模型能夠幫助用戶(hù)理解模型的決策依據(jù)，從而增加對(duì)模型的信任度。這是因?yàn)?，?dāng)用戶(hù)能夠清晰地理解模型是如何作出決策時(shí)，他們更傾向于相信模型的輸出是準(zhǔn)確和可靠的。此外，模型的可解釋性還可以提高模型的可信度和可靠性，這對(duì)于需要高度精準(zhǔn)性和可解釋性的工業(yè)場(chǎng)景尤為重要。然而，不能忽視大模型存在“幻覺(jué)”和無(wú)法解釋的問(wèn)題，這對(duì)強(qiáng)調(diào)精準(zhǔn)性和可解釋性的工業(yè)應(yīng)用構(gòu)成了挑戰(zhàn)。對(duì)此，研究人員提出了多種解釋方法，如特征歸因、基于擾動(dòng)的解釋和基于梯度的解釋等，以幫助用戶(hù)更好地理解模型的工作機(jī)制。

●因果關(guān)系的確定。工業(yè)大模型在解釋性方面確定因果關(guān)系的難點(diǎn)主要如下。一是模型復(fù)雜性。大模型的復(fù)雜性是導(dǎo)致其難以解釋的一個(gè)重要原因。由于深度學(xué)習(xí)和其他高級(jí)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用，模型的結(jié)構(gòu)變得非常復(fù)雜，這使得從模型中提取出可解釋的因果關(guān)系變得困難。二是數(shù)據(jù)不確定性。由于數(shù)據(jù)本身的不完整或不準(zhǔn)確，可能會(huì)影響到因果關(guān)系的準(zhǔn)確推斷。三是關(guān)聯(lián)關(guān)系與因果關(guān)系的區(qū)分。大模型可能會(huì)捕捉到關(guān)聯(lián)關(guān)系，但這些關(guān)聯(lián)并不一定代表真正的因果關(guān)系。如何正確區(qū)分兩者至關(guān)重要，但這一過(guò)程在實(shí)踐中往往充滿(mǎn)挑戰(zhàn)。四是泛化性問(wèn)題。即使能夠從大模型中提取出某些因果關(guān)系，這些關(guān)系也可能不具備良好的泛化性。即對(duì)相似的樣本，其解釋可能劇烈變化，導(dǎo)致用戶(hù)無(wú)法通過(guò)看少量樣本解釋得到本質(zhì)的、對(duì)其他樣本也適用的原因。五是反事實(shí)推斷的難點(diǎn)。在缺乏反事實(shí)數(shù)據(jù)的情況下，進(jìn)行反事實(shí)推斷是業(yè)界的難點(diǎn)。這種情況下，如何準(zhǔn)確地預(yù)測(cè)假設(shè)改變某個(gè)條件會(huì)發(fā)生什么，具有極大的挑戰(zhàn)性。六是混雜因素和選擇偏差。在實(shí)際應(yīng)用中，如何有效地識(shí)別和處理混雜因素、選擇偏差等問(wèn)題，以減少偏差和誤差，也是確定因果關(guān)系時(shí)面臨的一個(gè)重要挑戰(zhàn)。

綜上所述，工業(yè)大模型在解釋性方面確定因果關(guān)系的難點(diǎn)，主要集中在模型復(fù)雜性、數(shù)據(jù)不確定性、關(guān)聯(lián)關(guān)系與因果關(guān)系的區(qū)分、泛化性問(wèn)題、反事實(shí)推斷的難點(diǎn)，以及混雜因素和選擇偏差的處理上。

03/解釋與精確度的平衡

工業(yè)大模型在解釋性方面，平衡精確度與復(fù)雜性的方法主要體現(xiàn)在：選擇合適的模型復(fù)雜度、采用可解釋性算法、設(shè)計(jì)易于解釋的代理模型、知識(shí)注入和模型融合、權(quán)衡可解釋性和有效性等。

算力成本高

訓(xùn)練一個(gè)大型模型，初期的算力成本非常高，尤其是在參數(shù)越高、模型越大的情況下，泛化能力雖然增強(qiáng)，但相應(yīng)的成本也會(huì)顯著增加。這對(duì)于許多企業(yè)來(lái)說(shuō)，可能是一個(gè)重大的經(jīng)濟(jì)負(fù)擔(dān)。工業(yè)大模型訓(xùn)練初期算力成本高的技術(shù)挑戰(zhàn)主要包括以下幾個(gè)方面。

●高算力需求。大模型的訓(xùn)練需要巨大的算力支持。例如，動(dòng)輒幾億的算力投入僅是模型訓(xùn)練階段的需求，而在模型推理應(yīng)用階段，對(duì)算力的需求要遠(yuǎn)遠(yuǎn)高于訓(xùn)練階段，算力成本可能達(dá)到百億量級(jí)。當(dāng)然，算力成本隨著新技術(shù)的應(yīng)用已進(jìn)入下降通道。

●硬件成本高昂。大模型訓(xùn)練需要大量的GPU資源。以微軟與英偉達(dá)合作推出的Megatron Turing-NLG（MT-NLG）模型為例，該模型擁有5300億參數(shù)，其訓(xùn)練過(guò)程消耗了4480塊A100 GPU，單次訓(xùn)練的成本可達(dá)數(shù)百萬(wàn)美元。其中，還不包括電費(fèi)等其他成本，如ChatGPT的初始算力投入成本約為7.59億美元，電費(fèi)高達(dá)591,864kwh/日。

●數(shù)據(jù)和算力資源分散。當(dāng)前，我國(guó)數(shù)據(jù)開(kāi)放共享機(jī)制不完善，缺少訓(xùn)練大模型的高質(zhì)量工業(yè)數(shù)據(jù)語(yǔ)料庫(kù)。同時(shí)，各地、各高校院所紛紛建立智算中心，造成算力資源分散嚴(yán)重。這不僅增加了獲取足夠算力的難度，而且提高了整體的運(yùn)營(yíng)成本。

●技術(shù)瓶頸和優(yōu)化方向。大模型訓(xùn)練是典型的超算應(yīng)用場(chǎng)景，對(duì)算力、算法、數(shù)據(jù)三方面技術(shù)均有一定要求。需要專(zhuān)用的高速互聯(lián)計(jì)算網(wǎng)絡(luò)、高性能文件存儲(chǔ)和強(qiáng)勁的GPU算力共同完成。此外，大模型對(duì)單位實(shí)例下的算力密度要求達(dá)到了前所未有的高度，這也使得其對(duì)計(jì)算平臺(tái)的要求發(fā)生了顛覆性的巨大變化。

●算力資源調(diào)度管理能力。為了降低千億參數(shù)大模型訓(xùn)練成本，需要提升算力資源調(diào)度管理能力。除了直接的硬件成本外，還需要考慮如何高效地管理和調(diào)度這些寶貴資源所付出的成本。

行業(yè)知識(shí)不足

通用大模型在解決行業(yè)中遇到的復(fù)雜任務(wù)時(shí)，往往因?yàn)樾袠I(yè)知識(shí)、語(yǔ)料不足而難以有效應(yīng)對(duì)。

●行業(yè)知識(shí)缺乏：工業(yè)大模型在應(yīng)用于特定行業(yè)時(shí)，往往需要具備該行業(yè)的專(zhuān)業(yè)知識(shí)。然而，目前很多通用大模型缺乏對(duì)應(yīng)行業(yè)的深入知識(shí)，這使得它們難以解決行業(yè)中遇到的復(fù)雜任務(wù)。在工業(yè)制造領(lǐng)域，專(zhuān)業(yè)知識(shí)的缺乏是關(guān)鍵難點(diǎn)之一。

●高質(zhì)量語(yǔ)料短缺：對(duì)于從頭開(kāi)始訓(xùn)練的模型來(lái)說(shuō)，高質(zhì)量語(yǔ)料的短缺會(huì)在很大程度上限制大模型的發(fā)展。特別是在中文語(yǔ)料方面，由于英文語(yǔ)料庫(kù)的占比最大，依賴(lài)英語(yǔ)訓(xùn)練的大模型更具有可信性和權(quán)威性，比較而言，中文大模型在語(yǔ)料方面極度不足。

●數(shù)據(jù)量和質(zhì)量要求：行業(yè)大模型對(duì)數(shù)據(jù)的要求更高，不僅需要涵蓋專(zhuān)業(yè)知識(shí)，還需要大量的數(shù)據(jù)支持。這些數(shù)據(jù)往往涉及用戶(hù)敏感信息，其融合、脫敏等處理也存在一定難度。

●二次預(yù)訓(xùn)練需求：由于通用大模型在行業(yè)知識(shí)和語(yǔ)料方面的不足，它們很難直接應(yīng)用于解決行業(yè)中遇到的復(fù)雜任務(wù)。因此，需要對(duì)這些模型進(jìn)行二次預(yù)訓(xùn)練，以適應(yīng)特定行業(yè)的應(yīng)用需求。

●專(zhuān)屬大模型的挑戰(zhàn)：雖然“專(zhuān)屬大模型”旨在通過(guò)積累對(duì)應(yīng)行業(yè)和場(chǎng)景的知識(shí)，來(lái)更好地支撐垂直行業(yè)各式各樣的應(yīng)用與服務(wù)，但這也面臨著如何有效整合和利用行業(yè)知識(shí)的挑戰(zhàn)。

應(yīng)用場(chǎng)景受限

盡管工業(yè)大模型在生產(chǎn)制造、研發(fā)設(shè)計(jì)和經(jīng)營(yíng)管理等場(chǎng)景中有著廣泛的應(yīng)用潛力，但在工藝設(shè)計(jì)等具體應(yīng)用層面仍存在“硬骨頭”。

01/場(chǎng)景適應(yīng)性問(wèn)題

●首先是數(shù)據(jù)和模型質(zhì)量問(wèn)題。包括如何解決數(shù)據(jù)標(biāo)注效率、跨域?qū)W習(xí)，以及數(shù)據(jù)管理等問(wèn)題，以訓(xùn)練出更具泛化性、魯棒性（即系統(tǒng)或算法在面對(duì)各種隨機(jī)噪聲、異常情況和攻擊等干擾時(shí)的抗干擾能力）和場(chǎng)景適應(yīng)性的模型。

●其次是應(yīng)用成本挑戰(zhàn)。目前，定制化千億參數(shù)通用大模型的成本難以被客戶(hù)接受，算力成本仍然高居不下，訓(xùn)練卡價(jià)格仍在上升。未來(lái)考慮到LLM不斷升級(jí)，訓(xùn)練推理成本或?qū)⒊掷m(xù)上行。

●再次是模型應(yīng)用的可靠性。工業(yè)領(lǐng)域，尤其是生產(chǎn)制造流程，最重視安全、可靠和穩(wěn)定。這就對(duì)人工智能模型，包括大模型提出了更高的要求。因此，保障應(yīng)用的可靠性成為了一個(gè)核心需求。同時(shí)，高質(zhì)量數(shù)據(jù)供給不足成為最大挑戰(zhàn)。

●然后是自動(dòng)化和自適應(yīng)性不足。未來(lái)的工業(yè)大模型將越來(lái)越注重自動(dòng)化和自適應(yīng)性。工業(yè)系統(tǒng)需要能夠自動(dòng)調(diào)整和優(yōu)化模型參數(shù)、數(shù)據(jù)處理流程，以及模型的部署和推理策略。然而，目前這一領(lǐng)域的技術(shù)和實(shí)踐還處于初級(jí)階段。

●最后是技術(shù)與應(yīng)用場(chǎng)景間的鴻溝。AI大模型的落地關(guān)鍵，是解決技術(shù)與應(yīng)用場(chǎng)景間的鴻溝。這涉及如何使大模型更好地適應(yīng)特定的工業(yè)應(yīng)用場(chǎng)景，以及如何克服不同模型和算力平臺(tái)特性的差異帶來(lái)的現(xiàn)實(shí)挑戰(zhàn)。另外，在高精度要求行業(yè)中，應(yīng)用場(chǎng)景適應(yīng)性問(wèn)題難度更大。

02/工藝設(shè)計(jì)適應(yīng)性問(wèn)題

數(shù)據(jù)問(wèn)題：尤其是工藝數(shù)據(jù)的質(zhì)量和數(shù)量，直接影響到模型的訓(xùn)練效果和應(yīng)用性能。

專(zhuān)業(yè)知識(shí)缺乏：盡管大模型技術(shù)具有強(qiáng)大的表征、泛化和自適應(yīng)能力，但在特定的工業(yè)應(yīng)用場(chǎng)景中，專(zhuān)業(yè)知識(shí)的缺乏仍然是一個(gè)關(guān)鍵難點(diǎn)。

模型適應(yīng)性問(wèn)題：隨著感知環(huán)境和應(yīng)用場(chǎng)景的變化，模型的訓(xùn)練和調(diào)整變得越來(lái)越困難。如何使大模型能夠更好地適應(yīng)不同的工業(yè)場(chǎng)景，成為學(xué)術(shù)界和工業(yè)界面臨的共同課題。

技術(shù)與場(chǎng)景應(yīng)用的適配性問(wèn)題：從應(yīng)用落地角度出發(fā)，解決前沿技術(shù)與真實(shí)應(yīng)用場(chǎng)景之間的鴻溝是大模型落地的關(guān)鍵，包括如何全方位匹配應(yīng)用落地時(shí)的要求，以確保技術(shù)的有效性和實(shí)用性。

多模型協(xié)同與集成學(xué)習(xí)的需求：隨著工業(yè)大模型應(yīng)用的復(fù)雜性增加，單一模型不可能滿(mǎn)足所有需求。因此，集成學(xué)習(xí)和多模型協(xié)同成為發(fā)展的趨勢(shì)。

模型設(shè)計(jì)和調(diào)試的難度：設(shè)計(jì)和實(shí)現(xiàn)適合特定任務(wù)的模型結(jié)構(gòu)，需要深入的專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)。同時(shí)，調(diào)試模型中的錯(cuò)誤或性能問(wèn)題也是一項(xiàng)復(fù)雜的任務(wù)。

成本和技術(shù)壁壘

訓(xùn)練大模型的成本和技術(shù)壁壘較高，需要尋求業(yè)內(nèi)合作，使用相應(yīng)的技術(shù)與能力。這對(duì)于中小企業(yè)來(lái)說(shuō)，會(huì)是難以逾越的障礙。

01/成本問(wèn)題

工業(yè)大模型的應(yīng)用成本較高，至少在百萬(wàn)級(jí)起步，甚至可能達(dá)到上千萬(wàn)。對(duì)于企業(yè)而言，引入和維護(hù)大模型需要大量的資金投入。

02/人才問(wèn)題

工業(yè)大模型的應(yīng)用不僅需要大量的資金投入，還需要專(zhuān)業(yè)的人才支持。技術(shù)研發(fā)、算力資源投入、數(shù)據(jù)采集與標(biāo)注，以及市場(chǎng)推廣與商業(yè)化擴(kuò)展等方面都需要專(zhuān)業(yè)的人才進(jìn)行操作和管理。同時(shí)，隨著AI技術(shù)的發(fā)展，對(duì)人力資源的需求也在不斷擴(kuò)大，這進(jìn)一步增加了企業(yè)的負(fù)擔(dān)。工業(yè)大模型應(yīng)用中，人力成本高的原因主要包括以下幾點(diǎn)。

人才需求增加。隨著大模型技術(shù)的發(fā)展和應(yīng)用，企業(yè)需要吸納大量的人工智能領(lǐng)域人才，如機(jī)器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)＜业?，這些崗位的薪酬相對(duì)較高，從而推高了整體的人力成本。

技術(shù)門(mén)檻高。企業(yè)自身開(kāi)發(fā)大模型的難度很大，不僅訓(xùn)練成本、存算成本過(guò)高，而且開(kāi)發(fā)工具與社區(qū)支持也不足，這導(dǎo)致企業(yè)在應(yīng)用大模型時(shí)面臨較高的技術(shù)門(mén)檻和成本壓力。

數(shù)據(jù)處理需求大。中文大模型的成本高，一個(gè)主要原因就是中文數(shù)據(jù)量和質(zhì)量與英文存在差距，訓(xùn)練中文大模型需要采集和處理更多的中文語(yǔ)言數(shù)據(jù)。此外，算法開(kāi)發(fā)、測(cè)試、迭代、產(chǎn)品化等都需要大量技術(shù)人才的支持，進(jìn)一步增加了人力成本。

極度依賴(lài)硬件資源。GPU作為訓(xùn)練模型與加速推理的關(guān)鍵算力硬件，其成本也是影響人力成本的一個(gè)重要因素。

03/技術(shù)壁壘

數(shù)據(jù)處理難題：在工業(yè)大模型應(yīng)用中，數(shù)據(jù)獲取與處理是一個(gè)重要的挑戰(zhàn)。例如，從中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心獲取的千萬(wàn)級(jí)PDF論文數(shù)據(jù)解析就非常困難。

模型應(yīng)用可靠性：工業(yè)領(lǐng)域尤其是生產(chǎn)制造流程，對(duì)安全、可靠和穩(wěn)定性的要求極高。這對(duì)人工智能模型，包括大模型提出了更高的要求。

應(yīng)用成本挑戰(zhàn)：從大模型驅(qū)動(dòng)的AI應(yīng)用方面來(lái)看，應(yīng)用成本需要大幅度降低。目前定制化的大模型應(yīng)用成本較高，這是企業(yè)面臨的一個(gè)重要挑戰(zhàn)。

芯片和分布式訓(xùn)練基礎(chǔ)設(shè)施軟件的技術(shù)壁壘：雖然大模型這項(xiàng)技術(shù)本身的技術(shù)壁壘并不算高，但是芯片和穩(wěn)定的分布式訓(xùn)練基礎(chǔ)設(shè)施軟件技術(shù)壁壘卻很高。

算力基礎(chǔ)設(shè)施的挑戰(zhàn)：大模型部署技術(shù)難點(diǎn)大，參數(shù)量太大，一般的顯卡無(wú)法滿(mǎn)足需求。

產(chǎn)業(yè)突破的挑戰(zhàn)：大模型的難點(diǎn)不僅僅在于技術(shù)追趕，更重要的是如何在產(chǎn)業(yè)場(chǎng)景中落地應(yīng)用，創(chuàng)造實(shí)際價(jià)值。

數(shù)據(jù)和模型質(zhì)量問(wèn)題：工業(yè)AI在數(shù)據(jù)和模型質(zhì)量方面的問(wèn)題，會(huì)對(duì)大模型的工業(yè)應(yīng)用構(gòu)成不小的挑戰(zhàn)。

技術(shù)和商業(yè)落地的雙重挑戰(zhàn)：企業(yè)很難真正把大模型做得面面俱到，因?yàn)槊恳豁?xiàng)業(yè)務(wù)都有其專(zhuān)業(yè)性。關(guān)鍵是要考慮如何盡快形成自己的技術(shù)壁壘，并成功商業(yè)落地。

盡管存在諸多挑戰(zhàn)，但通過(guò)應(yīng)用工業(yè)大模型可以大幅提升生產(chǎn)效率、節(jié)約研發(fā)成本、優(yōu)化資源配置已是業(yè)界共識(shí)。因此，工業(yè)大模型應(yīng)用被視為推動(dòng)制造業(yè)高質(zhì)量發(fā)展的重要手段。

未來(lái)，工業(yè)大模型產(chǎn)業(yè)將朝著定制化、邊緣計(jì)算、產(chǎn)業(yè)協(xié)作等方向發(fā)展。這意味著未來(lái)的工業(yè)大模型將更加注重滿(mǎn)足特定行業(yè)或應(yīng)用場(chǎng)景的需求，同時(shí)也將更加注重與產(chǎn)業(yè)的深度融合和協(xié)作。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

Temu、阿里國(guó)際站、TikTok的“速度戰(zhàn)役”

工業(yè)大模型為何要落地很難？

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

工業(yè)大模型為何要落地很難？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

江蘇出臺(tái)《加快建設(shè)制造強(qiáng)省行動(dòng)方案》

威脅狩獵行動(dòng)失敗的三大原因及建議

ChatGPT爆火，國(guó)內(nèi)算力廠(chǎng)商如何把握機(jī)會(huì)？

“超級(jí)應(yīng)用”的命門(mén)：隱私保護(hù)

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

榜上有名丨夢(mèng)網(wǎng)科技5G消息智慧南山政務(wù)入選2021-2022大數(shù)據(jù)產(chǎn)業(yè)優(yōu)秀解決方案案例!

山西路橋集團(tuán)數(shù)字化頂層規(guī)劃解決方案

2024首屆“數(shù)據(jù)要素×”行業(yè)推進(jìn)大會(huì)回顧——中國(guó)交通通信信息中心正高級(jí)工程師馮濤發(fā)表主題演講

“大連華信計(jì)算機(jī)技術(shù)股份有限公司”更名為“信華信技術(shù)股份有限公司”媒體發(fā)布會(huì)舉行

博泰開(kāi)創(chuàng)行業(yè)四個(gè)時(shí)代，應(yīng)宜倫看千億智能座艙如何引領(lǐng)智能化下半場(chǎng)

中科逆熵榮膺“2024數(shù)字化轉(zhuǎn)型十大杰出企業(yè)”

熱點(diǎn)資訊

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線(xiàn)索：企業(yè)騰飛的雙重動(dòng)力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

Temu、阿里國(guó)際站、TikTok的“速度戰(zhàn)役”

住房城鄉(xiāng)建設(shè)部就強(qiáng)制性國(guó)家規(guī)范《數(shù)據(jù)中心項(xiàng)目規(guī)范（征求意見(jiàn)稿）》征求意見(jiàn)

工業(yè)大模型為何要落地很難？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

欄目推薦

江蘇出臺(tái)《加快建設(shè)制造強(qiáng)省行動(dòng)方案》

威脅狩獵行動(dòng)失敗的三大原因及建議

ChatGPT爆火，國(guó)內(nèi)算力廠(chǎng)商如何把握機(jī)會(huì)？

“超級(jí)應(yīng)用”的命門(mén)：隱私保護(hù)

本月熱門(mén)

精選文章

熱點(diǎn)資訊

Temu、阿里國(guó)際站、TikTok的“速度戰(zhàn)役”

住房城鄉(xiāng)建設(shè)部就強(qiáng)制性國(guó)家規(guī)范《數(shù)據(jù)中心項(xiàng)目規(guī)范（征求意見(jiàn)稿）》征求意見(jiàn)

工業(yè)大模型為何要落地很難？

ChatGPT爆火，國(guó)內(nèi)算力廠(chǎng)商如何把握機(jī)會(huì)？

Temu、阿里國(guó)際站、TikTok的“速度戰(zhàn)役”