企業(yè)大模型數(shù)據(jù)治理傾向哪些模式和傾向的理由?

隨著人工智能技術的快速發(fā)展,大模型的應用正在改變我們的生活和工作方式。大模型的核心能力是意圖理解和文本生成,是AI AGENT的核心大腦,大模型的能力發(fā)展決定了人工智能的能力半徑,它將推動人類社會的生產結構進一步升級,進而影響社會的各個方面。

本文來自twt企業(yè)IT社區(qū)。

【大模型行業(yè)應用落地系列】·“面向大模型的數(shù)據(jù)平臺搭建”探討

●企業(yè)大模型數(shù)據(jù)治理傾向哪些模式和傾向的理由?

【議題說明】隨著人工智能技術的快速發(fā)展,大模型的應用正在改變我們的生活和工作方式。大模型的核心能力是意圖理解和文本生成,是AI AGENT的核心大腦,大模型的能力發(fā)展決定了人工智能的能力半徑,它將推動人類社會的生產結構進一步升級,進而影響社會的各個方面。為了將大模型應用在各種復雜的任務場景中,需要基于龐大數(shù)據(jù)體量的參數(shù)和訓練數(shù)據(jù),不斷進行迭代,訓練出更復雜、更有效的大模型,推動人工智能技術的發(fā)展。

【議題主持人】金海波昆侖銀行大數(shù)據(jù)負責人:由于數(shù)據(jù)質量的問題,也給大模型應用帶來了許多挑戰(zhàn),例如:高質量數(shù)據(jù)供給不足、海量數(shù)據(jù)處理的挑戰(zhàn)、缺乏數(shù)據(jù)治理平臺、數(shù)據(jù)流通還存在一定的障礙等。基于此,基于社區(qū)平臺,通過投票、研討等方式,探討企業(yè)大模型數(shù)據(jù)治理傾向哪些模式和傾向的理由,有助于為企業(yè)大模型數(shù)據(jù)治理提供思路和參考。

金海波昆侖銀行大數(shù)據(jù)負責人:

大模型應用需要數(shù)據(jù)治理工作提供高質量的數(shù)據(jù)供給。

大模型訓練數(shù)據(jù)的范圍覆蓋到了幾乎全互聯(lián)網內容,包括不同領域的行業(yè)數(shù)據(jù)、科學數(shù)據(jù)、行為數(shù)據(jù)等,為了保障給大模型提供高質量的數(shù)據(jù)供給,數(shù)據(jù)治理被各企業(yè)迫切地提上工作日程。如下是社區(qū)幾十位用戶對企業(yè)大模型數(shù)據(jù)治理模式傾向的反饋及分析。

1.共識結果

(1)與原有數(shù)據(jù)湖/湖倉一體/數(shù)據(jù)倉庫/大數(shù)據(jù)平臺做對接并進行架構優(yōu)化(46.9%):基于企業(yè)已經建立的數(shù)據(jù)平臺類系統(tǒng)進行數(shù)據(jù)治理。

(2)獨立建設服務AI的數(shù)據(jù)平臺(12.2%):為了AI應用建立一個獨立的數(shù)據(jù)平臺進行數(shù)據(jù)的匯聚和數(shù)據(jù)治理。

(3)建立數(shù)據(jù)管道,從各個數(shù)據(jù)源中提取數(shù)據(jù),并進行清洗、轉換和集成,最終將數(shù)據(jù)輸送到AI數(shù)據(jù)平臺(32.7%):從各個源系統(tǒng)中提取數(shù)據(jù),并進行數(shù)據(jù)加工,然后供給給大模型使用。

(4)數(shù)據(jù)共享模式,不同業(yè)務部門或數(shù)據(jù)所有者共享其數(shù)據(jù)資源,以供AI應用程序使用(6.1%):AI應用程序從各個數(shù)據(jù)源直接獲取原始數(shù)據(jù)進行使用。

(5)邊緣計算模式,把AI設備部署在邊緣設備附近,減少數(shù)據(jù)傳輸和延遲(2%):使用邊緣計算模式,AI應用直接部署在業(yè)務數(shù)據(jù)生成系統(tǒng)或者設備上,AI應用的計算結果再進行傳輸匯聚。

2.企業(yè)大模型數(shù)據(jù)治理模式選擇原因剖析

隨著大數(shù)據(jù)技術的不斷發(fā)展,數(shù)據(jù)治理和大模型的應用結合將會更加緊密,為組織帶來更多的商業(yè)價值和社會效益。企業(yè)大模型數(shù)據(jù)治理呈現(xiàn)出多種模式,企業(yè)應根據(jù)自身的實際情況和需求選擇適合的數(shù)據(jù)治理模式。為了選擇適合本企業(yè)的數(shù)據(jù)治理模式,需要先了解三個問題:(1)數(shù)據(jù)治理模式有哪些;(2)各種數(shù)據(jù)治理模式適用的企業(yè)類型;(3)各種數(shù)據(jù)治理模式的優(yōu)缺點。

大模型數(shù)據(jù)治理主要有以下幾種方式:

(1)集中式數(shù)據(jù)治理:主要通過建立一個集中式的數(shù)據(jù)管理平臺,對數(shù)據(jù)進行統(tǒng)一的管理和治理。這種方式可以確保數(shù)據(jù)的準確性和一致性;

(2)分散式數(shù)據(jù)治理:與集中式數(shù)據(jù)治理相反,分散式數(shù)據(jù)治理將數(shù)據(jù)的管理和治理分散到各個業(yè)務部門或團隊中;

(3)聯(lián)邦式治理:這種模式是集中式和分散式相結合,數(shù)據(jù)治理組織與多個業(yè)務單元協(xié)同工作,以維護一致的定義和標準。

各種數(shù)據(jù)治理模式適用的企業(yè)類型如下:

(1)集中式數(shù)據(jù)治理:適用于擁有大量數(shù)據(jù)資產和復雜業(yè)務場景的大型企業(yè),企業(yè)在系統(tǒng)建設上具備數(shù)據(jù)倉庫/數(shù)據(jù)湖等數(shù)據(jù)平臺,在組織上有負責全面管理和控制企業(yè)內數(shù)據(jù)資源的團隊,這種治理模式可以確保數(shù)據(jù)的準確性和一致性,降低數(shù)據(jù)風險;

(2)分散式數(shù)據(jù)治理:適用于資源有限的中小型企業(yè),企業(yè)在系統(tǒng)建設上尚不具備規(guī)范的數(shù)據(jù)平臺類系統(tǒng),在組織上缺乏專職的數(shù)據(jù)管控團隊,這種模式可以降低數(shù)據(jù)治理的成本和復雜性;

(3)聯(lián)邦式治理:適用于那些需要跨組織合作、具有分布式組織結構、復雜數(shù)據(jù)需求、高度敏感數(shù)據(jù)以及需要靈活性和可擴展性的企業(yè)。這種方法可以幫助這些企業(yè)在保持數(shù)據(jù)主權和控制權的同時,實現(xiàn)數(shù)據(jù)的有效治理和利用。

各種數(shù)據(jù)治理模式的優(yōu)缺點如下:

(1)集中式數(shù)據(jù)治理:優(yōu)點是這種治理模式可以確保數(shù)據(jù)的一致性和準確性,避免數(shù)據(jù)冗余和沖突,同時提高數(shù)據(jù)的安全性和隱私保護能力。缺點是需要足夠的資源和預算來支持集中式數(shù)據(jù)治理的實施;

(2)分散式數(shù)據(jù)治理:優(yōu)點是可以更好地滿足業(yè)務部門的需求,提高數(shù)據(jù)治理的靈活性和效率。缺點是可能會增加數(shù)據(jù)的不一致性和數(shù)據(jù)安全風險;

(3)聯(lián)邦式治理:優(yōu)點是在靈活性、可擴展性和安全性方面具有優(yōu)勢。缺點是面臨復雜性、溝通和協(xié)調成本、數(shù)據(jù)一致性和準確性挑戰(zhàn)以及數(shù)據(jù)孤島等問題。

根據(jù)投票調研結果,有(46.9%)的用戶支持與原有數(shù)據(jù)湖/湖倉一體/數(shù)據(jù)倉庫/大數(shù)據(jù)平臺做對接并進行架構優(yōu)化,反映出多數(shù)人對該治理模式的高度認可和實踐可行性。該治理模式屬于集中式數(shù)據(jù)治理,通過已經建設的數(shù)據(jù)平臺進行數(shù)據(jù)治理。多數(shù)人選擇該模式的原因在于,首先,企業(yè)在數(shù)據(jù)平臺上已經具備了一定的技術規(guī)范和業(yè)務規(guī)范,保障了數(shù)據(jù)的一致性和準確性,避免了數(shù)據(jù)冗余和沖突,保障了數(shù)據(jù)安全性,有助于實現(xiàn)數(shù)據(jù)資產的統(tǒng)一管理。其次,由于架構升級原有系統(tǒng)功能的復用,省去了和各業(yè)務系統(tǒng)對接工作,減少了數(shù)據(jù)采集、傳輸、整合等大量的重復性建設工作,縮短了項目建設周期,降低了建設成本。然后,基于使用現(xiàn)有的數(shù)據(jù)平臺進行數(shù)據(jù)治理,保持了現(xiàn)有技術棧的穩(wěn)定,員工只需要在已有技能基礎上進行擴展學習,降低了學習成本和周期,使得企業(yè)專注于需求的實現(xiàn)。最后,該模式有助于企業(yè)未來系統(tǒng)架構的擴展性,能夠應對未來復雜多變的市場環(huán)境。

滕召森東莞銀行數(shù)據(jù)分析師:

在原有數(shù)據(jù)平臺上進行架構優(yōu)化,有利于真正意義上建立企業(yè)級統(tǒng)一的數(shù)據(jù)平臺。

傾向選擇“與原有數(shù)據(jù)湖/湖倉一體/數(shù)據(jù)倉庫/大數(shù)據(jù)平臺做對接并進行架構優(yōu)化”的理由如下:

(1)有利于真正意義上建立企業(yè)級統(tǒng)一的數(shù)據(jù)平臺,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理:企業(yè)內部通常存在多種數(shù)據(jù)源和格式,在通過大數(shù)據(jù)平臺、數(shù)據(jù)倉庫完成整合后經過了行業(yè)已有應用的支持,數(shù)據(jù)質量和平臺穩(wěn)定性都經過了相對成熟的驗證。通過對接現(xiàn)有平臺,接入知識庫、影像等數(shù)據(jù),實現(xiàn)企業(yè)級的數(shù)據(jù)融合,為上層應用提供統(tǒng)一的數(shù)據(jù)服務,業(yè)務價值及管理價值更大。

(2)保護現(xiàn)有投資,加強基礎設施復用:企業(yè)往往已經在數(shù)據(jù)湖、數(shù)據(jù)倉庫或大數(shù)據(jù)平臺上有大量的投資。對接和優(yōu)化現(xiàn)有架構可以充分利用這些基礎設施,而不是推倒重來。并通過對接和優(yōu)化,可以根據(jù)大模型的需求對現(xiàn)有數(shù)據(jù)架構進行架構優(yōu)化,同時解決部分歷史技術債。

(3)減少人員技能學習成本及管理成本,提高應用成功率:基于使用現(xiàn)有的數(shù)據(jù)平臺及管理。對接和優(yōu)化可以減少培訓成本,同時利用員工現(xiàn)有的技能,同時大模型團隊能夠跟專注于應用開發(fā),避免從0到1完整搭建拉長項目周期。

許小龍某金融企業(yè)大模型工程師:

沒有一種單一的數(shù)據(jù)治理模式適用于所有企業(yè)。企業(yè)應根據(jù)自身的具體情況來選擇最適合自己的模式,并在實踐中不斷調整和優(yōu)化。

在選擇企業(yè)大模型數(shù)據(jù)治理的模式時,不同的公司可能會基于自身的業(yè)務需求、技術能力和戰(zhàn)略規(guī)劃等因素有不同的偏好。根據(jù)業(yè)務對數(shù)據(jù)使用的高時效性要求,采用邊緣計算模式,把AI設備部署在邊緣設備附近,減少數(shù)據(jù)傳輸和延遲,提升數(shù)據(jù)處理性能。以下是一些常見的數(shù)據(jù)治理模式及其選擇的理由:

(1)集中式數(shù)據(jù)治理:這種模式下,數(shù)據(jù)治理的職責集中在公司的某個特定部門或團隊中。這種方式的優(yōu)勢在于可以實現(xiàn)統(tǒng)一的數(shù)據(jù)標準和政策,便于管理和控制風險。然而,它也可能導致決策緩慢,因為所有變更都需要經過中心團隊的審批,更適用于大型企業(yè)。

(2)分散式數(shù)據(jù)治理:在這種模式下,各個業(yè)務部門負責自己的數(shù)據(jù)治理工作。這種方式的優(yōu)點是可以快速響應業(yè)務需求,但缺點是可能導致數(shù)據(jù)標準不一致和數(shù)據(jù)質量參差不齊,更適用于中小型企業(yè)。

(3)聯(lián)邦式數(shù)據(jù)治理:這是一種混合模式,結合了集中式和分散式的特點。核心數(shù)據(jù)由中央團隊管理,而其他數(shù)據(jù)由各業(yè)務部門自行管理。這樣可以平衡標準化和靈活性,但也增加了管理的復雜度。

(4)自治式數(shù)據(jù)治理:在這個模式下,數(shù)據(jù)的創(chuàng)建者同時也是數(shù)據(jù)的治理者。這種方法鼓勵自我管理和創(chuàng)新,但在缺乏適當監(jiān)管的情況下可能會導致數(shù)據(jù)濫用。

(5)數(shù)據(jù)湖治理:針對大數(shù)據(jù)環(huán)境下的數(shù)據(jù)治理,強調原始數(shù)據(jù)的存儲和管理,以便于后續(xù)的分析和使用。數(shù)據(jù)湖提供了靈活性和可擴展性,但需要嚴格的元數(shù)據(jù)和數(shù)據(jù)質量管理。

(6)數(shù)據(jù)倉庫治理:側重于結構化數(shù)據(jù)的存儲和管理,通常用于支持傳統(tǒng)的BI分析和報告。數(shù)據(jù)倉庫提供了一種結構化的方法來處理數(shù)據(jù),但可能不適用于非結構化或半結構化數(shù)據(jù)的處理。

(7)云原生數(shù)據(jù)治理:隨著云計算的普及,越來越多的企業(yè)采用云原生架構來進行數(shù)據(jù)治理。這種方式充分利用了云服務的彈性和可伸縮性,但同時也需要適應云環(huán)境的特性和挑戰(zhàn)。

(8)人工智能增強的數(shù)據(jù)治理:AI技術可以幫助自動化許多數(shù)據(jù)治理的任務,如分類、清洗和異常檢測等。這種方式可以提高效率和準確性,但同時也需要關注算法的透明度和偏見問題。

朱祥磊山東移動系統(tǒng)架構師:

大模型的數(shù)據(jù)治理和企業(yè)傳統(tǒng)數(shù)據(jù)分析的數(shù)據(jù)治理在關注領域、流程、方法上是一致的。

企業(yè)大模型的數(shù)據(jù)治理是確保數(shù)據(jù)質量、安全性、可靠性和一致性的重要過程。對于企業(yè)系統(tǒng)架構中已經具備AI數(shù)據(jù)平臺和分散式數(shù)據(jù)治理基礎,且綜合考慮需求應用場景,可以選擇建立數(shù)據(jù)管道,從各個數(shù)據(jù)源中提取數(shù)據(jù),并進行清洗、轉換和集成,最終將數(shù)據(jù)輸送到AI數(shù)據(jù)平臺。

另外,在選擇企業(yè)大模型數(shù)據(jù)治理的方法和工具時,我們更傾向于以下幾個方面:

(1)在數(shù)據(jù)治理中,首先要確保數(shù)據(jù)的標準化和規(guī)范化。這包括數(shù)據(jù)格式統(tǒng)一、數(shù)據(jù)命名規(guī)范、數(shù)據(jù)質量檢查等。標準化和規(guī)范化的數(shù)據(jù)可以確保數(shù)據(jù)的準確性和一致性,減少數(shù)據(jù)冗余和沖突,提高數(shù)據(jù)質量。

(2)數(shù)據(jù)安全和隱私保護是數(shù)據(jù)治理的關鍵要素。需要采取適當?shù)募用芗夹g和訪問控制措施來保護數(shù)據(jù)的安全性。隨著數(shù)據(jù)的大量增長,數(shù)據(jù)安全和隱私保護成為首要考慮的問題。保障數(shù)據(jù)安全可以避免數(shù)據(jù)泄露和濫用,保護企業(yè)的聲譽和客戶隱私。

(3)主數(shù)據(jù)管理和元數(shù)據(jù)管理:主數(shù)據(jù)管理是指對主要業(yè)務數(shù)據(jù)的統(tǒng)一管理和維護,而元數(shù)據(jù)管理是對數(shù)據(jù)屬性的描述和定義。主數(shù)據(jù)和元數(shù)據(jù)是數(shù)據(jù)治理的基礎,它們有助于提高數(shù)據(jù)的可理解性和可用性,幫助企業(yè)更好地理解其數(shù)據(jù)資產。

(4)數(shù)據(jù)流程管理和數(shù)據(jù)生命周期管理:數(shù)據(jù)流程管理涉及數(shù)據(jù)的采集、處理、存儲、分析和銷毀等過程,而數(shù)據(jù)生命周期管理關注數(shù)據(jù)的價值衰減和數(shù)據(jù)老化。合理的數(shù)據(jù)流程管理和生命周期管理可以優(yōu)化數(shù)據(jù)的處理流程,提高數(shù)據(jù)的價值和利用率,同時避免過時或無用的數(shù)據(jù)積累。

議題共識總結

隨著大模型應用的深入,促進各行各業(yè)不斷涌現(xiàn)新體驗、新業(yè)務、新行業(yè)的誕生,在未來,小到個人消費抉擇的分析,大到行業(yè)甚至宏觀經濟的決策,都會被人工智能改變。為了保障給大模型提供高質量的數(shù)據(jù)供給,數(shù)據(jù)治理工作重要性已經被提升到企業(yè)戰(zhàn)略之中。通過用戶群體共識,明確了企業(yè)大模型數(shù)據(jù)治理的重要性,以及數(shù)據(jù)治理模式呈現(xiàn)出多樣性。企業(yè)在選擇不同數(shù)據(jù)治理模式時,需要基于自身的業(yè)務需求、技術能力和戰(zhàn)略規(guī)劃等因素進行選擇。在選擇數(shù)據(jù)治理模式過程中,沒有一種單一的數(shù)據(jù)治理模式適用于所有企業(yè)和現(xiàn)實情況,企業(yè)應根據(jù)自身的具體情況來選擇單一或者組合數(shù)據(jù)治理模式。在具備數(shù)據(jù)平臺建設基礎的情況下,集中式數(shù)據(jù)治理模式獲得了眾多用戶的認可和支持,體現(xiàn)了其在實際應用中的治理效果和可行性。另外,企業(yè)在數(shù)據(jù)治理工作落地過程中還需要關注治理策略和流程、組織架構和角色分配、數(shù)據(jù)標準化和規(guī)范化、數(shù)據(jù)質量管理和校驗、數(shù)據(jù)安全和隱私保護、數(shù)據(jù)生命周期管理等工作內容。

綜上,在大模型的深入應用趨勢下,為了給大模型提供高質量的數(shù)據(jù)基礎,數(shù)據(jù)治理工作愈發(fā)重要,大模型數(shù)據(jù)治理的模式和工作內容多種多樣,企業(yè)應根據(jù)自身的實際情況和需求選擇適合的數(shù)據(jù)治理模式。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論