釋放非結(jié)構(gòu)化數(shù)據(jù)力量的 8 個(gè)技巧

充分利用企業(yè)數(shù)據(jù)是當(dāng)今IT領(lǐng)導(dǎo)者最關(guān)心的問(wèn)題。隨著企業(yè)在業(yè)務(wù)決策中尋求更多的數(shù)據(jù)驅(qū)動(dòng),IT領(lǐng)導(dǎo)者必須制定數(shù)據(jù)戰(zhàn)略,以便從數(shù)據(jù)中創(chuàng)造價(jià)值,無(wú)論數(shù)據(jù)存在于何處或以何種形式存在。

本文來(lái)自微信公眾號(hào)“計(jì)算機(jī)世界”。

充分利用企業(yè)數(shù)據(jù)是當(dāng)今IT領(lǐng)導(dǎo)者最關(guān)心的問(wèn)題。隨著企業(yè)在業(yè)務(wù)決策中尋求更多的數(shù)據(jù)驅(qū)動(dòng),IT領(lǐng)導(dǎo)者必須制定數(shù)據(jù)戰(zhàn)略,以便從數(shù)據(jù)中創(chuàng)造價(jià)值,無(wú)論數(shù)據(jù)存在于何處或以何種形式存在。

對(duì)于許多企業(yè)來(lái)說(shuō),文本、視頻、音頻、社交媒體、圖像、傳感器和其他格式的非結(jié)構(gòu)化數(shù)據(jù)仍然是難以捉摸和尚未開(kāi)發(fā)的。據(jù)行業(yè)研究估計(jì),多達(dá)90%的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),但根據(jù)Foundry的研究,61%的IT領(lǐng)導(dǎo)者表示,管理非結(jié)構(gòu)化數(shù)據(jù)是他們組織面臨的一個(gè)問(wèn)題,另有24%的IT領(lǐng)導(dǎo)者甚至沒(méi)有將非結(jié)構(gòu)化數(shù)據(jù)列入他們的數(shù)據(jù)和分析短名單。

非結(jié)構(gòu)化數(shù)據(jù)資源對(duì)于獲得業(yè)務(wù)洞察力和解決問(wèn)題極具價(jià)值。關(guān)鍵在于如何創(chuàng)造這種價(jià)值。能夠熟練利用這些龐大信息資源的企業(yè),可以在為關(guān)鍵業(yè)務(wù)流程提供可操作的洞察力方面獲得顯著優(yōu)勢(shì)。

下面我們來(lái)看看那些富有創(chuàng)造力的企業(yè)是如何將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為商業(yè)價(jià)值的,以及如何讓非結(jié)構(gòu)化數(shù)據(jù)為您的組織工作的一些技巧。

01|

增強(qiáng)創(chuàng)意流程

移動(dòng)游戲開(kāi)發(fā)公司RetroStyle Games的數(shù)據(jù)分析師Ivan Konoval說(shuō),在該公司,非結(jié)構(gòu)化數(shù)據(jù)已被證明是一座“金礦”,可直接促進(jìn)業(yè)務(wù)增長(zhǎng)和游戲改進(jìn)。

在RetroSyle Games使用非結(jié)構(gòu)化數(shù)據(jù)的眾多方式中,影響最大的可能是收集概念圖和音頻數(shù)據(jù)。

Konoval說(shuō):“我們游戲開(kāi)發(fā)人員的創(chuàng)意過(guò)程往往始于草圖、情緒板或概念圖。"這些作品雖然沒(méi)有結(jié)構(gòu),但卻捕捉到了我們希望在游戲中表達(dá)的精髓。為了確保這些作品不會(huì)遺失在其他作品中,并在將來(lái)制作游戲續(xù)集時(shí)可以很容易地找到,我們使用了先進(jìn)的圖像識(shí)別工具。”

這些工具會(huì)對(duì)作品中的各種元素進(jìn)行分類和標(biāo)記,無(wú)論是角色、風(fēng)景還是其他元素。Konoval認(rèn)為:“這樣我們的美術(shù)師和開(kāi)發(fā)人員就能快速找到相關(guān)的作品,從而保證設(shè)計(jì)的一致性,加快開(kāi)發(fā)進(jìn)程。此外,這個(gè)系統(tǒng)還允許我們存儲(chǔ)有關(guān)公司藝術(shù)品開(kāi)發(fā)的信息,這在培訓(xùn)新員工時(shí)非常有用。”

關(guān)于音頻數(shù)據(jù),配音在玩家的游戲世界體驗(yàn)中起著關(guān)鍵作用,科諾瓦爾說(shuō):“我們從游戲中的對(duì)話、背景聲音和玩家語(yǔ)音聊天中收集了大量數(shù)據(jù)。通過(guò)語(yǔ)音識(shí)別和聲音分析,我們可以提取出細(xì)微差別,如情緒和情感。”

例如,如果某個(gè)對(duì)話框?qū)е峦婕沂冀K帶著興奮的情緒進(jìn)入語(yǔ)音聊天,開(kāi)發(fā)人員就會(huì)注意到這一點(diǎn)。同樣,背景噪音等與環(huán)境不符的異常情況也會(huì)被識(shí)別出來(lái)并加以解決。

Konoval說(shuō):“從這些音頻數(shù)據(jù)中獲得的洞察力直接有助于改善游戲的音頻體驗(yàn),確保玩家在游戲中始終保持情感投入,并與環(huán)境互動(dòng)。”

Konoval指出,游戲是動(dòng)態(tài)的,游戲產(chǎn)生的數(shù)據(jù)也是動(dòng)態(tài)的。游戲內(nèi)聊天情感分析等功能需要實(shí)時(shí)處理,以過(guò)濾玩家的不當(dāng)行為。他說(shuō):“我們利用Apache Kafka等流處理框架解決了這個(gè)問(wèn)題。這使我們的游戲管理員能夠?qū)崟r(shí)應(yīng)對(duì)任何新出現(xiàn)的模式和問(wèn)題。”隨著每款游戲的發(fā)布和更新,處理的非結(jié)構(gòu)化數(shù)據(jù)量都會(huì)呈指數(shù)級(jí)增長(zhǎng)。他說(shuō):“如此龐大的數(shù)據(jù)量給存儲(chǔ)和高效處理帶來(lái)了嚴(yán)峻的挑戰(zhàn)。”

為了解決這個(gè)問(wèn)題,RetroStyle Games投資了數(shù)據(jù)湖。Konoval說(shuō):“這不僅使我們能夠存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù),還能對(duì)其進(jìn)行高效查詢和分析,為我們的數(shù)據(jù)科學(xué)家和開(kāi)發(fā)人員提供即時(shí)訪問(wèn)所需的信息。”

02|

為生成式人工智能提供動(dòng)力

員工識(shí)別和體驗(yàn)軟件供應(yīng)商Workhuman正在其基于云的平臺(tái)上以多種方式利用非結(jié)構(gòu)化數(shù)據(jù),該公司分析主管兼執(zhí)行董事Jesse Harriott表增:“非結(jié)構(gòu)化數(shù)據(jù)是最普遍的數(shù)據(jù)形式,但也是最難有效利用的數(shù)據(jù)。”

"哈里奧特說(shuō):"非結(jié)構(gòu)化數(shù)據(jù)是最普遍的數(shù)據(jù)形式,但也是最難有效使用的數(shù)據(jù)。

Workhuman云包含來(lái)自世界各地員工的數(shù)百萬(wàn)條表?yè)P(yáng)信息,他們分享了對(duì)同事的積極反饋。

Harriott說(shuō):“他們用自己的話來(lái)表達(dá),因此每個(gè)表?yè)P(yáng)時(shí)刻都是完全獨(dú)一無(wú)二的。我們利用這些數(shù)據(jù)建立人工智能模型,幫助公司更好地定義員工在組織中的合作方式、信息中最常出現(xiàn)的主題以及整個(gè)組織的表彰獎(jiǎng)勵(lì)是否公平。”

該公司還使用大型語(yǔ)言模型(LLM)來(lái)總結(jié)一段時(shí)間內(nèi)的表彰趨勢(shì),并為有效的表彰信息提供語(yǔ)言建議。

Harriott說(shuō):“我特別自豪的一項(xiàng)舉措是我們的工具Inclusion Advisor,這是一個(gè)基于人工智能的即時(shí)輔導(dǎo)工具,可以在獎(jiǎng)勵(lì)語(yǔ)言發(fā)送給受獎(jiǎng)人之前,識(shí)別并建議糾正無(wú)意識(shí)的偏見(jiàn)。”

從非結(jié)構(gòu)化數(shù)據(jù)中獲取價(jià)值所面臨的最大挑戰(zhàn)之一是,對(duì)于企業(yè)重點(diǎn)關(guān)注的業(yè)務(wù)用例而言,獲得可靠、有效的培訓(xùn)數(shù)據(jù)的途徑有限。

Harriott表示:“你可以擁有大量的非結(jié)構(gòu)化數(shù)據(jù),但如果沒(méi)有有效的訓(xùn)練數(shù)據(jù)來(lái)創(chuàng)建和驗(yàn)證模型,進(jìn)度和質(zhì)量都會(huì)受到影響。利用LLM當(dāng)然可以在這方面有所幫助,但現(xiàn)有的LLM無(wú)法有效捕捉許多業(yè)務(wù)用例。”

此外,Harriott指出:“在LLM中,訓(xùn)練數(shù)據(jù)仍可能存在偏差問(wèn)題。Workhuman有一個(gè)語(yǔ)言學(xué)團(tuán)隊(duì),負(fù)責(zé)數(shù)據(jù)注釋、增強(qiáng)和驗(yàn)證,以解決其中的一些問(wèn)題。我們還與大型跨國(guó)客戶合作,確保模型產(chǎn)生有意義和有用的結(jié)果。”

03|

將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為價(jià)值的技巧

Harriott、Konoval和其他數(shù)據(jù)專家就如何確保在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)取得成功提出了建議。

1.將計(jì)劃與業(yè)務(wù)成果掛鉤。Harriott認(rèn)為,IT領(lǐng)導(dǎo)者應(yīng)確保利用非結(jié)構(gòu)化數(shù)據(jù)的計(jì)劃與業(yè)務(wù)需求緊密結(jié)合,并得到高管的支持。

Harriott說(shuō):“通常情況下,一個(gè)團(tuán)隊(duì)可能對(duì)非結(jié)構(gòu)化數(shù)據(jù)有一個(gè)創(chuàng)造性的使用案例,但與關(guān)鍵業(yè)務(wù)成果之間的聯(lián)系對(duì)其他人來(lái)說(shuō)并不明顯,因此可能會(huì)失去支持。領(lǐng)導(dǎo)者有責(zé)任讓組織了解使用案例為何重要,以及如何直接或間接地推動(dòng)業(yè)務(wù)效益。”

2.認(rèn)可過(guò)程。此外,數(shù)據(jù)領(lǐng)導(dǎo)者還應(yīng)該設(shè)定并慶祝計(jì)劃的里程碑,尤其是考慮到利用非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造價(jià)值的挑戰(zhàn)有多么困難。

Harriott說(shuō):“讓非結(jié)構(gòu)化數(shù)據(jù)具有可操作性可能需要比業(yè)務(wù)預(yù)期更多的時(shí)間和精力。通過(guò)認(rèn)可里程碑,領(lǐng)導(dǎo)者可以讓其他利益相關(guān)者了解正在取得的進(jìn)展,還可以確保團(tuán)隊(duì)成員對(duì)他們?yōu)閷?shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)可操作性所付出的努力感到贊賞。”

3.質(zhì)量是第一要?jiǎng)?wù)。成功的另一個(gè)關(guān)鍵是優(yōu)先考慮數(shù)據(jù)質(zhì)量。

Konoval說(shuō):“垃圾進(jìn),垃圾出'這句諺語(yǔ)再恰當(dāng)不過(guò)了。在不確保數(shù)據(jù)質(zhì)量的情況下進(jìn)行分析可能會(huì)適得其反。我們一直采取這種方法:清理數(shù)據(jù),刪除不必要的內(nèi)容,確保數(shù)據(jù)符合質(zhì)量標(biāo)準(zhǔn)。”

Konoval指出:“在游戲行業(yè)。錯(cuò)誤的決策可能會(huì)導(dǎo)致昂貴的功能開(kāi)發(fā),而玩家可能不會(huì)產(chǎn)生共鳴,更有甚者,可能會(huì)出現(xiàn)有損我們聲譽(yù)的錯(cuò)誤。我們嚴(yán)格的數(shù)據(jù)治理框架確保了我們分析的基礎(chǔ)堅(jiān)如磐石。”

4.將可操作的數(shù)據(jù)與信息分開(kāi)。優(yōu)先考慮業(yè)務(wù)用戶可以采取行動(dòng)的數(shù)據(jù)也至關(guān)重要。主機(jī)托管和數(shù)據(jù)服務(wù)提供商DataBank首席運(yùn)營(yíng)官Joe Minarik說(shuō):“重要的是數(shù)據(jù)量,以及能夠區(qū)分哪些是可操作的,哪些是信息性的。”

為了強(qiáng)調(diào)這一點(diǎn)的重要性,Minarik以使用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行系統(tǒng)監(jiān)控為例。他說(shuō):“必須對(duì)可操作的方面進(jìn)行優(yōu)先排序并快速處理。由于對(duì)系統(tǒng)的許多方面都進(jìn)行了監(jiān)控,因此一個(gè)問(wèn)題就會(huì)從下游設(shè)備中產(chǎn)生警報(bào)和信息,導(dǎo)致警報(bào)、報(bào)警和信息過(guò)多,需要對(duì)這些信息進(jìn)行篩選,以確定真正需要解決的單一方面。”

5.充分利用人工智能。繼續(xù)舉例說(shuō)明,Minarik指出了人工智能和機(jī)器學(xué)習(xí)在長(zhǎng)期分析非結(jié)構(gòu)化數(shù)據(jù)流方面發(fā)揮的重要作用。他說(shuō):“它可以幫助你建立系統(tǒng)相關(guān)性。這可以讓你放棄噪音,立即找到根本問(wèn)題。”

例如,企業(yè)可以部署命名實(shí)體識(shí)別(NER),這是自然語(yǔ)言處理(NLP)的一個(gè)組成部分,重點(diǎn)是識(shí)別非結(jié)構(gòu)化文本中的命名實(shí)體并對(duì)其進(jìn)行分類,標(biāo)記如“人”、“組織”或“地點(diǎn)”。

Minarik指出:“在實(shí)際應(yīng)用中,實(shí)體識(shí)別在眾多應(yīng)用中發(fā)揮著至關(guān)重要的作用。這些應(yīng)用包括索引和組織內(nèi)容的信息檢索系統(tǒng)、在文本中定位答案的問(wèn)題解答系統(tǒng),以及根據(jù)識(shí)別實(shí)體個(gè)性化內(nèi)容的內(nèi)容推薦引擎。通過(guò)識(shí)別命名實(shí)體并對(duì)其進(jìn)行分類,NER使數(shù)據(jù)分析師和系統(tǒng)工程師能夠從收集到的大量數(shù)據(jù)中獲得有價(jià)值的見(jiàn)解。”

6.通過(guò)可視化確保價(jià)值。Minarik認(rèn)為,使非結(jié)構(gòu)化數(shù)據(jù)可用的過(guò)程并不止于分析。報(bào)告和結(jié)果交流是這一過(guò)程的高潮。

Minarik說(shuō):“報(bào)告通常包括對(duì)主要發(fā)現(xiàn)、方法和分析意義的結(jié)構(gòu)化呈現(xiàn)??梢暬?,如圖表、圖形和儀表盤,有助于以易于理解的格式傳達(dá)復(fù)雜的數(shù)據(jù)??梢暬谋憩F(xiàn)形式不僅有助于理解,還能讓利益相關(guān)者更容易識(shí)別趨勢(shì)、異常值和關(guān)鍵見(jiàn)解,確保及時(shí)做出數(shù)據(jù)驅(qū)動(dòng)的決策。”

7.邊做邊監(jiān)控。Minarik說(shuō),另一個(gè)有時(shí)被忽視的關(guān)鍵做法是需要持續(xù)監(jiān)控和維護(hù)。他說(shuō):“現(xiàn)實(shí)生活中的數(shù)據(jù)是動(dòng)態(tài)的,不斷變化的。持續(xù)監(jiān)控和維護(hù)是確保數(shù)據(jù)長(zhǎng)期可用的關(guān)鍵。”

Minarik表示,關(guān)鍵在于定期清理和執(zhí)行質(zhì)量檢查,以保持?jǐn)?shù)據(jù)的準(zhǔn)確性和可靠性。必須及時(shí)發(fā)現(xiàn)并糾正數(shù)據(jù)異常、不一致和重復(fù),以防止分析出現(xiàn)偏差或錯(cuò)誤。

8.保持團(tuán)隊(duì)技能的敏銳性。最后,投資開(kāi)發(fā)正確的技能是一種良好的做法--鑒于基礎(chǔ)工具的不斷發(fā)展,這項(xiàng)工作必須持續(xù)進(jìn)行。

Konoval認(rèn)為:“數(shù)據(jù)分析的世界,尤其是圍繞非結(jié)構(gòu)化數(shù)據(jù)的分析,是動(dòng)態(tài)的。最小的優(yōu)勢(shì),比如一支熟練掌握最新圖像識(shí)別技術(shù)和分析概念圖的團(tuán)隊(duì),就能決定一款游戲是成功還是失敗。我們已經(jīng)看到先進(jìn)技術(shù)的成果如何影響我們游戲的故事講述和設(shè)計(jì),從而帶來(lái)積極的反饋并提高玩家的參與度。”

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論