大數(shù)據(jù)技術(shù)的概念,特點(diǎn),架構(gòu)演進(jìn),技術(shù)發(fā)展及其應(yīng)用狀況

丁哥開講
大數(shù)據(jù)和物聯(lián)網(wǎng)協(xié)同工作。從物聯(lián)網(wǎng)設(shè)備中提取的數(shù)據(jù)提供了設(shè)備間的相互連接映射。這種映射已經(jīng)被媒體行業(yè)、企業(yè)和政府用于更準(zhǔn)確地定位受眾,提高媒體效率。物聯(lián)網(wǎng)也越來越多地被用作收集感官數(shù)據(jù)的手段,這些感官數(shù)據(jù)已經(jīng)被應(yīng)用于醫(yī)療、制造和交通等場(chǎng)景。

【定義】

大數(shù)據(jù)這個(gè)詞從20世紀(jì)90年代就開始使用。

大數(shù)據(jù)通常包括規(guī)模超過常用軟件工具在可容忍的時(shí)間內(nèi)抓取、研究、管理和處理數(shù)據(jù)的能力的數(shù)據(jù)集。

大數(shù)據(jù)的理念包括非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù),主要的重點(diǎn)是非結(jié)構(gòu)化數(shù)據(jù)。

大數(shù)據(jù)的 "規(guī)模"是一個(gè)不斷變化的概念,大數(shù)據(jù)需要一套技術(shù)整合,才能從多樣化、復(fù)雜化、大規(guī)模的數(shù)據(jù)集中揭示出規(guī)律。

2018年的一個(gè)定義指出,"大數(shù)據(jù)是需要并行計(jì)算工具來處理的數(shù)據(jù)",并指出,"這代表著通過并行編程理論,對(duì)所使用的計(jì)算機(jī)科學(xué)產(chǎn)生了明顯的、明確的需求變化,同時(shí)也損失了Codd關(guān)系模型所具備的一些保障和能力"。

這個(gè)概念的日益成熟,更加鮮明地劃定了 "大數(shù)據(jù)"與 "商業(yè)智能"的區(qū)別:

商業(yè)智能是利用應(yīng)用數(shù)學(xué)工具和描述性統(tǒng)計(jì)學(xué),用高信息密度的數(shù)據(jù)來衡量事物、檢測(cè)趨勢(shì)等等。

大數(shù)據(jù)利用數(shù)學(xué)分析、優(yōu)化、歸納統(tǒng)計(jì)和非線性系統(tǒng)識(shí)別的概念,從信息密度較低的大數(shù)據(jù)集中推斷出規(guī)律(回歸、非線性關(guān)系和因果效應(yīng)),揭示關(guān)系和依賴性,或?qū)Y(jié)果和行為進(jìn)行預(yù)測(cè)。

【關(guān)鍵概念】

大數(shù)據(jù)技術(shù)是處理分析數(shù)據(jù)集并且系統(tǒng)地從數(shù)據(jù)集中提取信息或以其他方式處理數(shù)據(jù)集的技術(shù)。

由于這些數(shù)據(jù)集過于龐大或復(fù)雜,以至于傳統(tǒng)的數(shù)據(jù)處理應(yīng)用軟件無法處理。

具有多種用例的數(shù)據(jù)會(huì)提供更大的統(tǒng)計(jì)能力,而復(fù)雜度較高的數(shù)據(jù)更有可能會(huì)導(dǎo)致錯(cuò)誤。

大數(shù)據(jù)的挑戰(zhàn)包括數(shù)據(jù)的捕獲、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、搜索、共享、傳輸、可視化、查詢、更新、信息隱私和數(shù)據(jù)來源等等。

大數(shù)據(jù)與三個(gè)關(guān)鍵概念相關(guān):

數(shù)量、種類和變化速度。

【數(shù)量】

當(dāng)我們?cè)谔幚泶髷?shù)據(jù)時(shí),可能不是采樣,而是簡(jiǎn)單地觀察和跟蹤發(fā)生的事情。

大數(shù)據(jù)往往包括了在可接受的時(shí)間和價(jià)值范圍內(nèi)超過傳統(tǒng)軟件處理能力的數(shù)據(jù)。

目前對(duì)大數(shù)據(jù)這個(gè)詞的使用,往往是指使用預(yù)測(cè)分析、用戶行為分析或某些其他高級(jí)數(shù)據(jù)分析方法,從數(shù)據(jù)中提取價(jià)值,而很少指特定規(guī)模的數(shù)據(jù)集。

毫無疑問,現(xiàn)在的數(shù)據(jù)量確實(shí)很大,但這并不是這個(gè)新的數(shù)據(jù)生態(tài)系統(tǒng)最相關(guān)的特征。

【種類】

分析數(shù)據(jù)集可以找到新的關(guān)聯(lián)性,用以發(fā)現(xiàn)商業(yè)趨勢(shì)、預(yù)防疾病、打擊犯罪等等。

科學(xué)家、企業(yè)高管、醫(yī)學(xué)從業(yè)者、廣告業(yè)者和政府都經(jīng)常遇到大數(shù)據(jù)集處理的困難,這些領(lǐng)域包括互聯(lián)網(wǎng)搜索、金融科技、城市信息學(xué)、商業(yè)信息學(xué)等。

科學(xué)家在電子科學(xué)工作中遇到的限制,包括氣象學(xué)、基因組學(xué)、連接組學(xué)、復(fù)雜的物理模擬、生物學(xué)和環(huán)境研究等等。

【變化速度】

數(shù)據(jù)集的快速增長(zhǎng),在一定程度上是因?yàn)樗鼈冊(cè)絹碓蕉嗟乇灰苿?dòng)設(shè)備、航拍(遙感)、軟件日志、攝像頭、麥克風(fēng)、射頻識(shí)別(RFID)讀卡器和無線傳感網(wǎng)絡(luò)等廉價(jià)且數(shù)量眾多的信息傳感物聯(lián)網(wǎng)設(shè)備所收集。

自20世紀(jì)80年代以來,全球人均存儲(chǔ)信息的技術(shù)能力大致以每40個(gè)月增加一倍的速度增長(zhǎng)。截至2012年,每天都有2.5 exabytes(1exabytes = 1.0E+9 Gigabytes)的數(shù)據(jù)產(chǎn)生。

根據(jù)IDC的報(bào)告預(yù)測(cè),2013年至2020年,全球數(shù)據(jù)量將從4.4 zettabytes(1 Zettabytes = 1.0E+12 Gigabytes)呈指數(shù)級(jí)增長(zhǎng),達(dá)到44zettabytes。

到2025年,IDC預(yù)測(cè)將有163zettabytes的數(shù)據(jù)量,大型企業(yè)面臨的一個(gè)問題是確定誰應(yīng)該制定影響整個(gè)組織的大數(shù)據(jù)舉措。

關(guān)系型數(shù)據(jù)庫管理系統(tǒng)、桌面統(tǒng)計(jì)和用于可視化數(shù)據(jù)的軟件包往往難以處理大數(shù)據(jù)。這些工作可能需要使用可在幾十臺(tái)、幾百臺(tái)甚至幾千臺(tái)服務(wù)器上運(yùn)行的大規(guī)模并行軟件系統(tǒng)。

"大數(shù)據(jù)"的定義取決于用戶及其工具的能力,而不斷擴(kuò)大的能力使大數(shù)據(jù)成為一個(gè)移動(dòng)的目標(biāo)概念。

對(duì)于一些企業(yè)來說,第一次面對(duì)數(shù)百GB(千兆字節(jié))的數(shù)據(jù),可能會(huì)引發(fā)企業(yè)重新考慮數(shù)據(jù)管理方案。

而對(duì)于另一些組織來說,可能要等到幾十兆或幾百terabytes(百萬兆字節(jié))的數(shù)據(jù)規(guī)模才會(huì)成為重要的考慮因素。

【特點(diǎn)】

大數(shù)據(jù)存在如下屬性特征:

體積

產(chǎn)生和存儲(chǔ)的數(shù)據(jù)量。

數(shù)據(jù)的大小決定了數(shù)據(jù)的價(jià)值和潛在的規(guī)律,也決定了它是否可以被認(rèn)為是大數(shù)據(jù)。

品種

數(shù)據(jù)的類型和性質(zhì)。

這有助于分析數(shù)據(jù)的人有效利用由此產(chǎn)生的規(guī)律。大數(shù)據(jù)從文字、圖像、音頻、視頻中提取,再加上數(shù)據(jù)融合來完成缺失的部分。

速度

數(shù)據(jù)產(chǎn)生和處理的速度,以滿足成長(zhǎng)和發(fā)展道路上的需求和挑戰(zhàn)。

大數(shù)據(jù)往往具有實(shí)時(shí)性。與小數(shù)據(jù)相比,大數(shù)據(jù)的產(chǎn)生更具有持續(xù)性。與大數(shù)據(jù)相關(guān)的兩種速度是產(chǎn)生和處理的頻率、記錄和發(fā)布的頻率。

真實(shí)性

它是大數(shù)據(jù)的延伸定義,指的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)價(jià)值。如果采集到的數(shù)據(jù)質(zhì)量有很大的差異,就會(huì)影響到分析的準(zhǔn)確性。

大數(shù)據(jù)的數(shù)據(jù)質(zhì)量是指數(shù)據(jù)質(zhì)量和數(shù)據(jù)價(jià)值。

大數(shù)據(jù)的其他重要特征是:

詳盡無遺

整個(gè)系統(tǒng)是否被捕獲或記錄。

細(xì)粒度和唯一性

分別是指每個(gè)元素的具體數(shù)據(jù)的比例,每個(gè)元素的具體數(shù)據(jù)的收集,以及元素及其特征是否被適當(dāng)?shù)乃饕蜃R(shí)別。

相關(guān)性

如果收集到的數(shù)據(jù)中包含共性字段,可以對(duì)不同的數(shù)據(jù)集進(jìn)行聯(lián)接或元分析。

擴(kuò)展性

收集到的數(shù)據(jù)中的每個(gè)元素中的新字段是否可以很容易地添加或更改。

可擴(kuò)展性

數(shù)據(jù)的大小是否可以迅速擴(kuò)大。

價(jià)值

是否可以從數(shù)據(jù)中提取的效用。

變化性

它是指其價(jià)值或其他特征相對(duì)于其產(chǎn)生的背景而發(fā)生變化的數(shù)據(jù)。

【架構(gòu)演進(jìn)】

大數(shù)據(jù)存儲(chǔ)庫以多種形式存在,通常是由有特殊需求的企業(yè)創(chuàng)建。

【并行數(shù)據(jù)庫管理系統(tǒng)】

從20世紀(jì)90年代開始,商業(yè)廠商提供了大數(shù)據(jù)并行數(shù)據(jù)庫管理系統(tǒng)。多年來,WinterCorp公司發(fā)布了最大的數(shù)據(jù)庫報(bào)告。

Teradata公司在1984年推出了并行處理的DBC 1012系統(tǒng)。1992年,Teradata系統(tǒng)是第一個(gè)能夠存儲(chǔ)和分析1個(gè)terabytes數(shù)據(jù)的系統(tǒng)。1991年,硬盤容量為2.5GB,所以根據(jù)Kryder定律,大數(shù)據(jù)的定義在不斷發(fā)展。

Teradata在2007年安裝了第一個(gè)基于petabyte級(jí)的RDBMS系統(tǒng)。

截止到2017年,Teradata的關(guān)系型數(shù)據(jù)庫已經(jīng)安裝了幾十個(gè)petabyte級(jí)的Teradata關(guān)系型數(shù)據(jù)庫,其中最大的超過50PB。

【結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)】

2008年之前的系統(tǒng)都是100%的結(jié)構(gòu)化關(guān)系型數(shù)據(jù)。

此后,Teradata又增加了非結(jié)構(gòu)化數(shù)據(jù)類型,包括XML、JSON和Avro。

【分布式平臺(tái)】

2000年,Seisint公司(現(xiàn)在的LexisNexis Risk Inc)開發(fā)了一個(gè)基于C++的分布式數(shù)據(jù)處理和查詢平臺(tái),被稱為HPCC系統(tǒng)平臺(tái)。

該系統(tǒng)可在多個(gè)商品服務(wù)器上自動(dòng)分區(qū)、分發(fā)、存儲(chǔ)和傳遞結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶可以用一種名為ECL的聲明式數(shù)據(jù)流編程語言編寫數(shù)據(jù)處理管道和查詢。在ECL中工作的數(shù)據(jù)分析人員不需要預(yù)先定義數(shù)據(jù)模式,而是可以專注于手頭的特定問題,在開發(fā)解決方案時(shí)以最佳的方式重塑數(shù)據(jù)。2004年,LexisNexis收購了Seisint公司及其高速并行處理平臺(tái),并在2008年收購Choicepoint公司時(shí),成功地利用該平臺(tái)整合了Choicepoint公司的數(shù)據(jù)系統(tǒng),2011年,HPCC系統(tǒng)平臺(tái)在Apache v2.0許可證下開源。

【高通量計(jì)算】

歐洲核子研究中心和其他物理實(shí)驗(yàn)收集大數(shù)據(jù)集已有數(shù)十年的歷史,通常是通過高通量計(jì)算來分析,而不是目前流行的"大數(shù)據(jù)"模式,通常指的MapReduce架構(gòu)。

【MapReduce架構(gòu)】

2004年,谷歌發(fā)表了一篇名為MapReduce的論文。MapReduce提供了一個(gè)并行處理模型,并發(fā)布了相關(guān)的實(shí)現(xiàn)來處理海量數(shù)據(jù)。通過MapReduce模型,查詢工作被拆分并分布在并行節(jié)點(diǎn)上,然后進(jìn)行并行處理(Map步驟),然后將結(jié)果進(jìn)行收集并交付(Reduce步驟)。

這個(gè)框架是非常成功的,Apache開源項(xiàng)目Hadoop采用了MapReduce框架的實(shí)現(xiàn),Apache Spark在2012年針對(duì)MapReduce范式的局限性而創(chuàng)建,它增加了許多操作的設(shè)置能力,而不僅僅是Map之后的Reduce。

【MIKE2.0】

MIKE2.0是一種開放的信息管理方法論,該方法論解決了在處理大數(shù)據(jù)時(shí)的幾個(gè)困難:

· 數(shù)據(jù)源的有效組合

· 相互關(guān)系的復(fù)雜性

· 刪除(或修改)單個(gè)記錄

等方面。

【多層架構(gòu)】

2012年的研究表明,多層架構(gòu)是解決大數(shù)據(jù)帶來的問題的一種選擇。分布式并行架構(gòu)將數(shù)據(jù)分布在多個(gè)服務(wù)器上,這些并行執(zhí)行環(huán)境可以顯著提高數(shù)據(jù)處理速度。這種類型的架構(gòu)將數(shù)據(jù)插入到并行DBMS中,實(shí)現(xiàn)了MapReduce和Hadoop框架的使用。這種類型的框架希望通過使用前端應(yīng)用服務(wù)讓處理對(duì)終端用戶透明化 。

【數(shù)據(jù)湖泊】

數(shù)據(jù)湖泊使處理的重點(diǎn)從集中控制轉(zhuǎn)移到共享模式,以應(yīng)對(duì)信息管理的動(dòng)態(tài)變化。這樣可以將數(shù)據(jù)快速隔離到數(shù)據(jù)湖泊中,從而減少了時(shí)間開銷。

【技術(shù)發(fā)展】

2011年麥肯錫全球研究所的一份報(bào)告將大數(shù)據(jù)的主要組成部分和生態(tài)系統(tǒng)描述如下:

· 數(shù)據(jù)分析技術(shù),如A/B測(cè)試、機(jī)器學(xué)習(xí)和自然語言處理等數(shù)據(jù)分析技術(shù)

· 商業(yè)智能、云計(jì)算和數(shù)據(jù)庫等大數(shù)據(jù)技術(shù)

· 可視化,如圖表、圖形和其他數(shù)據(jù)顯示等

多維大數(shù)據(jù)可以用OLAP數(shù)據(jù)立方體來表示,或者在數(shù)學(xué)上也可以用張量(tensor)來表示。

陣列數(shù)據(jù)庫系統(tǒng)已經(jīng)著手為這種數(shù)據(jù)類型提供存儲(chǔ)和高級(jí)查詢支持。

正在應(yīng)用于大數(shù)據(jù)的其他技術(shù)包括基于張量(tensor)的高效計(jì)算,如:

· 多線子空間學(xué)習(xí)、

· 大規(guī)模并行處理(MPP)數(shù)據(jù)庫、

· 基于搜索的應(yīng)用、

· 數(shù)據(jù)挖掘、

· 分布式文件系統(tǒng)、

· 分布式緩存(如突發(fā)緩沖器和Memcached)、

· 分布式數(shù)據(jù)庫、

· 云

· 基于HPC的基礎(chǔ)設(shè)施(應(yīng)用、存儲(chǔ)和計(jì)算資源)

· 互聯(lián)網(wǎng)

雖然許多方法和技術(shù)已經(jīng)形成了氣候,但要利用大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)仍然是困難重重。

【MPP關(guān)系型數(shù)據(jù)庫】

一些MPP關(guān)系型數(shù)據(jù)庫具有存儲(chǔ)和管理PB級(jí)數(shù)據(jù)的能力,也就是指擁有對(duì)RDBMS中的大數(shù)據(jù)表進(jìn)行加載、監(jiān)控、備份和優(yōu)化使用的能力。

【DARPA的拓?fù)鋽?shù)據(jù)分析】

DARPA的拓?fù)鋽?shù)據(jù)分析通過尋求海量數(shù)據(jù)集的基本結(jié)構(gòu)來處理,2008年,該技術(shù)隨著一家名為Ayasdi的公司的推出而為業(yè)界所熟悉。

【共享存儲(chǔ)】

大數(shù)據(jù)分析過程的從業(yè)者普遍對(duì)速度較慢的共享存儲(chǔ)持有懷疑態(tài)度,他們更喜歡各種形式的直連式存儲(chǔ)(DAS):

· 固態(tài)硬盤(SSD)

· 部署在并行處理節(jié)點(diǎn)內(nèi)的大容量SATA磁盤。

共享存儲(chǔ)架構(gòu)如:

· 存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)

· 網(wǎng)絡(luò)連接存儲(chǔ)(NAS)

人們對(duì)共享存儲(chǔ)架構(gòu)的看法是:相對(duì)較慢、復(fù)雜而且昂貴。

這些特點(diǎn)與大數(shù)據(jù)分析系統(tǒng)的要求相悖,因?yàn)榇髷?shù)據(jù)分析系統(tǒng)很深的依賴于系統(tǒng)性能、商用的基礎(chǔ)設(shè)施并且追求低成本。

實(shí)時(shí)或近乎實(shí)時(shí)的信息傳遞是大數(shù)據(jù)分析的重要需求之一。

因此要盡可能地避免延遲。

訪問直連的內(nèi)存或磁盤中的數(shù)據(jù)是好的方式,而跨連的FC SAN的內(nèi)存或磁盤數(shù)據(jù)訪問則不理想。并且在分析應(yīng)用所需的規(guī)模下,SAN的成本比其他存儲(chǔ)技術(shù)要高得多。

總的來說,在大數(shù)據(jù)分析中,共享存儲(chǔ)有優(yōu)點(diǎn)也有缺點(diǎn),但截至2011年,大數(shù)據(jù)分析從業(yè)者并不看好共享存儲(chǔ)。

也許隨著網(wǎng)絡(luò)速度的大大提升,人們對(duì)于共享存儲(chǔ)的觀念會(huì)有所改變。

【應(yīng)用】

大數(shù)據(jù)研究增加了對(duì)信息管理專家的需求。

Software AG、甲骨文公司、IBM、微軟、SAP、EMC、惠普和戴爾公司在專門從事數(shù)據(jù)管理和分析的軟件公司上花費(fèi)了超過150億美元。

2010年,這個(gè)行業(yè)的價(jià)值超過了1000億美元,并且每年以近10%的速度增長(zhǎng):這個(gè)速度大約是整個(gè)軟件業(yè)務(wù)的兩倍。

發(fā)達(dá)經(jīng)濟(jì)體越來越多地使用數(shù)據(jù)密集型技術(shù)。

全世界有46億移動(dòng)電話用戶,有10億至20億人使用互聯(lián)網(wǎng),1990年至2005年期間,全世界有10億多人進(jìn)入中產(chǎn)階級(jí),這意味著對(duì)于知識(shí)量擴(kuò)展需求的增加,這反過來又帶動(dòng)了信息的增長(zhǎng)。

1986年,全球通過電信網(wǎng)絡(luò)進(jìn)行信息交換的有效容量為281兆字節(jié)(petabytes),1993年為471 281 兆字節(jié)(petabytes),2000年為2.2 以太字節(jié)(exabytes),2007年為65以太字節(jié)(exabytes),據(jù)預(yù)測(cè),到2014年,每年的互聯(lián)網(wǎng)流量將達(dá)到667以太字節(jié)(exabytes),據(jù)一項(xiàng)估計(jì),全球存儲(chǔ)的信息有三分之一是以字母數(shù)字文本和靜態(tài)圖像數(shù)據(jù)的形式。這也從一個(gè)側(cè)面反映了尚未使用的數(shù)據(jù)形式如視頻和音頻形式的潛力。

雖然許多廠商提供了現(xiàn)成的大數(shù)據(jù)解決方案,但專家們建議如果公司有足夠的技術(shù)能力,可以在公司內(nèi)部開發(fā)定制化的解決方案,以解決公司當(dāng)前面臨的大數(shù)據(jù)處理問題。

【政府】

大數(shù)據(jù)在政府流程中的使用可以提高效率、生產(chǎn)力和創(chuàng)新能力,但數(shù)據(jù)分析往往需要政府的多個(gè)部門(中央和地方)協(xié)同合作,創(chuàng)建新的創(chuàng)新流程,以達(dá)到預(yù)期的結(jié)果。

CRVS(民事登記和生命統(tǒng)計(jì))收集從出生到死亡的所有證書狀態(tài)。

民事登記和人口動(dòng)態(tài)統(tǒng)計(jì)系統(tǒng)是政府的一個(gè)大數(shù)據(jù)來源。

【國際發(fā)展】

關(guān)于有效利用信息和通信技術(shù)促進(jìn)發(fā)展(也稱為ICT4D)的研究表明,大數(shù)據(jù)技術(shù)可以做出重要貢獻(xiàn),但同時(shí)也給國際發(fā)展帶來了獨(dú)特的挑戰(zhàn)。

大數(shù)據(jù)分析的進(jìn)步為改善保健、就業(yè)、經(jīng)濟(jì)生產(chǎn)力、治理犯罪、安全、自然災(zāi)害和資源管理等關(guān)鍵發(fā)展領(lǐng)域的決策提供了卓有成效的幫助。

此外,用戶生成的數(shù)據(jù)也提供了新的更多的機(jī)會(huì),讓名不見經(jīng)傳的普通人也有了發(fā)言權(quán)。

然而,發(fā)展中地區(qū)長(zhǎng)期以來面臨的挑戰(zhàn),如技術(shù)基礎(chǔ)設(shè)施不足、經(jīng)濟(jì)和人力資源匱乏等等問題,帶來了諸如隱私、方法不完善和互操作性不規(guī)范等等的問題。

【醫(yī)療保健】

大數(shù)據(jù)分析通過提供個(gè)性化醫(yī)療及處方分析、臨床風(fēng)險(xiǎn)干預(yù)及預(yù)測(cè)分析、減少浪費(fèi)及護(hù)理變異性、患者數(shù)據(jù)的外部及內(nèi)部自動(dòng)報(bào)告、標(biāo)準(zhǔn)化的醫(yī)療術(shù)語及患者登記再加上碎片化的處理解決方案,幫助醫(yī)療系統(tǒng)改善了醫(yī)療服務(wù)。

有些領(lǐng)域的改善還存在一些不足。

醫(yī)療系統(tǒng)內(nèi)部產(chǎn)生的數(shù)據(jù)量是巨大的。隨著mHealth、eHealth和可穿戴技術(shù)的增加,數(shù)據(jù)量將繼續(xù)增加。這包括電子健康記錄數(shù)據(jù)、影像數(shù)據(jù)、患者數(shù)據(jù)、傳感器數(shù)據(jù)和其他難以處理的數(shù)據(jù)。

現(xiàn)在,這樣的環(huán)境更需要重視數(shù)據(jù)和信息質(zhì)量。

大數(shù)據(jù)很多時(shí)候存在'臟數(shù)據(jù)'的情況,數(shù)據(jù)不準(zhǔn)確的比例會(huì)隨著數(shù)據(jù)量的增長(zhǎng)而增加。

在大數(shù)據(jù)規(guī)模下,人類的檢查是不可能達(dá)到預(yù)期效果的,醫(yī)療服務(wù)領(lǐng)域迫切需要智能工具來控制和處理信息的準(zhǔn)確性和可信度,并對(duì)遺漏的信息進(jìn)行處理。

雖然現(xiàn)在醫(yī)療領(lǐng)域的大量信息都是電子化的,但由于大部分是非結(jié)構(gòu)化的數(shù)據(jù),難以直接使用,這些信息都符合大數(shù)據(jù)研究的范疇。

大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用提出了重大的倫理挑戰(zhàn),從個(gè)人權(quán)利、隱私和自主權(quán)的風(fēng)險(xiǎn)評(píng)估,到透明度和信任度等方面都有很大的挑戰(zhàn)。

大數(shù)據(jù)在健康領(lǐng)域研究中的探索性生物醫(yī)學(xué)研究的應(yīng)用前景特別被看好,因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的分析能夠比假設(shè)驅(qū)動(dòng)的研究更快地推進(jìn),接著,在數(shù)據(jù)分析中看到的趨勢(shì)可以在傳統(tǒng)的假設(shè)驅(qū)動(dòng)的后續(xù)生物學(xué)研究中進(jìn)行實(shí)踐檢驗(yàn),最終可以推動(dòng)進(jìn)行臨床研究。

在醫(yī)療衛(wèi)生領(lǐng)域內(nèi),醫(yī)學(xué)中的計(jì)算機(jī)輔助診斷是依賴大數(shù)據(jù)的應(yīng)用細(xì)分領(lǐng)域。比如說,對(duì)于癲癇監(jiān)測(cè),每天要建立5到10GB的數(shù)據(jù)。

同樣地,一個(gè)未壓縮的乳腺斷層掃描圖像平均需要450MB的數(shù)據(jù)。

這些只是計(jì)算機(jī)輔助診斷使用大數(shù)據(jù)幾個(gè)簡(jiǎn)單例子。

大數(shù)據(jù)被認(rèn)為是計(jì)算機(jī)輔助診斷系統(tǒng)需要克服的七大挑戰(zhàn)之一。

【教育】

麥肯錫全球研究所的一項(xiàng)研究發(fā)現(xiàn),全球缺乏150萬受過良好訓(xùn)練的數(shù)據(jù)專業(yè)人才和管理人員,包括田納西大學(xué)和加州大學(xué)伯克利分校在內(nèi)的一些大學(xué)都開設(shè)了碩士課程,以滿足這一需求。

私人訓(xùn)練營也開發(fā)了一些項(xiàng)目來滿足這種需求,包括像數(shù)據(jù)孵化器這樣的免費(fèi)項(xiàng)目,或者像General Assembly這樣的付費(fèi)項(xiàng)目。

在營銷的具體領(lǐng)域,Wedel和Kannan強(qiáng)調(diào)的問題之一是,營銷有多個(gè)子領(lǐng)域(如廣告、促銷、產(chǎn)品開發(fā)、品牌建設(shè)),這些領(lǐng)域都使用不同類型的數(shù)據(jù)。

由于 "一刀切"的分析方案是不可取的,因此,商學(xué)院應(yīng)該培養(yǎng)營銷經(jīng)理人對(duì)這些子領(lǐng)域中使用的不同技術(shù)有廣泛的了解,以便掌握大局觀,并與分析人員有效地合作。

【媒體】

要了解媒體如何利用大數(shù)據(jù),首先需要先了解一些關(guān)于媒體制作過程中使用機(jī)制的背景資料。

Nick Couldry和JosephTurow曾提出,媒體和廣告業(yè)的從業(yè)者將大數(shù)據(jù)作為許多可操作的信息點(diǎn)來對(duì)待。

這個(gè)行業(yè)正在擺脫傳統(tǒng)的方法,即利用報(bào)紙、雜志或電視節(jié)目等特定的媒體環(huán)境,轉(zhuǎn)而利用技術(shù)手段挖掘消費(fèi)者,在最佳時(shí)間、最佳地點(diǎn)觸達(dá)目標(biāo)人群。

最終的目的是傳達(dá)或者服務(wù)(從統(tǒng)計(jì)學(xué)上講)符合消費(fèi)者心理的信息或內(nèi)容。

例如,出版環(huán)境越來越多地對(duì)信息(廣告)和內(nèi)容(文章)進(jìn)行定制,以吸引消費(fèi)者,而這些信息(廣告)和內(nèi)容(文章)都是通過各種數(shù)據(jù)挖掘活動(dòng)獨(dú)家收集到的。

數(shù)據(jù)新聞:出版商和記者利用大數(shù)據(jù)工具提供獨(dú)特的創(chuàng)新見解和信息圖表。

英國公共服務(wù)電視廣播公司Channel 4是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域的領(lǐng)導(dǎo)者。

【保險(xiǎn)業(yè)務(wù)】

健康保險(xiǎn)機(jī)構(gòu)正在收集社會(huì)上的 "健康決定因素"的數(shù)據(jù),如食物及電視消費(fèi)、婚姻狀況、衣著尺寸和購買習(xí)慣等,并據(jù)此對(duì)健康費(fèi)用進(jìn)行預(yù)測(cè),以發(fā)現(xiàn)客戶的健康問題。目前,這些預(yù)測(cè)結(jié)果是否被用于商業(yè)化定價(jià)是有爭(zhēng)議的。

【物聯(lián)網(wǎng)(IoT)】

大數(shù)據(jù)和物聯(lián)網(wǎng)協(xié)同工作。從物聯(lián)網(wǎng)設(shè)備中提取的數(shù)據(jù)提供了設(shè)備間的相互連接映射。這種映射已經(jīng)被媒體行業(yè)、企業(yè)和政府用于更準(zhǔn)確地定位受眾,提高媒體效率。物聯(lián)網(wǎng)也越來越多地被用作收集感官數(shù)據(jù)的手段,這些感官數(shù)據(jù)已經(jīng)被應(yīng)用于醫(yī)療、制造和交通等場(chǎng)景。

【信息技術(shù)】

特別是2015年以來,大數(shù)據(jù)作為幫助員工提高工作效率、簡(jiǎn)化信息技術(shù)(IT)收集和分配的工具,在企業(yè)內(nèi)部的業(yè)務(wù)運(yùn)營中逐漸凸顯出來。

利用大數(shù)據(jù)來解決企業(yè)內(nèi)部的IT和數(shù)據(jù)收集問題被稱為IT運(yùn)營分析(ITOA)。

通過將大數(shù)據(jù)原理應(yīng)用到機(jī)器智能和深度計(jì)算的概念中,IT部門可以在問題發(fā)生之前預(yù)測(cè)潛在的問題,并在問題發(fā)生之前就采取行動(dòng)提供解決方案。

這時(shí),ITOA業(yè)務(wù)也開始在系統(tǒng)管理中發(fā)揮重要作用,它提供的平臺(tái)將單個(gè)數(shù)據(jù)孤島匯集在一起,并從整個(gè)系統(tǒng)中產(chǎn)生洞察力。

【小結(jié)】

本來我們對(duì)大數(shù)據(jù)的一些概念進(jìn)行了學(xué)習(xí)和探討,主要從大數(shù)據(jù)的定義,特點(diǎn),架構(gòu)演進(jìn)和技術(shù)發(fā)展應(yīng)用等幾個(gè)方面進(jìn)行了細(xì)化分析,希望對(duì)廣大關(guān)心大數(shù)據(jù)技術(shù)的朋友有所幫助。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論