淺談生命大數(shù)據(jù)

貴州生命大數(shù)據(jù)研究院
生命大數(shù)據(jù)是一個全新的概念,對于生命大數(shù)據(jù)暫時沒有權(quán)威的定義,但是從事基因組學(xué)、群體遺傳學(xué)、蛋白分子結(jié)構(gòu)等方向的研究人員,日常工作就是通過大規(guī)模計算處理大量數(shù)據(jù)得到研究結(jié)果,從某種角度來講他們一直在從事生命大數(shù)據(jù)。

一、什么是生命大數(shù)據(jù)

生命是這個世界重要的組成部分,生命活動是通過生物作為載體形成的,在生物學(xué)和統(tǒng)計學(xué)上這樣的生物體稱之為生物樣本。生物樣本在生命活動中產(chǎn)生大量的數(shù)據(jù),主要包括生物體數(shù)據(jù)和行為數(shù)據(jù)。生物體數(shù)據(jù)是指單個樣本或者群體樣本貫穿整個時間和空間形成的生物組學(xué)數(shù)據(jù)和生物樣本元數(shù)據(jù),是對生物體樣本在客觀世界的描述。其中生物組學(xué)數(shù)據(jù)沿著中心法則的轉(zhuǎn)化依此形成:基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、代謝組數(shù)據(jù)、時空組數(shù)據(jù)等,組學(xué)數(shù)據(jù)從根本上解釋了生物體的生物學(xué)過程。生物元數(shù)據(jù)常被稱為表型數(shù)據(jù),是描述生物樣本的元數(shù)據(jù),沒有明確的邊界,只要是有意義的、可描述的、可量化的屬性就行,主要反映一個樣本的某種存在形式和狀態(tài)。生物樣本數(shù)據(jù)可以從生態(tài)、群體、個體、組織等宏觀角度來觀測,也可以從細(xì)胞、分子等微觀角度來采集,同時在不同觀測角度上又具有組份、結(jié)構(gòu)、順序等描述維度。

數(shù)據(jù)是事物的抽象存在,人類建立了一套通過數(shù)據(jù)來描述和認(rèn)識世界的知識體系,所以數(shù)據(jù)的形成是人類文明形成的基石。隨著數(shù)字化和信息化技術(shù)的進步,自然科學(xué)研究的對象逐漸由事物本身轉(zhuǎn)變?yōu)槊枋鍪挛锏臄?shù)據(jù),進而形成了新的自然科學(xué)研究范式,即由吉姆·格雷提出的自然科學(xué)研究第四范式:“隨著數(shù)據(jù)的爆炸性增長,計算機將不僅僅能做模擬仿真,還能進行分析總結(jié),得到理論。”。“大數(shù)據(jù)科學(xué)”通常的實施路徑為使用應(yīng)用數(shù)學(xué)將研究問題轉(zhuǎn)化成數(shù)學(xué)模型,再通過計算數(shù)學(xué)將數(shù)學(xué)模型轉(zhuǎn)變成計算模型,計算模型作為軟件工程的輸入需求經(jīng)過程序設(shè)計得到計算軟件。“大數(shù)據(jù)科學(xué)”處理的大數(shù)據(jù)一般來自于真實世界,能反映真實世界的客觀情況,避免了“實驗科學(xué)”中樣本特殊性對結(jié)論代表性的影響。故而圍繞真實世界大樣本、多維度、多鏈接的大數(shù)據(jù)研究,對于自然科學(xué)的研究和應(yīng)用具有很重要的意義。

生命大數(shù)據(jù)是一個全新的概念,對于生命大數(shù)據(jù)暫時沒有權(quán)威的定義,但是從事基因組學(xué)、群體遺傳學(xué)、蛋白分子結(jié)構(gòu)等方向的研究人員,日常工作就是通過大規(guī)模計算處理大量數(shù)據(jù)得到研究結(jié)果,從某種角度來講他們一直在從事生命大數(shù)據(jù)。在互聯(lián)網(wǎng)領(lǐng)域IBM提出了大數(shù)據(jù)的“5V”特征,即:大數(shù)據(jù)量、多樣性、真實性、增值性和快速交互。但是生命科學(xué)是圍繞認(rèn)識種族、發(fā)育、遺傳、活動、生殖、病變的科學(xué),在應(yīng)用場景上與互聯(lián)網(wǎng)領(lǐng)域相較發(fā)生了巨大變化,故對于生命大數(shù)據(jù)的認(rèn)識不能照搬互聯(lián)網(wǎng)大數(shù)據(jù)的理解。其中生命大數(shù)據(jù)處理的生命數(shù)據(jù)更多是將生命數(shù)字化后的數(shù)據(jù),如基因數(shù)據(jù)、影像數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)等,而互聯(lián)網(wǎng)大數(shù)據(jù)處理的更多是通過各種感受器采集的信息,如:文本、圖片、視頻等。綜上,對于生命大數(shù)據(jù)可理解為通過“大數(shù)據(jù)科學(xué)”的范式處理各種生命數(shù)據(jù),得到有價值結(jié)果的過程。

360截圖16390330305851.png

二、生命大數(shù)據(jù)的應(yīng)用

生命大數(shù)據(jù)在生命科學(xué)領(lǐng)域越發(fā)重要,近年來大規(guī)模人群基因組學(xué)研究項目方興未艾,相關(guān)成果陸續(xù)發(fā)布,標(biāo)志著生命科學(xué)產(chǎn)業(yè)和精準(zhǔn)醫(yī)學(xué)正式進入了基因大數(shù)據(jù)時代。據(jù)不完全統(tǒng)計全球有20多個國家和地區(qū)宣布啟動基因組計劃,人群規(guī)模從數(shù)十萬、數(shù)百萬到全民,大量的人群被納入人類遺傳資源研究的隊列。群體遺傳學(xué)研究是生命大數(shù)據(jù)重要的應(yīng)用場景,因為多組學(xué)數(shù)據(jù)的規(guī)模及遺傳資源的多樣性,決定了需要大規(guī)模的遺傳樣本才能更好的描述人群的遺傳背景。除了群體遺傳學(xué)研究,在大規(guī)模的慢性疾病研究隊列、公共衛(wèi)生流行病學(xué)研究中也有很廣泛的應(yīng)用空間。在分子生物學(xué)研究中,科研人員利用大數(shù)據(jù)技術(shù)分析已有蛋白質(zhì)分子的同源結(jié)構(gòu)預(yù)測未知的蛋白質(zhì)分子高級結(jié)構(gòu),取得了很好的效果。生命大數(shù)據(jù)在分子遺傳學(xué)上研究生命活動規(guī)律、生命的本質(zhì)、生命的發(fā)育規(guī)律,以及各種生物之間和生物與環(huán)境之間相互關(guān)系,最終能夠達(dá)到治療診斷遺傳病、提高農(nóng)作物產(chǎn)量、改善人類生活、保護環(huán)境等目的。

在生命健康產(chǎn)業(yè)方面,生命大數(shù)據(jù)的應(yīng)用處于起步階段,從國家衛(wèi)生健康戰(zhàn)略規(guī)劃到互聯(lián)網(wǎng)公司的跨界入局呈多種形態(tài)發(fā)展。通過對已有病歷數(shù)據(jù)的挖掘可以形成智能輔助診斷系統(tǒng),提升臨床診斷的有效性并優(yōu)化了醫(yī)療資源的合理配置。如果能在病歷數(shù)據(jù)的基礎(chǔ)上綜合檢測數(shù)據(jù)(生化檢測數(shù)據(jù)、分子檢測數(shù)據(jù)、影像數(shù)據(jù)等)和參考數(shù)據(jù)(臨床診斷標(biāo)準(zhǔn)、參考基因組、遺傳變異圖譜等),則能大大的優(yōu)化智能輔助診療模型,實現(xiàn)復(fù)雜醫(yī)學(xué)知識庫與個性化醫(yī)學(xué)服務(wù)的有機結(jié)合。健康醫(yī)療大數(shù)據(jù)是推進醫(yī)療健康管理體系改革的重要技術(shù)手段,也是推進循證醫(yī)學(xué)向精準(zhǔn)醫(yī)學(xué)發(fā)展的重要技術(shù)手段之一。在健康管理方面,隨著個人智能穿戴設(shè)備的快速普及,形成了在科學(xué)運動、健康飲食方面的簡單應(yīng)用場景。但是受限于生物數(shù)據(jù)的無創(chuàng)采集技術(shù)及遺傳信息的缺乏,對健康檢測數(shù)據(jù)進行挖掘利用的價值還沒有凸顯出來。

360截圖16390330305851.png

從長遠(yuǎn)的角度看,生命大數(shù)據(jù)最終是要實現(xiàn)對生命的數(shù)字模擬。具有完整的組學(xué)數(shù)據(jù)、元數(shù)據(jù)和行為數(shù)據(jù)可以對生物體進行模擬,再加上對生物體形成影響的外部環(huán)境數(shù)據(jù)即可形成對生命活動進行模擬。如果這些數(shù)據(jù)是持續(xù)的,那么則可以對模擬的生命進行預(yù)測,到那個時候活在硬盤里將不是夢。

三、生命大數(shù)據(jù)實踐途徑

數(shù)字經(jīng)濟時代下,數(shù)據(jù)是最重要的生產(chǎn)要素。生命大數(shù)據(jù)就是將生命數(shù)據(jù)作為原料的產(chǎn)業(yè),這條產(chǎn)業(yè)鏈由上而下為數(shù)據(jù)的采集、清洗、匯集、治理、挖掘與利用。當(dāng)然整個過程中都要以項目目的為導(dǎo)向,圍繞數(shù)據(jù)價值從低密度向高密度轉(zhuǎn)化為宗旨開展工作。

360截圖16390330305851.png

生命數(shù)據(jù)的采集:數(shù)據(jù)的采集是最重要的一步,因為這是數(shù)據(jù)價值的源頭,包含了數(shù)據(jù)的所有價值,直接影響到目標(biāo)的達(dá)成。當(dāng)前具有重大價值的生命數(shù)據(jù)主要還是通過專業(yè)的醫(yī)療手段來采集,獲取成本高且數(shù)據(jù)類型單一。同時數(shù)據(jù)的持續(xù)性也難以保障,生命數(shù)據(jù)的波動范圍和數(shù)據(jù)的閾值范圍對于生命活動具有同等重要的意義。數(shù)據(jù)的采集嚴(yán)重依賴生物信號的數(shù)字化技術(shù)以及數(shù)據(jù)主權(quán)確權(quán)的技術(shù)。

生命數(shù)據(jù)的清洗:將采集的數(shù)據(jù)根據(jù)項目目的進行過濾,清除不相關(guān)數(shù)據(jù)及噪音數(shù)據(jù),并按統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進行整理的過程。數(shù)據(jù)的清洗關(guān)系著數(shù)據(jù)價值的丟失和數(shù)據(jù)價值密度提升的效率,直接影響到模型輸出的指標(biāo)。數(shù)據(jù)的清洗需要注意數(shù)據(jù)價值的判斷、數(shù)據(jù)度量的統(tǒng)一等。

生命數(shù)據(jù)的匯集:在互聯(lián)網(wǎng)發(fā)達(dá)的今天,通過互聯(lián)網(wǎng)匯集數(shù)據(jù)是首要的選擇,但是需要保障網(wǎng)絡(luò)傳輸中的數(shù)據(jù)安全。對于結(jié)構(gòu)化數(shù)據(jù)可以通過B/S結(jié)構(gòu)以服務(wù)上報的形式匯集,對于非結(jié)構(gòu)化數(shù)據(jù)可以通過C/S結(jié)構(gòu)采用各種文件傳輸協(xié)議進行數(shù)據(jù)傳輸。

生命數(shù)據(jù)的治理:數(shù)據(jù)治理是指將零散、混亂的數(shù)據(jù)進行管控變?yōu)橛行蚪y(tǒng)一數(shù)據(jù)的過程。匯集的數(shù)據(jù)是多元、多類型的,根據(jù)不同數(shù)據(jù)結(jié)構(gòu)特點設(shè)計不同的管控方案。對于一些公共數(shù)據(jù)一般整理為獨立文件形式,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)庫來存儲和管理,非結(jié)構(gòu)化數(shù)據(jù)采用文件系統(tǒng)存儲和管理,基于大數(shù)據(jù)的特點一般都采用分布式技術(shù)來支持,例如:Hbase、HIVE、HDFS等。除了對數(shù)據(jù)進行存儲和管理外,還需要建立不同數(shù)據(jù)之間的聯(lián)系使之聚合,例如建立數(shù)據(jù)索引、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)轉(zhuǎn)化等。

生命數(shù)據(jù)的挖掘:數(shù)據(jù)挖掘過程的總體目標(biāo)是從一個數(shù)據(jù)集中提取信息,并將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以進一步使用。除了原始分析步驟,它還涉及到數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型與推斷方面考量、興趣度度量、復(fù)雜度的考慮,以及發(fā)現(xiàn)結(jié)構(gòu)、可視化及實時更新等后處理。由于處理的數(shù)據(jù)量大,算力需求大,通常采用分布式計算來支撐。

生命數(shù)據(jù)的利用:在群體遺傳學(xué)研究中,通過大數(shù)據(jù)處理群體樣本的基因數(shù)據(jù)和表型數(shù)據(jù),可以在群體層面上分析遺傳的結(jié)構(gòu)、遺傳上的特點、遺傳與性狀的關(guān)聯(lián)等,在遺傳基線、進化過程、疾病機制等方面有重要應(yīng)用。近些年出現(xiàn)了大量的智能輔助診斷系統(tǒng),通過對大量病例的學(xué)習(xí)建立臨床性狀、檢測指標(biāo)與疾病的關(guān)系,幫助臨床的診療。根據(jù)公共衛(wèi)生以防為主、關(guān)口前移的思路,對于健康檢測數(shù)據(jù)的大數(shù)據(jù)應(yīng)用前景更加光明。

在實際的項目中,生命大數(shù)據(jù)實施途徑可能不盡相同,但是圍繞生命數(shù)據(jù)進行價值密度提升的宗旨是不變的。

四、生命大數(shù)據(jù)涉及的技術(shù)

生命大數(shù)據(jù)是生命科學(xué)和數(shù)據(jù)科學(xué)的交叉領(lǐng)域,涉及遺傳學(xué)、分子生物學(xué)、基因組學(xué)、醫(yī)學(xué)、應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)、機器學(xué)習(xí)和計算科學(xué)等眾多學(xué)科領(lǐng)域。近年來部分高校將這一領(lǐng)域獨立出來成立了生物信息學(xué),較系統(tǒng)的建立了相關(guān)知識體系。大數(shù)據(jù)具有三大要素即:算力、算法和數(shù)據(jù),這里簡單圍繞生命大數(shù)據(jù)的這三方面解釋相關(guān)技術(shù)。

360截圖16390330305851.png

1、算力

曾今算力是阻礙大數(shù)據(jù)發(fā)展的重要因素,近些年來隨著芯片技術(shù)和軟件技術(shù)的發(fā)展,涌現(xiàn)了大量的大數(shù)據(jù)框架,在批處理、流式數(shù)據(jù)處理方面建立了很好的應(yīng)用示范。在硬件方面通常還是使用基于X86體系架構(gòu)的CPU芯片,在一些特殊的應(yīng)用場景使用FPGA芯片進行加速,也有人嘗試在GPU上進行生物信息分析。隨著生命健康產(chǎn)業(yè)的不斷壯大,相信有一天會出現(xiàn)處理基因數(shù)據(jù)的定制芯片。關(guān)于算力的組織可以分為兩個層面,底層的資源管理和上層的資源利用。

這里的資源管理指的是對提供計算和存儲服務(wù)器的管理。面向應(yīng)用層將大量的服務(wù)器通過集群技術(shù)組成一個統(tǒng)一整體,像一臺超級計算機一樣提供算力和存儲的方式稱為集群技術(shù)。面向物理層將一臺物理計算機的線程隊列和存儲資源劃分為多個更小的資源池,每一個資源池由獨立的操作系統(tǒng)來管理,形成更小資源顆粒度靈活管理的方式稱為虛擬化。通過以上技術(shù)對資源進行有效配置,再運用“軟件定義資源”的方式將資源轉(zhuǎn)化為服務(wù)便是我們經(jīng)常聽到的云計算。在實際場景中運用以上一種或者多種方式對資源進行管理即可,最常見的資源管理框架有OpenStack,很多云服務(wù)產(chǎn)品都是基于它定制開發(fā)的。

對于資源的利用是與業(yè)務(wù)場景深度綁定的,根據(jù)業(yè)務(wù)特點統(tǒng)籌計算、存儲和網(wǎng)絡(luò)資源,以達(dá)到按時完成計算任務(wù)和實現(xiàn)高效的資源利用的目的。在大規(guī)模生物信息分析場景,具有資源密集和算法多樣性的顯著特點,包括I/O密集、計算密集和數(shù)據(jù)密集。這些業(yè)務(wù)特點對生物信息計算框架提出了挑戰(zhàn),故當(dāng)前行業(yè)里面大多還是使用簡單的網(wǎng)格計算框架來靈活解決。常用的解決方案還是高性能計算(HPC),其中因為共享內(nèi)存計算的成本偏高,通常采用分布式內(nèi)存集群方案。在基因數(shù)據(jù)呈超摩爾速度增長的時候,面向生物信息分析的計算框架迫在眉睫,好在前不久有機構(gòu)在hadoop的基礎(chǔ)上進行了不錯的優(yōu)化嘗試。對于新計算框架的開發(fā)需要注意以下問題:1、降低計算過程的數(shù)據(jù)I/O;2、對于計算、存儲資源的高效利用;3、完善的容錯機制;4、降低分析時長。

2、算法

面對生命大數(shù)據(jù)的大樣本量和片段化數(shù)據(jù)很自然想到用統(tǒng)計學(xué)的方法來處理,NGS數(shù)據(jù)分析的每個環(huán)節(jié)參數(shù)的把握,每個圖表的理解背后都是統(tǒng)計學(xué)背景知識。從描述數(shù)據(jù)到假設(shè)檢驗,再到參數(shù)估計都是生物信息算法中重要的理論知識。在生物信息算法開發(fā)中針對數(shù)據(jù)的特點常需要做假設(shè)檢驗、主成分分析、關(guān)聯(lián)分析、回歸分析等,過去幾十年圍繞組學(xué)數(shù)據(jù)利用統(tǒng)計學(xué)開發(fā)了大量的生物信息工具,較為常用的有BWA、GATK等。機器學(xué)習(xí)拓展了統(tǒng)計學(xué)的范疇,在對大樣本量的特征提取和趨勢分析時,使用機器學(xué)習(xí)的方案進行聚類分析、模式分析、預(yù)測分析等,近年來機器學(xué)習(xí)算法在生命大數(shù)據(jù)上的應(yīng)用呈上升趨勢。不管是統(tǒng)計學(xué)還是機器學(xué)習(xí),在處理數(shù)據(jù)時都要對每一個樣本進行讀寫,故形成了資源密集的特點。生命大數(shù)據(jù)中數(shù)據(jù)類型多樣,有串行的文本數(shù)據(jù)、矩陣的影像數(shù)據(jù)等,針對不同數(shù)據(jù)結(jié)構(gòu)的輸入需要設(shè)計相應(yīng)的算法加以處理。有了數(shù)學(xué)的理論基礎(chǔ)將數(shù)據(jù)模型開發(fā)成算法軟件就是軟件工程的職責(zé)了,但是生物信息的開發(fā)人員普遍缺乏軟件工程的能力,所以現(xiàn)在成體系、高效率的生物信息軟件還是不多。

3、數(shù)據(jù)

生命大數(shù)據(jù)反映的是生命的某種信號,將生物信號數(shù)字化的技術(shù)尤為重要,在醫(yī)學(xué)上通常是采用生物化學(xué)、電磁影像、光譜色譜等方法,在遺傳方面集生化、光譜、影像技術(shù)于一體開發(fā)了測序技術(shù),最常見的數(shù)據(jù)化技術(shù)還是調(diào)研。采集的數(shù)據(jù)通過互聯(lián)網(wǎng)進行匯集涉及到互聯(lián)網(wǎng)的傳輸協(xié)議和數(shù)據(jù)加密技術(shù)。對于大數(shù)據(jù)存儲通常采用分布式存儲技術(shù),分布式存儲根據(jù)存儲協(xié)議不同分為存儲區(qū)域網(wǎng)絡(luò)(SAN)、并行文件存儲(NAS)和對象存儲(BOS)等,對于存儲方案的選擇需要結(jié)合計算框架進行選型。在實際應(yīng)用中通常對數(shù)據(jù)進行分級存儲,采用便宜的設(shè)備搭建歸檔存儲,采用高性能設(shè)備搭建熱存儲用于數(shù)據(jù)計算時頻繁的讀寫。在對生命大數(shù)據(jù)加以利用時,需要關(guān)注數(shù)據(jù)的安全和確權(quán),便將區(qū)塊鏈技術(shù)應(yīng)用到了生命大數(shù)據(jù)中。行業(yè)內(nèi)已經(jīng)建立了多個聯(lián)盟鏈用于數(shù)據(jù)的共享,公有鏈用于開拓生物數(shù)據(jù)服務(wù)業(yè)務(wù)。基因數(shù)據(jù)直接上鏈難度較大,所以大多數(shù)都是將基因數(shù)據(jù)操作記錄上鏈。在人人基因組時代,為了保障基因數(shù)據(jù)價值,區(qū)塊鏈技術(shù)將大有可為。

五、發(fā)展前景

對于生命探索的意義是不言而喻的,人類文明首次站在了從宏觀到微觀全面認(rèn)識自身的起點,終將走向生命的全面數(shù)字化,將以全新的存在方式顛覆對于生命的定義。隨著多組學(xué)技術(shù)的發(fā)展,特別是近期時空組學(xué)的技術(shù),奠定了生物學(xué)分子層面的理論基礎(chǔ),加上大數(shù)據(jù)技術(shù)、機器學(xué)習(xí)、計算科學(xué)等信息技術(shù)的發(fā)展,融合BT與IT形成生命大數(shù)據(jù)發(fā)展與應(yīng)用的技術(shù)支撐。二代測序技術(shù)帶來的生命數(shù)據(jù)成本紅利得以體現(xiàn),數(shù)以ZB級的生命數(shù)據(jù)源源不斷的產(chǎn)生,將催生新的應(yīng)用場景和模式。有了應(yīng)用上的價值、有了實施的技術(shù)、有了作為生產(chǎn)要素的數(shù)據(jù),生命大數(shù)據(jù)將迎來爆發(fā)式的發(fā)展。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論