人工智能用于藥物設(shè)計(jì)必須要解決的五大挑戰(zhàn)

編輯/文龍
人工智能系統(tǒng)還必須能夠與人類專家互動(dòng)和合作,以執(zhí)行復(fù)雜的部分定義的任務(wù)。此外,如果在建議或預(yù)測(cè)本身的基礎(chǔ)上提供了可理解的理由,那么基于AI的系統(tǒng)的使用也會(huì)受益。我們應(yīng)該將AI視為合作伙伴而不是競(jìng)爭(zhēng)對(duì)手。

人工智能(AI)正逐步被廣泛用于藥物研發(fā)中的各個(gè)階段。有人認(rèn)為這會(huì)帶來(lái)新的機(jī)遇,但也有人對(duì)此持懷疑態(tài)度,等著看AI項(xiàng)目的笑話?,F(xiàn)實(shí)則更像是介于兩者之間,人工智能工具的介入可以為藥物研發(fā)人員帶來(lái)啟發(fā)與效率,同時(shí)也給開發(fā)新藥物的既定過(guò)程帶來(lái)了新的挑戰(zhàn)。

盡管人們對(duì)疾病生物學(xué)的理解有所進(jìn)步,在技術(shù)上也取得了令人矚目的飛躍,但將新藥投入市場(chǎng)仍然是一個(gè)耗時(shí)且昂貴的過(guò)程,這在很大程度上是由于臨床試驗(yàn)高失敗比例帶來(lái)的大量費(fèi)用。因此,需要一些嶄新的思路、新的藥物發(fā)現(xiàn)過(guò)程以及其他創(chuàng)新的方法以較低的市場(chǎng)成本,為更多患者提供藥物。在這種情況下,計(jì)算機(jī)輔助的小分子藥物設(shè)計(jì)長(zhǎng)期以來(lái)一直被認(rèn)為是有競(jìng)爭(zhēng)力的潛在候選人,而數(shù)據(jù)處理能力的提高和人工智能工具的發(fā)展更是推動(dòng)了該領(lǐng)域前進(jìn)。關(guān)鍵問(wèn)題是這種方法是否可以幫助我們更快更好地設(shè)計(jì)出小分子候選藥物。

在過(guò)去的二十年中,高通量篩選(HTS)推動(dòng)了小分子藥物的發(fā)現(xiàn),選擇最合適的經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的HTS命中數(shù)據(jù)進(jìn)行隨機(jī)訪問(wèn)對(duì)于藥物研發(fā)的成功至關(guān)重要。在選擇藥物和進(jìn)行后續(xù)優(yōu)化時(shí)需要考慮許多參數(shù),包括在所需藥理學(xué)目標(biāo)和潛在脫靶點(diǎn)間的效力和選擇以及對(duì)藥物藥代動(dòng)力學(xué)和安全性來(lái)說(shuō)可能很重要的理化特性。因此,藥物化學(xué)家通常面臨具有挑戰(zhàn)性的多目標(biāo)優(yōu)化(MOO)問(wèn)題,其潛在的選擇遠(yuǎn)遠(yuǎn)超出了系統(tǒng)探索的可能性,并有越來(lái)越多復(fù)雜的數(shù)據(jù)集需要分析。

因此,在藥物設(shè)計(jì)中應(yīng)用AI有吸引力的點(diǎn)在于,有可能開發(fā)數(shù)據(jù)驅(qū)動(dòng)的隱式模型構(gòu)建過(guò)程,以導(dǎo)航來(lái)自HTS的大量數(shù)據(jù)集并確定替代方案的優(yōu)先級(jí)。這表明決策權(quán)正在向機(jī)器智能的部分轉(zhuǎn)移,可以視為與人類智力協(xié)同作用,也就是說(shuō),特定領(lǐng)域的隱式AI可以增強(qiáng)藥物化學(xué)家在藥物設(shè)計(jì)和選擇方面的能力。更有野心的使用AI進(jìn)行藥物設(shè)計(jì)是從頭開始(de novo)自動(dòng)生成具有所需特性的新化學(xué)實(shí)體(NCE),而無(wú)需通常價(jià)格昂貴的全套HTS。

為了取得長(zhǎng)期的成功,使用AI的藥物設(shè)計(jì)必須解決五個(gè)“重大挑戰(zhàn)”:獲取適當(dāng)?shù)臄?shù)據(jù)集、產(chǎn)生新的假設(shè)、在多目標(biāo)中進(jìn)行優(yōu)化方式、減少周期時(shí)間、改變研究文化并樹立適當(dāng)?shù)男膽B(tài)。

2345截圖20200908083720.png

將思維和機(jī)器整合在藥物發(fā)現(xiàn)中

獲取適當(dāng)?shù)臄?shù)據(jù)集

適當(dāng)?shù)妮斎霐?shù)據(jù)對(duì)于NCE的生成和決策建立有用的預(yù)測(cè)模型至關(guān)重要。如果沒(méi)有適當(dāng)?shù)臄?shù)據(jù)集以及對(duì)這些數(shù)據(jù)的范圍和局限性的理解,那么即使是一個(gè)看似復(fù)雜的模型也將無(wú)法產(chǎn)生有用的結(jié)果。

在評(píng)估用于預(yù)測(cè)模型的數(shù)據(jù)時(shí),最重要的因素之一是收集這些數(shù)據(jù)時(shí)是否考慮最終終點(diǎn),如果沒(méi)有考慮到,那么就可能會(huì)出問(wèn)題。例如,許多研發(fā)小組建立了預(yù)測(cè)分子是否有毒的模型,因?yàn)榭煽康亩纠韺W(xué)模型可以減少藥物發(fā)現(xiàn)的時(shí)間和成本以及減少動(dòng)物測(cè)試的需求。但是,體內(nèi)毒理學(xué)數(shù)據(jù)有限,因此許多毒理學(xué)模型都是基于替代體外結(jié)果建立的,在大多數(shù)情況下,這些體外結(jié)果與最終體內(nèi)毒理學(xué)反應(yīng)之間的關(guān)系尚未明確建立。除此之外,通常在藥物研發(fā)中使用的動(dòng)物模型與最終將在患者中看到的結(jié)果之間的關(guān)系也是有限的。

在許多情況下,基于先前設(shè)計(jì)的高通量實(shí)驗(yàn)的結(jié)果來(lái)構(gòu)建的預(yù)測(cè)模型會(huì)為我們提供優(yōu)勢(shì)。但另一方面,由于在高通量分析的開發(fā)中做出的設(shè)計(jì)決策存在折衷,因此依賴現(xiàn)有的大規(guī)模數(shù)據(jù)可能會(huì)帶來(lái)問(wèn)題——為提高分析通量而進(jìn)行的調(diào)整可能會(huì)減少其準(zhǔn)確性。例如,全基因組脫靶篩選的靈敏度比預(yù)定的脫靶區(qū)域的分析低得多。為了使數(shù)據(jù)有用,必須清楚地理解用于捕獲數(shù)據(jù)的實(shí)驗(yàn)環(huán)境及其與最終結(jié)果的相關(guān)性。

AI可以用于解決一些數(shù)據(jù)集間以及其內(nèi)部不同程度的不確定性,進(jìn)而生成更高質(zhì)量的數(shù)據(jù)集,但需要適當(dāng)?shù)淖⑨?,以便在出現(xiàn)問(wèn)題時(shí)可以找到元數(shù)據(jù)。雖然存在一定程度的自動(dòng)注釋(例如,生成和分析數(shù)據(jù)的機(jī)器通常會(huì)添加諸如時(shí)間和日期之類的元數(shù)據(jù)),但AI能夠通過(guò)推斷上下文確定數(shù)據(jù)起點(diǎn)并從自動(dòng)檢測(cè)可能的錯(cuò)誤注釋來(lái)減輕人工注釋的負(fù)擔(dān)。除此之外,用于語(yǔ)言翻譯的AI技術(shù)能夠在快速發(fā)展的術(shù)語(yǔ)中提供術(shù)語(yǔ)與術(shù)語(yǔ)之間的映射,并且基于AI的潛在變量概率模型已經(jīng)能夠從臨床環(huán)境的多源數(shù)據(jù)集中提取相應(yīng)含義。

使用實(shí)驗(yàn)數(shù)據(jù)建立預(yù)測(cè)模型時(shí),不確定性的另一個(gè)來(lái)源是數(shù)據(jù)的意外誤報(bào)數(shù)據(jù),可能是簡(jiǎn)單的拼寫錯(cuò)誤或是數(shù)值記錄錯(cuò)誤,但一個(gè)或兩個(gè)錯(cuò)誤報(bào)告的數(shù)據(jù)點(diǎn)甚至可能會(huì)扭曲預(yù)測(cè)模型的結(jié)果。因此,數(shù)據(jù)管理和數(shù)據(jù)報(bào)告中潛在錯(cuò)誤的識(shí)別是AI與藥物研發(fā)相關(guān)的另一個(gè)可能的領(lǐng)域。當(dāng)然,并非所有異常值都是錯(cuò)誤,他們可能會(huì)提供一種新見(jiàn)解的替代性行動(dòng)機(jī)制。我們搜索異常值或潛在錯(cuò)誤的方式可能取決于構(gòu)建模型的規(guī)模。

藥物發(fā)現(xiàn)本質(zhì)上是一個(gè)優(yōu)化問(wèn)題,從眾多化合物中確定一種可行的用于生產(chǎn)。因此,藥物研發(fā)數(shù)據(jù)集通常包含數(shù)十種測(cè)定的數(shù)據(jù),但是由于時(shí)間和金錢的限制,分析過(guò)程通常缺少一部分的值。因?yàn)橹挥性诟咄康捏w外或細(xì)胞分析中表現(xiàn)良好的化合物才能在更昂貴的體內(nèi)實(shí)驗(yàn)中進(jìn)行測(cè)試,所以數(shù)據(jù)也不是完全隨機(jī)丟失的。當(dāng)從科學(xué)文獻(xiàn)中獲取數(shù)據(jù)時(shí),這種不平衡可能會(huì)變得尤為嚴(yán)重,因?yàn)檫@些文獻(xiàn)對(duì)負(fù)面結(jié)果的報(bào)道很少。

迄今為止,在AI方面最成功的領(lǐng)域是成像和自然語(yǔ)言處理(NLP)。這些數(shù)據(jù)與通常在藥物研發(fā)中發(fā)現(xiàn)的數(shù)據(jù)大不相同,因?yàn)橄啾扰c準(zhǔn)確標(biāo)記“圖像中有停車標(biāo)志”來(lái)說(shuō),關(guān)于化合物是“對(duì)目標(biāo)具有活性”還是“有毒”的問(wèn)題要復(fù)雜得多,并且要貼上更具細(xì)微差別的標(biāo)簽。給定的藥物研發(fā)項(xiàng)目為數(shù)據(jù)提供了背景,使項(xiàng)目成員能夠從數(shù)據(jù)分析中得出結(jié)論。但是如果將此類數(shù)據(jù)匯總到多個(gè)項(xiàng)目或?qū)嶒?yàn)室中,則通常會(huì)丟失相關(guān)背景關(guān)系。與數(shù)據(jù)的可用性有關(guān)的另一個(gè)挑戰(zhàn)是,在許多情況下實(shí)驗(yàn)無(wú)法生成可以簡(jiǎn)單轉(zhuǎn)換為單個(gè)數(shù)值的數(shù)據(jù)。

在過(guò)去的二十年中,我們看到了許多包含數(shù)以百萬(wàn)計(jì)的生物學(xué)分析結(jié)果的公共數(shù)據(jù)庫(kù)的出現(xiàn),例如ChEMBL和PubChem,它們可以為機(jī)器學(xué)習(xí)模型提供輸入數(shù)據(jù),從而預(yù)測(cè)藥物的各種生物學(xué)活性或理化性質(zhì)。盡管這些數(shù)據(jù)庫(kù)很有用,但這些數(shù)據(jù)僅是所測(cè)數(shù)據(jù)的一小部分,因?yàn)樵S多較大的數(shù)據(jù)集是制藥公司或生產(chǎn)商專有,并且不能公開免費(fèi)獲得的。大多數(shù)公司將其數(shù)據(jù)視為競(jìng)爭(zhēng)優(yōu)勢(shì)并密切加以保護(hù)。

2345截圖20200908083720.png

產(chǎn)生新的假設(shè)

盡管有了HTS技術(shù)的進(jìn)步,但在尋找新的治療藥物時(shí)我們?nèi)灾皇浅槿×撕苄∫徊糠值念愃扑幬锏幕瘜W(xué)樣本。2015年,可采用的化學(xué)空間包含約1.25億種化合物,并且仍在增長(zhǎng)。類似藥物的化學(xué)空間的大小使得我們不可能進(jìn)行詳盡的枚舉,因此藥物設(shè)計(jì)從本質(zhì)上可以歸結(jié)為“下一步要做什么”這個(gè)核心問(wèn)題。藥物化學(xué)家通常從他們的經(jīng)驗(yàn)中、從合成準(zhǔn)則中、從人類的創(chuàng)造力和寬泛定義的“化學(xué)直覺(jué)”中汲取靈感。鑒于人類疾病的復(fù)雜性,在藥物設(shè)計(jì)中采用更徹底的假設(shè)生成方法可能是有益的。

化學(xué)設(shè)計(jì)可以被認(rèn)為是模式匹配,實(shí)際上,自1990年代以來(lái),基于計(jì)算機(jī)的從頭設(shè)計(jì)方法就已經(jīng)被用作支持藥物設(shè)計(jì)的思想生成器。然而,今天,生成型AI通過(guò)提供決策的統(tǒng)計(jì)框架,為從頭設(shè)計(jì)藥物提供了新的方法。與早期的分子設(shè)計(jì)機(jī)制采用一組顯式的化學(xué)轉(zhuǎn)化和組裝規(guī)則相比,這些生成模型用隱含的方式顯示化學(xué)知識(shí)。換句話說(shuō),不再是書本中的化學(xué)語(yǔ)言,而是從訓(xùn)練數(shù)據(jù)中學(xué)到的一種新規(guī)則。

這種方法值得進(jìn)一步討論,因?yàn)樗苯由婕癆I系統(tǒng)在化學(xué)中的可解釋性問(wèn)題。然而與先前的方法相比,該模型的主要優(yōu)點(diǎn)是:執(zhí)行速度(可以即時(shí)生成NCE以進(jìn)行交互式建模);對(duì)現(xiàn)有項(xiàng)目進(jìn)行快速再培訓(xùn)或微調(diào);通過(guò)提供對(duì)幾乎無(wú)限的化學(xué)空間的訪問(wèn)而無(wú)需顯式化合物庫(kù)枚舉的可擴(kuò)展性;軟件可用性;和設(shè)計(jì)的綜合可訪問(wèn)性。

藥物設(shè)計(jì)將面臨越來(lái)越復(fù)雜的數(shù)據(jù)和目標(biāo)假設(shè)。藥物研發(fā)過(guò)程的一個(gè)關(guān)鍵性限制因素是缺乏有關(guān)人類生物學(xué)的基本知識(shí),隨著研究過(guò)程中整個(gè)生命周期的不斷發(fā)展,生物學(xué)分析往往會(huì)隨著知識(shí)的發(fā)展而迅速變化。因此,隨著藥物研發(fā)知識(shí)的發(fā)展,人工智能需要更靈活地提供答案。另一方面,“機(jī)械”模型能夠通過(guò)捕獲不同級(jí)別(例如分子和細(xì)胞)的行為并提供有關(guān)這些行為如何演化和相互作用的解釋來(lái)應(yīng)對(duì)這些挑戰(zhàn)。因此,利用提供新假設(shè)的此類模型和提供進(jìn)一步數(shù)據(jù)以測(cè)試這些假設(shè)并改進(jìn)模型的機(jī)器學(xué)習(xí)模型,形成了一個(gè)虛擬循環(huán),該循環(huán)創(chuàng)建了完整的學(xué)習(xí)系統(tǒng)。

多目標(biāo)優(yōu)化

NCE的研發(fā)需要在設(shè)計(jì)過(guò)程中平衡多個(gè)標(biāo)準(zhǔn),包括目標(biāo)效能、選擇性、清除率和滲透性。但是,針對(duì)某一屬性進(jìn)行優(yōu)化可能會(huì)損害其他屬性,這種潛在沖突目標(biāo)的問(wèn)題可以在多目標(biāo)優(yōu)化(MOO)的計(jì)算框架中提出并解決。

在計(jì)算機(jī)上MOO的設(shè)定中,需要為每個(gè)所需屬性計(jì)算一組預(yù)測(cè)模型,然后應(yīng)用到一個(gè)現(xiàn)有的MOO算法中嘗試解決潛在優(yōu)化問(wèn)題,即找到一個(gè)或一組平衡所需屬性的分子。由于這些屬性經(jīng)常發(fā)生沖突,因此目標(biāo)是生成一組可能的解決方案,每個(gè)解決方案都以不同的方式進(jìn)行權(quán)衡??梢哉J(rèn)為這套解決方案是在找出最優(yōu)性邊界,沿著最優(yōu)性邊界移動(dòng)會(huì)產(chǎn)生一組最優(yōu)解,每個(gè)最優(yōu)解都有其自身權(quán)衡性能的方式。

找到這樣一個(gè)邊界目標(biāo)的實(shí)質(zhì)是對(duì)缺失信息進(jìn)行優(yōu)化。如果我們確切地知道我們將如何權(quán)衡各個(gè)藥物設(shè)計(jì)標(biāo)準(zhǔn),則可以改用更常規(guī)的計(jì)算優(yōu)化方法來(lái)找到一種對(duì)精確已知的權(quán)衡函數(shù)進(jìn)行優(yōu)化的分子。但是,藥物研發(fā)和其他許多領(lǐng)域一樣,開發(fā)過(guò)程是迭代出來(lái)的,而不是分析出來(lái)的,其根本上的“人在回路(human-in-the-loop)”在不久的將來(lái)也不太可能會(huì)消失。因此,MOO的目標(biāo)是針對(duì)特定的分子設(shè)計(jì)生成一組不同的最佳解決方案,再將這些解決方案移交給人類專家進(jìn)行決策。

神經(jīng)網(wǎng)絡(luò)是當(dāng)前流行的一種預(yù)測(cè)模型,在視覺(jué)和音頻方面,人們可以輕松獲取大量標(biāo)記數(shù)據(jù),這些數(shù)據(jù)對(duì)于使用當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)取得成功至關(guān)重要,而生物學(xué)和化學(xué)領(lǐng)域的數(shù)據(jù)通常尚不足以使用這些神經(jīng)網(wǎng)絡(luò)。但是,機(jī)器學(xué)習(xí)領(lǐng)域正在積極尋求如何用更少的數(shù)據(jù)來(lái)做得更好,即“小樣本”學(xué)習(xí)。另一個(gè)潛在的原因是,近年來(lái)深度神經(jīng)網(wǎng)絡(luò)的發(fā)展已針對(duì)音頻和視覺(jué)領(lǐng)域的數(shù)據(jù)特征進(jìn)行了調(diào)整,但隨后直接應(yīng)用于其他領(lǐng)域卻沒(méi)有考慮其適應(yīng)性。與分析視覺(jué)和音頻數(shù)據(jù)相比,在化學(xué)和生物學(xué)中應(yīng)用并延伸類似的結(jié)構(gòu)還處于初期?;趫D神經(jīng)網(wǎng)絡(luò)的有監(jiān)督的和無(wú)監(jiān)督的學(xué)習(xí)都正在成為解決化學(xué)問(wèn)題的可行方法,但仍有許多工作要做,包括如何使這些網(wǎng)絡(luò)可計(jì)算擴(kuò)展并適用于該領(lǐng)域。

假設(shè)人們可以使用合理的預(yù)測(cè)模型來(lái)構(gòu)建MOO問(wèn)題,那么仍然存在如何嘗試解決MOO問(wèn)題的問(wèn)題。過(guò)去,MOO的算法主要由“遺傳算法”控制,該算法使用類比來(lái)進(jìn)行變異和交叉多樣化操作以及使用適應(yīng)性概念來(lái)進(jìn)行優(yōu)化,這些方法已被通常屬于分布算法估計(jì)(EDA)類別的方法所替代,例如協(xié)方差矩陣適應(yīng)進(jìn)化策略,并與機(jī)器學(xué)習(xí)方法協(xié)同作用。此外,這些方法又與機(jī)器學(xué)習(xí)(即強(qiáng)化學(xué)習(xí))有關(guān)。

對(duì)于連續(xù)數(shù)據(jù),人們可能想到的最簡(jiǎn)單的生成模型可能是具有均值和方差的正態(tài)分布。當(dāng)人們改變這些參數(shù)時(shí),正常的樣本自然就會(huì)發(fā)生變化。實(shí)際上,EDA的工作方式是擁有一個(gè)足夠“豐富”的生成模型(即可以在設(shè)計(jì)中生成大量對(duì)象的模型,例如分子模型),然后使用特定的統(tǒng)計(jì)形式來(lái)調(diào)整參數(shù),以便從中只對(duì)所需的分子進(jìn)行取樣。因此,MOO的組成要素不僅是所使用的預(yù)測(cè)模型和MOO算法,而且還是生成模型的類別。

一個(gè)相關(guān)的注意事項(xiàng)是如何以最適合于當(dāng)前機(jī)器學(xué)習(xí)任務(wù)(例如預(yù)測(cè)模型和生成模型)的全部功能的方式表示分子和蛋白質(zhì)。在自然語(yǔ)言處理領(lǐng)域,已經(jīng)證明將原本由離散符號(hào)組成的句子轉(zhuǎn)換為實(shí)值向量可為下游任務(wù)帶來(lái)好處。在1990年代,分子設(shè)計(jì)方面也進(jìn)行了類似的論證和努力,最近在深度學(xué)習(xí)的背景下又重新發(fā)現(xiàn)了它們。人工智能和機(jī)器學(xué)習(xí)可能有價(jià)值的是能夠更好地編碼人類做出的決策,從而可以將這些決策編入自動(dòng)化系統(tǒng)中。

2345截圖20200908083720.png

減少周期時(shí)間

識(shí)別和優(yōu)化潛在的NCE所需的時(shí)間和投資是巨大的,并且藥物研發(fā)過(guò)程的所有階段都有很高的失敗風(fēng)險(xiǎn)。為了解決這個(gè)問(wèn)題,制藥行業(yè)一直在投資化合物分析功能,但也帶來(lái)了許多挑戰(zhàn),數(shù)據(jù)的增長(zhǎng)遠(yuǎn)遠(yuǎn)超過(guò)了人腦的信息處理能力。為了跟上藥物研發(fā)的復(fù)雜性和規(guī)模,科學(xué)家經(jīng)常采用簡(jiǎn)單的試探法和效率指標(biāo)。盡管這些方法有優(yōu)點(diǎn)也有爭(zhēng)議,但它們并未導(dǎo)致生成NCE所需的學(xué)習(xí)周期數(shù)或總體時(shí)間顯著減少。

在藥物研發(fā)中,將先導(dǎo)分子的特征改善為候選藥物所需特征的這一主要過(guò)程稱為設(shè)計(jì)-制造-測(cè)試-分析(DMTA)周期。這種基于假設(shè)的經(jīng)典方法首先使用可用數(shù)據(jù)制定假設(shè)并設(shè)計(jì)分子(或從庫(kù)中選擇現(xiàn)有分子);隨后合成或提取設(shè)計(jì)的化合物并在適當(dāng)?shù)臏y(cè)定法中進(jìn)行測(cè)試,以研究假設(shè)是否正確并增進(jìn)理解;然后,對(duì)這些知識(shí)進(jìn)行分析并將其轉(zhuǎn)化為下一個(gè)周期中設(shè)計(jì)的假設(shè)繼續(xù)發(fā)展。

許多研究報(bào)告了提高DMTA循環(huán)有效性的方法,例如,更多地使用預(yù)測(cè)數(shù)據(jù)、改進(jìn)的數(shù)據(jù)分析工具以及增強(qiáng)化合物合成的有效性等等。AI在某些方面可能為HTS提供替代方案。無(wú)需編譯和依賴大型化合物庫(kù),而是可以在DMTA循環(huán)的每次迭代中合成少量測(cè)試所需的化合物,直到獲得所需的測(cè)定讀數(shù)。但是,盡管這種“主動(dòng)學(xué)習(xí)”方法在命中和線索識(shí)別上具有吸引力,其自身也存在問(wèn)題,例如,化學(xué)類型僅限于可自動(dòng)微流體輔助合成和分析的反應(yīng)。

即使有了這些改進(jìn),DMTA迭代的周期時(shí)間仍然很慢,通??赡苄枰?到8周以上才能完成。雖然“設(shè)計(jì)”和“分析”階段可以很快進(jìn)行,并且可以優(yōu)化“測(cè)試”階段,但“制造”階段通常很慢,需要數(shù)周時(shí)間才能完成新型復(fù)雜分子的合成。因此,縮短該階段可以大大減少DMTA循環(huán)的迭代時(shí)間。在這種情況下,實(shí)驗(yàn)室自動(dòng)化(例如使用批處理或自動(dòng)分析和純化進(jìn)行快速化合物合成)將發(fā)揮決定性作用。自動(dòng)化反應(yīng)的選擇應(yīng)主要集中在藥物化學(xué)家經(jīng)常使用的反應(yīng)上,因此化學(xué)家可以執(zhí)行更具挑戰(zhàn)性的合成步驟并構(gòu)思新的化學(xué)反應(yīng)。

由于各種設(shè)計(jì)假設(shè)以及在各種測(cè)定中合成分子并對(duì)其進(jìn)行分析所需的不同時(shí)間,因此經(jīng)常并行進(jìn)行多個(gè)設(shè)計(jì)周期。分子設(shè)計(jì)中需要捕獲和分析的數(shù)據(jù)量不斷增加,使得藥物化學(xué)家和科學(xué)家難以始終全面地理解數(shù)千個(gè)數(shù)據(jù)點(diǎn)和趨勢(shì),并發(fā)現(xiàn)所有數(shù)據(jù)可以提供的經(jīng)驗(yàn)教訓(xùn)。在努力跟上現(xiàn)代藥物研發(fā)項(xiàng)目數(shù)據(jù)集的大小、復(fù)雜性和維度的過(guò)程中,科學(xué)家常常不得不求助于簡(jiǎn)單的啟發(fā)法,例如經(jīng)驗(yàn)法則、效率指標(biāo)、或匹配的分子對(duì)等等。人工智能為提高DMTA循環(huán)的有效性提供了一系列機(jī)會(huì),包括能夠更好地利用大數(shù)據(jù)進(jìn)行決策,整合和分析所有可用的實(shí)驗(yàn)數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),以支撐設(shè)計(jì)團(tuán)隊(duì)的分子設(shè)計(jì)和想法。通過(guò)提供改進(jìn)的合成路線和優(yōu)化的反應(yīng)條件,AI模型可以使化學(xué)家遵循最有效的路線,從而最終縮短“制造”階段。

在適當(dāng)?shù)臅r(shí)機(jī)和環(huán)境下,通過(guò)預(yù)先處理和量身定制的信息或建議,研究人員將大為受益。這將減少他們翻閱原始數(shù)據(jù)的需要,他們可以直接用化學(xué)直覺(jué)和廣泛的背景知識(shí)來(lái)專注于對(duì)所提供信息的評(píng)估。AI在低數(shù)據(jù)情況下從頭開始在藥物設(shè)計(jì)中的適用性尚未得到證實(shí)。在這種情況下,已確立的遷移學(xué)習(xí)概念可以為生成分子設(shè)計(jì)提供“少樣本”的方法,并且開創(chuàng)性的例子已經(jīng)證明了其實(shí)用性。但是,評(píng)估對(duì)命中和潛在客戶產(chǎn)生的影響需要在不同的低數(shù)據(jù)情況和項(xiàng)目中進(jìn)一步驗(yàn)證轉(zhuǎn)移學(xué)習(xí)方法。在不久的將來(lái),有了跨多個(gè)參數(shù)的更準(zhǔn)確的預(yù)測(cè)模型,整個(gè)DMTA循環(huán)將變成虛擬的。通過(guò)更多的綜合分析,假設(shè)的產(chǎn)生將變得更快,并且提出的分子將更好地應(yīng)對(duì)MOO挑戰(zhàn)。最終,這可以幫助減少DMTA周期和臨床候選藥物交付時(shí)間所需的時(shí)間。

研究文化和思維方式

除了技術(shù)問(wèn)題之外,人工智能在藥物研發(fā)中要想成功最大的挑戰(zhàn)可能還在于培養(yǎng)利益相關(guān)者的思維方式和“文化”,使他們?cè)敢鈶?yīng)用這些計(jì)算模型并使用其結(jié)果。要做到這一點(diǎn),首先要認(rèn)識(shí)到各個(gè)利益相關(guān)者的不同經(jīng)歷,然后發(fā)展通用的術(shù)語(yǔ)和范例,以在AI輔助藥物設(shè)計(jì)過(guò)程中為每個(gè)過(guò)程(以及它們之間的相互作用)建立明確的作用。在大學(xué)層面上促進(jìn)這種發(fā)展的一種重要方法是教育和指導(dǎo)學(xué)生的批判性思維以及能夠向其他研究人員和更廣泛的受眾解釋自己的操作。

鼓勵(lì)采用AI方法的關(guān)鍵是確定AI可以擴(kuò)大和支持化學(xué)家和藥物設(shè)計(jì)師的領(lǐng)域,而不是替代。AI的一個(gè)局限性是擁有精心挑選的數(shù)據(jù)來(lái)構(gòu)建適當(dāng)?shù)挠?xùn)練集,但是注釋和整理數(shù)據(jù)的過(guò)程卻是許多化學(xué)家認(rèn)為繁重的過(guò)程。如果實(shí)驗(yàn)室的筆記本可以利用AI來(lái)捕獲、注釋和管理數(shù)據(jù),那么化學(xué)家就能夠?qū)⒏嗟臅r(shí)間集中在開發(fā)有效藥物所必需的創(chuàng)新和人類洞察力上。此外,如果可以利用AI工具從其他藥物化學(xué)程序中篩選過(guò)去幾年的數(shù)據(jù)并將數(shù)據(jù)接入當(dāng)前程序,則藥物設(shè)計(jì)中的其他方向可能會(huì)有所突破。但為使這種循環(huán)有用,藥物研發(fā)人員必須接受AI輸出的價(jià)值,并結(jié)合自身經(jīng)驗(yàn)加以利用。

人工智能系統(tǒng)還必須能夠與人類專家互動(dòng)和合作,以執(zhí)行復(fù)雜的部分定義的任務(wù)。此外,如果在建議或預(yù)測(cè)本身的基礎(chǔ)上提供了可理解的理由,那么基于AI的系統(tǒng)的使用也會(huì)受益。我們應(yīng)該將AI視為合作伙伴而不是競(jìng)爭(zhēng)對(duì)手。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論