OpenAI研究人員研究新模型:將多媒體生成速度提高50倍

OpenAI 的兩位研究人員發(fā)表了一篇論文,描述了一種新型模型——具體來說是一種新型的連續(xù)時間一致性模型 (sCM)——與傳統(tǒng)擴散模型相比,該模型將人工智能生成圖像、視頻和音頻等多媒體的速度提高了 50 倍,生成圖像只需近十分之一秒,而常規(guī)擴散則需要 5 秒以上的時間。

本文來自鞭牛士(www.bianews.com)。

鞭牛士報道,10月24日消息,據(jù)外電報道,OpenAI的兩位研究人員發(fā)表了一篇論文,描述了一種新型模型——具體來說是一種新型的連續(xù)時間一致性模型(sCM)——與傳統(tǒng)擴散模型相比,該模型將人工智能生成圖像、視頻和音頻等多媒體的速度提高了50倍,生成圖像只需近十分之一秒,而常規(guī)擴散則需要5秒以上的時間。

通過引入sCM,OpenAI僅通過兩個采樣步驟就實現(xiàn)了相當?shù)臉颖举|量,提供了一種在不影響質量的情況下加速生成過程的解決方案。

該項創(chuàng)新在arXiv.org上發(fā)表的預同行評審論文和今天發(fā)布的博客文章中進行了描述,作者是程璐和楊松,該項創(chuàng)新使這些模型僅需兩步即可生成高質量樣本——比以前需要數(shù)百步的基于擴散的模型快得多。

Song還是OpenAI研究人員(包括前首席科學家Ilya Sutskever)于2023年發(fā)表的一篇論文的主要作者,該論文提出了一致性模型的概念,即同一軌跡上的點映射到同一初始點。

雖然擴散模型在生成逼真的圖像、3D模型、音頻和視頻方面取得了出色的效果,但其采樣效率低下(通常需要數(shù)十到數(shù)百個連續(xù)步驟)使其不太適合實時應用。

從理論上講,該技術可以為OpenAI的近實時AI圖像生成模型提供基礎。正如VentureBeat記者Sean Michael Kerner在我們的內部Slack頻道中沉思的那樣,「DALL-E 4還會遠嗎?」

保持高質量,同時加快采樣速度

傳統(tǒng)的擴散模型需要大量的去噪步驟來生成樣本,導致其速度較慢。

相比之下,sCM可在一兩步內直接將噪聲轉換為高質量樣本,從而減少了計算成本和時間。

OpenAI最大的sCM模型擁有15億個參數(shù),可以在單個A100 GPU上僅用0.11秒生成一個樣本。

與擴散模型相比,這使得掛鐘時間加快了50倍,從而使實時生成AI應用更加可行。

使用更少的計算資源達到擴散模型質量

sCM背后的團隊在ImageNet 512×512上訓練了一個連續(xù)時間一致性模型,可擴展至15億個參數(shù)。

即使在這種規(guī)模下,該模型仍能保持與最佳擴散模型相媲美的樣本質量,在ImageNet 512×512上實現(xiàn)了1.88的Fréchet初始距離(FID)分數(shù)。

這使得樣本質量與擴散模型的差異在10%以內,而擴散模型需要更多的計算工作量才能獲得類似的結果。

基準測試顯示性能強勁

OpenAI的新方法已經與其他最先進的生成模型進行了廣泛的對比測試。

通過使用FID分數(shù)和有效采樣計算來測量樣本質量,研究表明sCM能夠以更少的計算開銷提供頂級結果。

雖然以前的快速采樣方法一直受到樣本質量下降或訓練設置復雜的困擾,但sCM成功克服了這些挑戰(zhàn),兼具速度和高保真度。

sCM的成功還歸功于它能夠隨著從中提煉知識的教師傳播模型按比例擴展。

隨著sCM和教師擴散模型規(guī)模的擴大,樣本質量的差距進一步縮小,而sCM中采樣步驟數(shù)的增加會進一步縮小質量差異。

應用和未來用途

sCM模型的快速采樣和可擴展性為跨多個領域的實時生成AI開辟了新的可能性。

從圖像生成到音頻和視頻合成,sCM為需要快速、高質量輸出的應用程序提供了實用的解決方案。

此外,OpenAI的研究暗示了進一步系統(tǒng)優(yōu)化的潛力,可以進一步提高性能,并根據(jù)各個行業(yè)的特定需求定制這些模型。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論