OpenAI 突然推送推送高級(jí)語(yǔ)音模式「Her」,又搶了谷歌風(fēng)頭

Li Yuan
本周內(nèi)就能用上類(lèi)人的語(yǔ)音對(duì)話(huà)。

本文來(lái)自極客公園,作者:Li Yuan。

 d514066eb9c6296ea2e788a9f1c22f63.png

9月25日早,Google發(fā)布兩款新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

在谷歌的系列模型中,Gemini Pro屬于中號(hào)模型,付費(fèi)用戶(hù)可以使用。而Gemini Flash則由Gemini Pro蒸餾而來(lái),在今年5月的Google I/O上第一次亮相,目前用戶(hù)可以免費(fèi)在Gemini中使用,開(kāi)發(fā)者也有一定免費(fèi)的api使用配額。

模型升級(jí)的重點(diǎn)主要為1.5 Pro價(jià)格降低>50%、1.5 Flash的速率限制提高了2倍,1.5 Pro的速率限制提高了約3倍、輸出速度提高2倍,延遲降低3倍;過(guò)濾器切換為選擇加入。

不過(guò),似乎Google今天的宣傳節(jié)點(diǎn)再一次被OpenAI提前知曉。OpenAI同日宣布,OpenAI的高級(jí)語(yǔ)音模式,將在本周對(duì)Plus和Team用戶(hù)推出。

5月,Google發(fā)布Gemini模型的大更新前,OpenAI就曾提前搶開(kāi)發(fā)布會(huì),宣布很快會(huì)帶來(lái)高級(jí)語(yǔ)音模式,登上媒體頭條「?jìng)€(gè)人助理Her就要來(lái)了嗎?」

接下來(lái)半年,高級(jí)語(yǔ)音模式的發(fā)布一再推遲,直至今日Google更新模型,OpenAI立刻表示,本周內(nèi)將推出語(yǔ)音模型。

除了之前已經(jīng)劇透過(guò)的語(yǔ)音模式與人類(lèi)在對(duì)話(huà)中的反應(yīng)時(shí)間相近,會(huì)變換語(yǔ)調(diào)之外,還增加了個(gè)性化指令功能——可以直接指令模型說(shuō)話(huà)說(shuō)慢點(diǎn),或者用一個(gè)特定的口音,同時(shí)可以記住你的名字和提前提供的信息給出更個(gè)性化的回復(fù)。

X上有用戶(hù)不禁感嘆,OpenAI已經(jīng)養(yǎng)成了一個(gè)新愛(ài)好。等著Google發(fā)布一個(gè)什么東西,幾個(gè)小時(shí)后馬上發(fā)布一個(gè)新東西。

 510c2103e49a5bcae8a88df9214b8862.png

Google Gemini Pro價(jià)格下降一半

從Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的名字也可以看出,此次Google Gemini的更新,不是一個(gè)大版本的更新,更多的是一次整體模型的升級(jí)。

降低價(jià)格是一個(gè)重要的更新重點(diǎn)。

Gemini 1.5 Pro的輸入token價(jià)格降低64%,輸出token價(jià)格降低52%,增量緩存token價(jià)格降低64%,適用于小于128K token的提示語(yǔ),自2024年10月1日起生效。再加上上下文緩存,這將繼續(xù)降低使用Gemini構(gòu)建應(yīng)用的成本。

此外,1.5 Flash的速率限制從1000 RPM提高到2000 RPM,1.5 Pro的速率限制從360 RPM提高到1000 RPM。在接下來(lái)的幾周內(nèi)生效。

Google 1.5 Flash得到了2倍輸出速度和3倍更低延遲。

同時(shí),Google表示,發(fā)布的Gemini模型,默認(rèn)不會(huì)應(yīng)用過(guò)濾器,開(kāi)發(fā)者可以根據(jù)其用例自行決定最佳的配置。Gemini將繼續(xù)提供一系列安全過(guò)濾器,開(kāi)發(fā)者可以根據(jù)需要為Google的模型應(yīng)用這些過(guò)濾器。

Google還表示,此次模型在數(shù)學(xué)、長(zhǎng)上下文窗口和視覺(jué)方面取得了一定的進(jìn)步。

在更具挑戰(zhàn)性的MMLU-Pro基準(zhǔn)測(cè)試中,看到大約7%的性能提升。而在數(shù)學(xué)和HiddenMath(一個(gè)內(nèi)部保留的數(shù)學(xué)競(jìng)賽問(wèn)題集)基準(zhǔn)測(cè)試中,兩個(gè)模型都取得了約20%的顯著進(jìn)步。對(duì)于視覺(jué)和代碼使用場(chǎng)景,兩個(gè)模型在評(píng)估視覺(jué)理解和Python代碼生成的測(cè)試中表現(xiàn)也更好,提升范圍在約2-7%之間。

 d50005c1df3946d9dc8a2b7393979b34.png

8月份發(fā)布的Gemini-1.5-Flash-8B實(shí)驗(yàn)?zāi)P鸵驳玫搅诵碌母隆?/p>

Gemini模型本身的亮點(diǎn)包括長(zhǎng)上下文和多模態(tài)功能。由于Gemini Flash對(duì)開(kāi)發(fā)者有部分免費(fèi)額度,新更新可能對(duì)于開(kāi)發(fā)某些應(yīng)用有著很好的效果。

X上的AshutoshSrivastava就表示,他使用Google Flash構(gòu)建了一個(gè)應(yīng)用,能夠在1分鐘內(nèi)轉(zhuǎn)寫(xiě)13分鐘的長(zhǎng)音頻,且準(zhǔn)確度很高(且免費(fèi))。在另一個(gè)應(yīng)用中,他表示目標(biāo)探測(cè)功能的表現(xiàn)也很不錯(cuò)。

 a7e395aa4744d0756e43021c8546a7c1.png

OpenAI高級(jí)語(yǔ)音功能今日起推出

轉(zhuǎn)頭看OpenAI這邊。

凌晨?jī)牲c(diǎn),OpenAI宣布高級(jí)語(yǔ)音模式今日起開(kāi)始向訂閱用戶(hù)推出,周內(nèi)會(huì)全量進(jìn)行推送。

根據(jù)OpenAI的宣傳片,與標(biāo)準(zhǔn)語(yǔ)音模式進(jìn)行區(qū)分(黑色旋轉(zhuǎn)球),高級(jí)語(yǔ)音將以藍(lán)色旋轉(zhuǎn)球表示,并增加5個(gè)新語(yǔ)音。

 809e54fc85ffdfa523d0e8241ab26cf0.png

此次發(fā)布的一個(gè)重要亮點(diǎn)是,OpenAI表示,高級(jí)語(yǔ)音模式可以提供個(gè)性化定義。

在視頻中,OpenAI的研究員表示,用戶(hù)可以自定義指令,以讓模型以某種口音發(fā)音、記住事件以及用戶(hù)想要如何被稱(chēng)呼等。

「你可以讓模型用特定的語(yǔ)速說(shuō)話(huà),也許是非常清晰地發(fā)音,慢慢地說(shuō)話(huà),定期用你的名字或你喜歡的稱(chēng)呼來(lái)稱(chēng)呼你。」研究員表示。

另一位研究員提供了一個(gè)例子,對(duì)模型輸入名字和所在城市,在向模型尋求周末的計(jì)劃時(shí),模型會(huì)根據(jù)所在城市,進(jìn)行更個(gè)性化的規(guī)劃。

高級(jí)語(yǔ)音對(duì)話(huà)目前僅適用于ChatGPT Plus和Team帳戶(hù)的用戶(hù)。免費(fèi)用戶(hù)仍然可以訪(fǎng)問(wèn)標(biāo)準(zhǔn)語(yǔ)音模式。

不過(guò),Plus和Team用戶(hù)每天仍然有高級(jí)語(yǔ)音的使用限制,并且每日限制可能會(huì)發(fā)生變化。當(dāng)一天的高級(jí)語(yǔ)音還剩15分鐘時(shí),OpenAI會(huì)向用戶(hù)發(fā)出通知。

同時(shí),使用高級(jí)語(yǔ)音模式無(wú)法使用GPTs,即用戶(hù)設(shè)計(jì)的OpenAI的智能體。

高級(jí)語(yǔ)音模式因?yàn)閷?duì)語(yǔ)音反應(yīng)時(shí)間更敏感,在某些嘈雜的場(chǎng)景下,也更容易被打斷。

最后,OpenAI還用高級(jí)語(yǔ)音模式搞了一個(gè)活,表示ChatGPT目前可以用五十多種語(yǔ)言表示「對(duì)不起,我遲到了,我不是故意讓你等這么久的。」

一個(gè)很有趣的點(diǎn)是,此次Gemini的發(fā)布,是由Google的Logan Kilpatrick主要負(fù)責(zé)對(duì)外溝通交流。

而Logan Kilpatrick,正是OpenAI前開(kāi)發(fā)者關(guān)系負(fù)責(zé)人。2024年跳槽Google。

而轉(zhuǎn)頭,此次Google發(fā)布新模型,OpenAI就卡點(diǎn)發(fā)布高級(jí)語(yǔ)音模式。

OpenAI此次宣布的時(shí)間點(diǎn)或許還有另外一個(gè)意義——此前外媒報(bào)道稱(chēng),Meta公司本周將在Meta AI中推出名人語(yǔ)調(diào)的音頻對(duì)話(huà)功能。

在硅谷,AI的戰(zhàn)爭(zhēng)還在熱火朝天的繼續(xù)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論