唱跳全能的「擎天柱」Optimus,背后其實(shí)是真人遙控?

IM2Maker
你以為的Optimus代表了最先進(jìn)的AI,實(shí)際上的Optimus其實(shí)是真人遙控,而不是AI自驅(qū)的行為(autonomous)。

本文來(lái)自鎂客網(wǎng)(www.im2maker.com),作者 | IM2Maker。

20241014112009341.png

留給Optimus的算力不多了。

跌麻了!特斯拉“We,Robot”發(fā)布會(huì)完第二天,投資者們集體用腳投票,最終股價(jià)大跌8.78%,創(chuàng)下兩個(gè)月來(lái)的最大跌幅。

20241014112102283.png

有分析師表示,這次發(fā)布會(huì)雖有驚喜,但馬斯克并沒(méi)有給出細(xì)節(jié),再結(jié)合此前多次承諾都無(wú)法實(shí)現(xiàn),投資者的失望情緒可以理解。

當(dāng)然,大多數(shù)人的關(guān)注點(diǎn)都放在無(wú)人駕駛車上面,其實(shí)這次推出的新款Optimus在靈活性上的進(jìn)步其實(shí)值得拿出來(lái)講一講。

20241014112107611.jpg

從多家媒體現(xiàn)場(chǎng)拍攝的視頻可以看出來(lái),這次的Optimus不僅可以調(diào)酒跳舞,甚至可以聊天互動(dòng),甚至可以現(xiàn)場(chǎng)指揮大家給當(dāng)天生日的觀眾唱生日歌,無(wú)論是語(yǔ)氣還是邏輯都非常像

事實(shí)上,昨天展示的Optimus就是由真人遠(yuǎn)程遙控而不是自主AI,這是一種類似VR眼鏡的設(shè)備,人類訓(xùn)練員可以進(jìn)行遠(yuǎn)程實(shí)時(shí)操控。

這種利用VR技術(shù)訓(xùn)練的路徑其實(shí)已經(jīng)在多家機(jī)器人平臺(tái)上被應(yīng)用,比較成熟的包括Optimus以及英偉達(dá)Project GR00T,國(guó)內(nèi)一些具身智能企業(yè)也開始選擇使用真人動(dòng)捕提高機(jī)器人的靈活性。

VR遙控機(jī)器人,已成主流

如果單就人形機(jī)器人這一形態(tài)來(lái)說(shuō),該路徑已經(jīng)成為仿人機(jī)器人AI訓(xùn)練的主流方法。

作為VR訓(xùn)練機(jī)器人的帶頭人,特斯拉在今年5月的一段公開的視頻里揭露了訓(xùn)練的大致流程。

從視頻里可以看到,Optimus的訓(xùn)練數(shù)據(jù)都是來(lái)自穿戴VR頭顯的人類訓(xùn)練員,這套完整的系統(tǒng)集成了VR頭顯、傳感器、手套、動(dòng)捕服和相關(guān)軟件。

20241014112406319.png

通過(guò)VR頭顯,Optimus可以1:1地復(fù)刻映射人類操作員的動(dòng)作,而軟件可以以實(shí)現(xiàn)第一人稱視頻的實(shí)時(shí)傳輸和精確控制輸出,并保持極低的延遲。

在最近,特斯拉進(jìn)一步加大了數(shù)據(jù)采集操作員(Data Collection Operator)的招募力度,這些操作員通過(guò)佩戴VR頭顯和使用高精度傳感器及動(dòng)作捕捉服,為機(jī)器人提供高質(zhì)量的訓(xùn)練數(shù)據(jù)。

據(jù)招聘公告內(nèi)容,這些操作員需要長(zhǎng)時(shí)間佩戴VR頭顯,每天步行超過(guò)7小時(shí),攜帶重達(dá)30磅(約13.61千克)的設(shè)備,根據(jù)要求執(zhí)行站立、行走等特定動(dòng)作。

20241014112122591.png

雖然累,但特斯拉的待遇給得是真的多,薪酬大約每小時(shí)25.25-48美元,另外還有股票獎(jiǎng)勵(lì)以及福利。

當(dāng)然,如此誘人的報(bào)酬,硬性要求非常高,首先就是身高、體力以及操作經(jīng)驗(yàn)的三重考驗(yàn),其次長(zhǎng)時(shí)間操作VR設(shè)備并不是一件簡(jiǎn)單的事情。

最后,從這次發(fā)布會(huì)的視頻可以看出來(lái),機(jī)器人背后的操作人員需要極快的反應(yīng)能力,這一點(diǎn)能力也很難替代。當(dāng)然從效果來(lái)看,由真人訓(xùn)練的Optimus確實(shí)效果明顯。

不僅是特斯拉,英偉達(dá)也將Vision Pro納入其人形機(jī)器人平臺(tái)的訓(xùn)練體系中,研究員將仿真訓(xùn)練框架整合到英偉達(dá)Omniverse平臺(tái)和Isaac機(jī)器人開發(fā)平臺(tái),同時(shí)開發(fā)人員能夠使蘋果Vision Pro來(lái)遠(yuǎn)程操控人形機(jī)器人來(lái)執(zhí)行任務(wù)。

不只是人形機(jī)器人,四足機(jī)器人也可以使用此方法。騰訊Robotics X此前發(fā)布了基于真狗的動(dòng)捕思路,可以看到四足機(jī)器人明顯的運(yùn)動(dòng)能力提升。

AI難堪大任?做好硬件更重要

你以為的Optimus代表了最先進(jìn)的AI,實(shí)際上的Optimus其實(shí)是真人遙控,而不是AI自驅(qū)的行為(autonomous)。

而這也不是什么秘密,現(xiàn)場(chǎng)的科技媒體和機(jī)器人行業(yè)從業(yè)者都認(rèn)可這一行為,也難怪投資者不感興趣。

除此以外,對(duì)比仿真、模仿等訓(xùn)練方式,VR訓(xùn)練在數(shù)據(jù)采集成本上非常高,并且不見(jiàn)得可以完全離開人類操作員。

因此,目前各家具身智能項(xiàng)目真正比拼的其實(shí)是硬件。

以此次發(fā)布的新版Optimus為例,目前特斯拉已經(jīng)做到了22個(gè)自由度,操作上可以像真人一樣彈鋼琴,這個(gè)程度目前可以說(shuō)是領(lǐng)先全球絕大多數(shù)非實(shí)驗(yàn)室企業(yè)。而特斯拉的目標(biāo)是將執(zhí)行器從手部完全移至前臂,最終實(shí)現(xiàn)像人類那樣的工作方式。

20241014112125824.png

當(dāng)然,提高自由度的同時(shí),研發(fā)的成本也隨之提高。

據(jù)大摩人形機(jī)器人報(bào)告對(duì)上一代Optimus的拆解,一雙機(jī)器手接近1萬(wàn)美元,整體BOM更是高達(dá)50-60k美元,距離馬斯克計(jì)劃的1萬(wàn)美元還有很長(zhǎng)的路,而這次的22自由度的新款機(jī)器人成本只會(huì)更高,那么所謂2-3萬(wàn)美元的成本又是在畫餅?

當(dāng)然作為控制成本狂魔,馬斯克在降成本的實(shí)力有目共睹。

可以猜測(cè)一下,未來(lái)Optimus還是以硬件優(yōu)勢(shì)+人工控制為主,自主AI大概率不要指望了。

值得一提的,特斯拉的訓(xùn)練算力很大一部分都放在FSD以及自家AI公司Grok,能留給Optimus的,還剩多少呢?

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論