創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息理解問題、做出決策 并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。具體而言,具身智能在機(jī)器人上的應(yīng)用體現(xiàn)可以劃分為三階段:感知、推 理、執(zhí)行。
具身智能是機(jī)器人與人工智能發(fā)展的交匯點(diǎn)。機(jī)器人的通用性取決于泛化性的發(fā)展程度,自20世紀(jì)50年代以來,經(jīng)過 多輪發(fā)展,機(jī)器人開始從傳統(tǒng)的自動(dòng)化工業(yè)場(chǎng)景機(jī)器人,向通用泛化場(chǎng)景的機(jī)器人方向發(fā)展。而人工智能在幾十年發(fā) 展過后,在今天迎來了智能程度、通識(shí)程度更高的生成式大模型時(shí)代。在當(dāng)前時(shí)間點(diǎn),人工智能可以真正為機(jī)器人賦 予“大腦”,機(jī)器人也可為人工智能提供“身體”,兩者深度融合,而融合的交點(diǎn)——具身智能,則是人工智能與機(jī) 器人相互促進(jìn)發(fā)展而形成的必然的產(chǎn)業(yè)趨勢(shì)。
目前具身大模型可以分為兩大流派,一類是端到端大模型,一類是分層具身大模型。1)端到端大模型:能夠直接實(shí) 現(xiàn)從人類指令到機(jī)械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動(dòng)作。
2)分層具身大模型:不同層次模型協(xié)作, 上層大模型進(jìn)行感知與決策,底層硬件層和中間響應(yīng)快的小模型進(jìn)行決策的分解與執(zhí)行。目前,由于受數(shù)據(jù)制約難以 達(dá)到性能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機(jī)器人的具身智能。
訓(xùn)練具身大模型的痛點(diǎn):數(shù)據(jù)。機(jī)器人需要用海量數(shù)據(jù)進(jìn)行訓(xùn)練,使其變得更加智能。但機(jī)器人是非常新的領(lǐng)域,嚴(yán) 重缺乏訓(xùn)練數(shù)據(jù)的積累。對(duì)應(yīng)而言,目前主要的數(shù)據(jù)收集方法有四種:1)遠(yuǎn)程操作,即由實(shí)驗(yàn)人員操作機(jī)械手柄,遠(yuǎn) 程控制機(jī)器人做出相同動(dòng)作,以此來積累數(shù)據(jù);2)AR,即通過AR環(huán)境對(duì)機(jī)器人進(jìn)行訓(xùn)練,積累數(shù)據(jù);3)仿真,即 通過海量算力進(jìn)行模擬運(yùn)算,計(jì)算得出海量機(jī)器人訓(xùn)練數(shù)據(jù)集;4)視頻學(xué)習(xí),即通過多模態(tài)大模型,直接讓機(jī)器人通 過視頻學(xué)習(xí)人類動(dòng)作,從而積累訓(xùn)練數(shù)據(jù)。
人形機(jī)器人產(chǎn)業(yè)未來展望:從專用到通用,從ToB到ToC。短期來看,任務(wù)相對(duì)聚焦,對(duì)泛化能力要求不高工業(yè)制造 場(chǎng)景下的任務(wù)正在更快進(jìn)入商業(yè)化階段。在工業(yè)制造場(chǎng)景實(shí)現(xiàn)商業(yè)化落地之后,海量機(jī)器人的具身數(shù)據(jù)疊加算力技術(shù) 的進(jìn)步,機(jī)器人的能力將循序漸進(jìn)逐步解鎖,并向商用服務(wù)、家庭服務(wù)等更開放的場(chǎng)景進(jìn)行延伸,屆時(shí)市場(chǎng)有望達(dá)萬 億J。
![]() |
機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |