編者按:在由啟明創(chuàng)投主辦的2023世界人工智能大會(huì)“生成式AI與大模型:變革與創(chuàng)新”論壇上,人工智能等技術(shù)前沿領(lǐng)域的著名專家與學(xué)者,頂級(jí)投資人和領(lǐng)軍創(chuàng)業(yè)者匯聚一堂,共同探索中國(guó)科技創(chuàng)新的驅(qū)動(dòng)力量。
本次論壇是大會(huì)唯一一場(chǎng)由創(chuàng)投機(jī)構(gòu)主辦的相關(guān)論壇,立足創(chuàng)業(yè)與投資視角,分享了最新生成式AI前沿信息和實(shí)踐探索,并發(fā)布了行業(yè)首份基于對(duì)海內(nèi)外逾百家企業(yè)深入調(diào)研撰寫的生成式AI洞察報(bào)告,全方位解讀了生成式AI的產(chǎn)業(yè)變革和未來(lái)十大展望。
啟明創(chuàng)投投資企業(yè)優(yōu)必選科技聯(lián)合創(chuàng)始人、首席技術(shù)官、執(zhí)行董事熊友軍博士在現(xiàn)場(chǎng)發(fā)表了“人形機(jī)器人的發(fā)展與未來(lái)”主題演講。他介紹了人形機(jī)器人正在迎來(lái)“iPhone”時(shí)刻。人形機(jī)器人更適合于人類的環(huán)境,并提供更自然的人機(jī)交互來(lái)滿足人的情感和陪伴需求。
AI技術(shù)的演進(jìn)和發(fā)展,是推進(jìn)人形機(jī)器人智能化的關(guān)鍵,人形機(jī)器人和ChatGPT結(jié)合將AI推上了一個(gè)具身智能的新高度。ChatGPT賦能人形機(jī)器人,使之告別四肢發(fā)達(dá)頭腦簡(jiǎn)單;而人形機(jī)器人將延展ChatGPT的能力,幫助其超越文本處理和信息空間,具備與物理世界交互的能力。人形機(jī)器人市場(chǎng)目前百花齊放,未來(lái)將更加繁榮。
以下為精編整理的演講實(shí)錄。
非常感謝啟明創(chuàng)投的邀請(qǐng),我們向大家分享一下優(yōu)必選科技在人形機(jī)器人方面的研究。優(yōu)必選科技在這方面已經(jīng)進(jìn)行了十多年的研發(fā),最近這段時(shí)間我們迎來(lái)了人形機(jī)器人的“iPhone”時(shí)刻,可能大家對(duì)這方面都很關(guān)注,我們給大家分享一下這方面的發(fā)展與未來(lái)的情況。
優(yōu)必選科技聯(lián)合創(chuàng)始人、首席技術(shù)官、執(zhí)行董事熊友軍博士
01/
人工智能技術(shù)的演進(jìn)和發(fā)展
是推進(jìn)人形機(jī)器人智能化的關(guān)鍵
我們?yōu)槭裁匆鋈诵螜C(jī)器人?或者說(shuō)機(jī)器人為什么一定要有人形?是出于幾個(gè)方面的考慮。首先因?yàn)槲覀儸F(xiàn)在的環(huán)境都是為人類所打造的,人形機(jī)器人更適合于人類的環(huán)境,并提供更自然的人機(jī)交互來(lái)滿足人的情感和陪伴需求。
人形機(jī)器人的發(fā)展歷程實(shí)際上是一個(gè)比較早的故事,1969年早稻田大學(xué)開發(fā)了第一代的人形機(jī)器人。后面的人形機(jī)器人大致經(jīng)歷過(guò)三個(gè)階段的發(fā)展,但是基本上都是圍繞著怎樣讓機(jī)器人更好地在我們的人類環(huán)境里運(yùn)動(dòng)而展開的。
第一個(gè)階段是1969-1995年,它是一個(gè)緩慢靜態(tài)行走的過(guò)程,以日本本田ASIMO機(jī)器人的前身為代表,當(dāng)時(shí)機(jī)器人只能在結(jié)構(gòu)化的固定環(huán)境中運(yùn)動(dòng);
第二個(gè)階段是1996-2015年,可以實(shí)現(xiàn)連續(xù)動(dòng)態(tài)行走,這時(shí)候更多考慮到了機(jī)器人的質(zhì)心慣量以及質(zhì)心的加速度等因素;
第三個(gè)階段是2016年-2020年,追求的是高動(dòng)態(tài)的運(yùn)動(dòng)性能,以波士頓動(dòng)力的ATLAS機(jī)器人做出的令人驚嘆的運(yùn)動(dòng)動(dòng)作為標(biāo)志;
人形機(jī)器人更強(qiáng)調(diào)與人的交互,其環(huán)境感知和決策能力都是隨著人工智能的發(fā)展而快速發(fā)展的,所以人工智能技術(shù)的演進(jìn)和發(fā)展是推進(jìn)人形機(jī)器人智能化發(fā)展的關(guān)鍵因素。
02/
人形機(jī)器人和ChatGPT的結(jié)合
將AI推上了“具身智能”的新階段
“具身智能”更強(qiáng)調(diào)智能體與物理世界的交互與反饋,也能讓人形機(jī)器人發(fā)揮更多價(jià)值,但現(xiàn)在的ChatGPT更多的是在信息空間的結(jié)合。過(guò)去機(jī)器人被認(rèn)為四肢發(fā)達(dá)、頭腦簡(jiǎn)單,但在人形機(jī)器人和大模型結(jié)合之后,會(huì)大大延伸人形機(jī)器人的工作價(jià)值,不僅僅會(huì)具有更多的勞動(dòng)力價(jià)值,也會(huì)有更多情感交互的價(jià)值。
另外,人形機(jī)器人也能夠延伸ChatGPT的能力。目前ChatGPT實(shí)現(xiàn)的只是信息輸出,但在未來(lái)可以借助人形機(jī)器人實(shí)現(xiàn)與物理世界的交互,從信息空間向物理空間延展,兩者結(jié)合具有非常大的想象空間,對(duì)人形機(jī)器人和ChatGPT都具有非常巨大的價(jià)值。
在技術(shù)層面,生成式人工智能可以提升人形機(jī)器人的研發(fā)效率,過(guò)去研發(fā)過(guò)程需要撰寫大量基礎(chǔ)且重復(fù)的代碼,未來(lái)我們可以用大模型自動(dòng)生成特定目標(biāo)的基礎(chǔ)代碼,節(jié)約工程師人力資源。
生成式人工智能還會(huì)讓人形機(jī)器人的運(yùn)動(dòng)規(guī)劃變得更加便捷,過(guò)去研發(fā)過(guò)程需要提供非常細(xì)節(jié)的指令,未來(lái)我們只需要給出宏觀指令,設(shè)定好目標(biāo),由大模型自動(dòng)生成代碼來(lái)實(shí)現(xiàn),從而加快機(jī)器人的開發(fā)過(guò)程,降低機(jī)器人的開發(fā)成本。這些都是人形機(jī)器人和ChatGPT結(jié)合之后帶來(lái)的好處。
03/
人形機(jī)器人發(fā)展涉及的核心技術(shù)
需要全行業(yè)共同推進(jìn)
從人形機(jī)器人行業(yè)現(xiàn)在的競(jìng)爭(zhēng)格局來(lái)看,很多公司已經(jīng)開始在做人形機(jī)器人的研發(fā)了,尤其像特斯拉、Open AI還有谷歌,都在這方面做了很多布局。國(guó)內(nèi)也有很多的公司開始加入,包括這幾天也有一些公司發(fā)布了他們?nèi)诵螜C(jī)器人的進(jìn)展。這是非常好的現(xiàn)象,百花齊放,這個(gè)生態(tài)更加繁榮起來(lái)了。
人形機(jī)器人發(fā)展起來(lái)涉及到一些核心的技術(shù),需要全行業(yè)共同來(lái)推進(jìn)。
第一,伺服驅(qū)動(dòng)器,也就是機(jī)器人的“關(guān)節(jié)”。這是讓機(jī)器人能夠運(yùn)動(dòng)的重要零部件。從小扭矩的手部關(guān)節(jié),到大扭矩的踝關(guān)節(jié)、膝關(guān)節(jié),需要伺服驅(qū)動(dòng)器具有高爆發(fā)力、高控制力和高能量密度比等不同的特性,也對(duì)應(yīng)不同的核心技術(shù)。
第二,運(yùn)動(dòng)控制研發(fā)。這涉及到機(jī)器人的步態(tài)算法,需要適應(yīng)各種環(huán)境,比如樓梯、斜坡、草地、石子路等等。
第三,位控和力控。我們對(duì)機(jī)器人的行走速度、運(yùn)動(dòng)速度要求都非常高,希望它能更快一點(diǎn),甚至能跑、能跳,這里面有兩個(gè)控制的主要技術(shù),位控和力控,面向不同的場(chǎng)景有各種不同的側(cè)重。
第四,全身柔性控制。人機(jī)交互的安全性。人形機(jī)器人更多參與與人的交互,需要它是柔性的,而不是工業(yè)機(jī)器人那樣需要用獨(dú)立環(huán)境把它隔離出來(lái),所以它的全身柔性控制是非常重要的。
第五,我們更加關(guān)注的是機(jī)器人的工作能力,像手眼協(xié)調(diào)、抓取、力位混合控制、精度的控制,除了要考慮到運(yùn)動(dòng)控制,還要跟視覺、力覺等傳感器做很多的配合。
第六,導(dǎo)航算法。機(jī)器人在生活的場(chǎng)景里面大范圍地移動(dòng),需要對(duì)環(huán)境進(jìn)行重構(gòu),基于不同的障礙物進(jìn)行路徑的規(guī)劃,所以我們要基于它的3D視覺傳感器做很多導(dǎo)航算法的研究,和輪式機(jī)器人的導(dǎo)航也不一樣。
第七,生物特征識(shí)別。跟人交互的過(guò)程中要用到生物特征識(shí)別,機(jī)器人在面對(duì)老人、小孩等不同的交互對(duì)象時(shí),交互的模式和內(nèi)容都會(huì)不一樣。
第八,多模態(tài)的交互。我們的交互不僅僅是要關(guān)注它的語(yǔ)音、視覺,其實(shí)我們還有觸覺,還有一些表情、行為等等的交互,人形機(jī)器人和人的交互是多模態(tài)的交互。
第九,機(jī)器人操作系統(tǒng)。除了這個(gè)以外,還有機(jī)器人底層的操作系統(tǒng)也是非常重要的,現(xiàn)在我們很多的操作系統(tǒng)基本上都是基于Linux或者安卓做應(yīng)用開發(fā),在產(chǎn)業(yè)真正發(fā)展起來(lái)之后,一定會(huì)有自己的操作系統(tǒng)。
04/
人形機(jī)器人作為第三代人機(jī)交互中心
會(huì)有巨大的發(fā)展
從工業(yè)革命以來(lái),每一個(gè)時(shí)代都有它的標(biāo)志性產(chǎn)品,第四次工業(yè)革命的標(biāo)志性產(chǎn)品可能就是人形機(jī)器人。
另外人形機(jī)器人的市場(chǎng),不同機(jī)構(gòu)給出了很多的市場(chǎng)的預(yù)估,這其實(shí)只是其中的一種。
最近圍繞推動(dòng)人形機(jī)器人的發(fā)展,國(guó)家出臺(tái)了很多的政策,從工信部到各個(gè)城市,上海、北京、深圳都在大力推動(dòng)人形機(jī)器人的發(fā)展,像工信部正在大力推進(jìn)制造業(yè)創(chuàng)新中心、人形機(jī)器人制造業(yè)創(chuàng)新中心的建設(shè),因此各個(gè)地方都推出了人形機(jī)器人的行動(dòng)的計(jì)劃。
我們做人形機(jī)器人最重要的目標(biāo)就是要把它作為一個(gè)多任務(wù)、通用型的機(jī)器人平臺(tái),它有非常多的應(yīng)用場(chǎng)景。比如說(shuō)在工業(yè)生產(chǎn)的領(lǐng)域,我們已經(jīng)進(jìn)入老年社會(huì),發(fā)展人形機(jī)器人可以大大彌補(bǔ)勞動(dòng)力的不足,這是一個(gè)非常具有吸引力的用戶場(chǎng)景。
人形機(jī)器人也是很好的社會(huì)服務(wù)的承擔(dān)者,因?yàn)樗哂械臄M人特征更能適應(yīng)以人為中心建造的辦公、生活環(huán)境,更具有親近感,它的應(yīng)用將會(huì)在辦公輔助、商務(wù)服務(wù)、家務(wù)作業(yè)以及居家照料老人等領(lǐng)域。一旦人形機(jī)器人大范圍應(yīng)用,勞動(dòng)力短缺問(wèn)題將可能一勞永逸地解決。
同時(shí)在特種領(lǐng)域,比如說(shuō)救災(zāi)、救援,這類型的任務(wù)一般都具有急迫性,而且環(huán)境差異都不一樣,有些時(shí)候特種裝備都難以勝任,一般都派消防隊(duì)員或者是特種救援隊(duì)員上去,其實(shí)這時(shí)候可以用人形機(jī)器人,人形機(jī)器人可以直接使用各種特種裝備展開救援任務(wù),大大減少對(duì)人的威脅。
另外在國(guó)家的重大工程建設(shè)方面,人形機(jī)器人可以代替人在一些缺氧、強(qiáng)輻射,在對(duì)人有危險(xiǎn)的環(huán)境里長(zhǎng)期駐守和部署。所以在核電站、空間站、探月工程,這種國(guó)家級(jí)的重大工程應(yīng)用里面,人形機(jī)器人也有非常好的應(yīng)用前景。
其實(shí)我也經(jīng)常被問(wèn)到一個(gè)問(wèn)題:在工業(yè)領(lǐng)域里為什么會(huì)用到人形機(jī)器人?我們跟制造企業(yè)談過(guò),像深圳的一些汽車制造廠,焊接、噴漆、搬運(yùn)、生產(chǎn)的自動(dòng)化程度已經(jīng)很高了,但是依然還有非常多的崗位由人來(lái)承擔(dān)。這些場(chǎng)景不適合用自動(dòng)化設(shè)備,相比自動(dòng)化的機(jī)械手臂、工業(yè)機(jī)器人,人形機(jī)器人的運(yùn)動(dòng)能力適合所有的工廠環(huán)境,決策能力更強(qiáng),靈巧手的抓取能力也更強(qiáng),每個(gè)工種也可以替換不同的夾具來(lái)完成。
人形機(jī)器人幾乎可以完成人類能進(jìn)行的所有非標(biāo)任務(wù),在自動(dòng)化流水線上也可以配合傳統(tǒng)設(shè)備進(jìn)行作業(yè)。優(yōu)必選科技在智慧工廠做了很多人形機(jī)器人的應(yīng)用探索,在物流、測(cè)試,在分揀方面都做了很多工作。
我們有一個(gè)大致的預(yù)判,人形機(jī)器人會(huì)賦能各行各業(yè),最終會(huì)走入家庭。這是美國(guó)的人工智能協(xié)會(huì)的預(yù)測(cè),我們生活的各個(gè)方向,各個(gè)層面,機(jī)器人都會(huì)發(fā)揮作用。人形機(jī)器人可能是最終的形態(tài),它的數(shù)量可能會(huì)非常多,像孫正義、馬斯克預(yù)測(cè)的100億臺(tái)、200億臺(tái)人形機(jī)器人,會(huì)需要一個(gè)發(fā)展過(guò)程。
繼個(gè)人電腦、智能手機(jī)之后,人形機(jī)器人作為第三代人機(jī)交互中心,會(huì)有巨大的發(fā)展。它也會(huì)遵循個(gè)人電腦和智能手機(jī)的發(fā)展邏輯,不同的是人形機(jī)器人會(huì)采用多模態(tài)的交互,相對(duì)于個(gè)人電腦和個(gè)人手機(jī)來(lái)說(shuō),交互模式會(huì)出現(xiàn)全面的提升。
05/
人形機(jī)器人是能推動(dòng)整個(gè)機(jī)器人
技術(shù)發(fā)展的重要產(chǎn)品
優(yōu)必選科技最早從2012年就開始做小型人形機(jī)器人,到現(xiàn)在已經(jīng)發(fā)展了很多代了。我們掌握了全棧的人工智能技術(shù),包括機(jī)器人的本體、人工智能的視覺語(yǔ)音技術(shù),包括導(dǎo)航、視覺伺服以及人機(jī)方面的技術(shù)。我們基于人形機(jī)器人的技術(shù),展開了很多應(yīng)用的場(chǎng)景,現(xiàn)在專注的幾個(gè)場(chǎng)景是在人工智能教育、智慧物流,以及養(yǎng)老行業(yè),還有一些商業(yè)應(yīng)用的服務(wù)機(jī)器人。
優(yōu)必選科技是全球極少數(shù)具備人形機(jī)器人全棧式技術(shù)能力的公司,包括行業(yè)領(lǐng)先的機(jī)器人技術(shù)(機(jī)器人運(yùn)動(dòng)規(guī)劃和控制技術(shù)、伺服驅(qū)動(dòng)器)、人工智能技術(shù)(計(jì)算機(jī)視覺和語(yǔ)音交互)、機(jī)器人與人工智能融合技術(shù)(SLAM 及自主技術(shù)、視覺伺服操作和人機(jī)交互),以及機(jī)器人操作系統(tǒng)應(yīng)用框架(ROSA)。憑借自研的人形機(jī)器人全棧技術(shù),優(yōu)必選科技以智能機(jī)器人為載體,人工智能技術(shù)為核心,面向人工智能教育、智慧物流、智慧康養(yǎng)、商業(yè)服務(wù)等多個(gè)行業(yè),推出了“硬件+軟件+服務(wù)+運(yùn)營(yíng)”的智能服務(wù)機(jī)器人解決方案。
這些解決方案都是基于人形機(jī)器人技術(shù)衍生而來(lái)的。人形機(jī)器人的核心技術(shù)就像是優(yōu)必選科技樹的“樹干”一樣,可以分出很多的枝椏,為其他產(chǎn)品提供了養(yǎng)分。這也是優(yōu)必選科技做人形機(jī)器人的原因,我們覺得人形機(jī)器人是能夠推動(dòng)整個(gè)機(jī)器人技術(shù)發(fā)展的非常重要的一個(gè)產(chǎn)品。
請(qǐng)關(guān)注啟明創(chuàng)投公眾號(hào)
在后臺(tái)輸入“生成式AI報(bào)告”
獲取完整報(bào)告下載方式