国产亚洲中文字幕,中文字幕在线中文一页,91精品在线视频,亚洲2021AV天堂国内精品久久久

  • <dfn id="cy4gy"><source id="cy4gy"></source></dfn>
    <progress id="cy4gy"><button id="cy4gy"><strong id="cy4gy"></strong></button></progress>
  • <i id="cy4gy"></i>
    <u id="cy4gy"></u>

    leyu·樂魚(中國)體育官方網(wǎng)站

    NEWS

    1小時學會走路10分leyu鐘學會翻身世界模型讓機器人迅速掌握多項技能

    Views :
    Update time : 2024-08-22

      樂魚體育教機器人解決現(xiàn)實世界中的復雜任務(wù),一直是機器人研究的基礎(chǔ)問題。深度強化學習提供了一種流行的機器人學習方法,讓機器人能夠通過反復試驗改善其行為。然而,當前的算法需要與環(huán)境進行過多的交互才能學習成功,這使得它們不適用于某些現(xiàn)實世界的任務(wù)。

      為現(xiàn)實世界學習準確的世界模型是一個巨大的開放性挑戰(zhàn)。在最近的一項研究中l(wèi)eyu,UC 伯克利的研究者利用 Dreamer 世界模型的最新進展,在最直接和最基本的問題設(shè)置中訓練了各種機器人:無需模擬器或示范學習,就能實現(xiàn)現(xiàn)實世界中的在線強化學習。

      Dreamer 世界模型是谷歌、多倫多大學等機構(gòu)在 2021 年提出的一種。如下圖 2 所示,Dreamer 從過去經(jīng)驗的回放緩存中學習世界模型,從世界模型的潛在空間中想象的 rollout 中學習行為,并不斷與環(huán)境交互以探索和改進其行為。研究者的目標是在現(xiàn)實世界中推動機器人學習的極限,并提供一個強大的平臺來支持未來的工作。

      1、Dreamer on Robots。研究者將 Dreamer 應用于 4 個機器人,無需引入新算法直接在現(xiàn)實世界中展示了成功的學習成果。這些任務(wù)涵蓋了一系列挑戰(zhàn),包括不同的行動空間、感官模式和獎勵結(jié)構(gòu)。

      2、1 小時內(nèi)學會步行。研究者在現(xiàn)實世界中從零開始教四足機器人翻身、站起來并在 1 小時內(nèi)學會步行。

      此外,他們發(fā)現(xiàn)機器人會在 10 分鐘內(nèi)能學會承受推力或快速翻身并重新站起來。

      3、視覺拾取和放置。研究者訓練機械臂從稀疏獎勵中學會拾取和放置對象,這需要從像素定位對象并將圖像與本體感受輸入融合leyu。此處學習到的行為優(yōu)于無模型智能體,并接近人類表現(xiàn)。

      4、開源leyu。研究者公開發(fā)布了所有實驗的軟件基礎(chǔ)架構(gòu),它支持不同的動作空間和感官模式,為未來研究現(xiàn)實世界中機器人學習的世界模型提供了一個靈活的平臺。

      該研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理機器人上進行在線學習(online learning),無需模擬器,總體架構(gòu)如上圖 2 所示。Dreamer 從過去經(jīng)驗的回放緩沖區(qū)中學習世界模型,使用參與者 - 評價者算法從學習模型預測的軌跡中學習行為,并將其行為部署在環(huán)境中來不斷提升回放緩沖區(qū)。

      該研究將學習更新與數(shù)據(jù)收集解耦,以滿足延遲要求并實現(xiàn)快速訓練而無需等待環(huán)境變化。在該研究的實現(xiàn)中,一個學習線程持續(xù)訓練世界模型和參與者 - 評價者行為,同時一個參與者線程并行計算環(huán)境交互動作。

      世界模型可以被認為是機器人自主學習環(huán)境的快速模擬器,在探索現(xiàn)實世界時不斷改進其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018),它由四個組件組成:

      世界模型表征了與任務(wù)無關(guān)的動態(tài)知識,而參與者 - 評價者算法負責學習特定于當前任務(wù)的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預測的 rollout 中學習行為,而無需解碼觀察結(jié)果。這可以在單個 GPU 上以 16K 的批大小進行大規(guī)模并行行為學習,類似于專門的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評價者算法由兩個神經(jīng)網(wǎng)絡(luò)組成:

      參與者網(wǎng)絡(luò)的作用是為每個潛在模型狀態(tài) s_t 學習成功動作的分布,以最大化未來預測任務(wù)獎勵(reward)的總和。評價者網(wǎng)絡(luò)通過時間差異學習來學習預測未來任務(wù)獎勵的總和(Sutton 和 Barto,2018 ),這允許算法學習長期策略。

      與 Hafner et al. (2020) 相比,Dreamer 方法沒有訓練頻率超參數(shù),因為學習器優(yōu)化神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)收集并行進行,沒有速率限制。

      研究者在 4 個機器人上評估了 Dreamer,為每個機器人分配了不同的任務(wù),并將其性能與算法和人類基線進行比較,目的是評估近期學習世界模型的成功是否能夠直接在現(xiàn)實世界中實現(xiàn)樣本高效的機器人學習。

      這些實驗代表了常見的機器人任務(wù),例如運動、操縱和導航,帶來了各種各樣的挑戰(zhàn),包括連續(xù)和離散的動作、密集和稀疏的獎勵、本體感受和圖像觀察,以及傳感器融合。

      如圖 4 所示,經(jīng)過一小時的訓練,Dreamer 學會了不斷地讓機器人從其背部翻過來、站起來,然后向前走。在訓練的前 5 分鐘,機器人設(shè)法從背部翻滾過來并用腳著地。20 分鐘后,它學會了如何站起來leyu。大約 1 小時后,機器人學會了一種叉式步態(tài),以所需的速度向前行走。

      在成功完成這項任務(wù)后,研究者用一根棍子反復敲打機器人的四足來測試算法的魯棒性,如圖 8 所示。在額外在線 分鐘內(nèi),機器人會適應并承受推力或快速翻身站穩(wěn)。相比之下,SAC 也很快學會了翻身,但由于數(shù)據(jù)預算(data budget)太小,無法站立或行走。

      拾取和放置任務(wù)在倉庫和物流環(huán)境中很常見,需要機械臂將物品從一個箱子運輸?shù)搅硪粋€箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎勵稀疏、需要從像素推斷對象位置以及多個移動對象的挑戰(zhàn)性動態(tài),該任務(wù)具有一定挑戰(zhàn)性。

      上面提到的 UR5 機器人是高性能工業(yè)機器人leyu,但 XArm 是一種可訪問的低成本 7 DOF 操作,此處任務(wù)類似,需要定位和抓取一個柔軟的物體,將其從一個容器移到另一個容器并返回,如圖 6 所示。

      此外,研究者還在視覺導航任務(wù)上評估了 Dreamer,該任務(wù)需要將輪式機器人操縱到固定目標位置,僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機器人,一個帶有兩個可控電機的圓柱形機器人,研究者通過 2 Hz 的連續(xù)扭矩命令對其進行控制。鑒于機器人是對稱的,并且機器人只能獲得圖像觀察,它必須從觀察歷史中推斷出航向。

      2 小時內(nèi),Dreamer 學會了快速且始終如一地導航到目標,并保持在目標附近。如圖 7 所示,Dreamer 與目標的平均距離為 0.15(以區(qū)域大小為單位測量并跨時間步求平均值)。

      原標題:《1小時學會走路,10分鐘學會翻身,世界模型讓機器人迅速掌握多項技能》

      本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問。

    Related News
    Read More >>
    leyu保險柜機械鎖好還是電子鎖好?保險柜選購技巧是什么? leyu保險柜機械鎖好還是電子鎖好?保險柜選購技巧是什么?
    08 .22.2024
     leyu·樂魚0$保險柜機械鎖好還是電子鎖好?保險柜選購技巧是什么?-房天下$保險柜是為了保護重要的東西?,F(xiàn)在市場上的保險柜有機械鎖的,還是電子鎖的,不過很多人在購買的時候都不知道保險柜選購技巧是...
    1小時學會走路10分leyu鐘學會翻身世界模型讓機器人迅速掌 1小時學會走路10分leyu鐘學會翻身世界模型讓機器人迅速掌
    08 .22.2024
     樂魚體育教機器人解決現(xiàn)實世界中的復雜任務(wù),一直是機器人研究的基礎(chǔ)問題。深度強化學習提供了一種流行的機器人學習方法,讓機器人能夠通過反復試驗改善其行為。然而,當前的算法需要與環(huán)境進行過多的交互才能學...
    leyu·樂魚“工程機械之都”是這樣煉成的丨走出國門 走向世 leyu·樂魚“工程機械之都”是這樣煉成的丨走出國門 走向世
    08 .22.2024
     leyu“走出去,世界就在眼前;走不出去,眼前就是世界”,在邁向國際化征程中,湖南工程機械企業(yè)奮勇爭先,從產(chǎn)品出口到投資建廠,從建立研發(fā)基地到創(chuàng)辦產(chǎn)業(yè)園區(qū)leyu·樂魚,工程機械湘軍長袖善舞,中國...
    leyu自動化的歷史:機器人和人工智能的發(fā)展 leyu自動化的歷史:機器人和人工智能的發(fā)展
    08 .22.2024
     樂魚體育隨著時間的推移,自動化技術(shù)技術(shù)幾乎應用在我們生活的方方面面,從零售業(yè)的自動門到工廠生產(chǎn)線機器人,再到辦公室的業(yè)務(wù)流程自動化。除了自動化之外,現(xiàn)在人工智能也已成為日?,F(xiàn)狀了?!皺C器換人”的生...