婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > OpenAI開放模擬機器人環境和HER算法,讓機器人從

OpenAI開放模擬機器人環境和HER算法,讓機器人從

熱門標簽:電話機器人接通率 標準地圖標注樣式 唐山電銷自動外呼系統 膠州企業辦理400電話 西安電銷外呼系統加盟 外呼系統投訴電話 邢臺聯通400電話申請 瑪沁企業如何做地圖標注 天津三五防封電銷卡
從錯誤中吸取教訓是人類能長久保持優勢的原因之一,即使我們做了失敗的嘗試,但至少有一部分是正確的,總結經驗后也能成功。 機器人也可以使用類似的試錯法學習新任務。通過強化學習,機器人嘗試用不同的方法做一件事,如果嘗試的方法有效則會獲得獎勵。給予獎勵生成的強化,機器人會不斷嘗試直到成功到達目標。 人與機器的不同之處在于我們如何從失敗和成功中學習,從中我們不僅知道哪些東西對實現目標沒有幫助,而且能了解為什么失敗以及之后如何避免。這就使我們能比機器人更有效地學習。 今天,位于美國舊金山的人工智能研究機構OpenAI發布了一款開源算法,名為Hindsight Experience Replay(HER),該算法將失敗作為成功的手段,讓機器人像人類一樣學習。 HER的重要特征是它能像人類一樣,即使沒有達到預期目標,但至少收獲了其他成果。那么為什么不假裝這就是最初想實現的目標呢? Spectrum IEEE的編輯Evan Ackerman用比喻具體形容了HER的原理:想像一下你正要擊打棒球,目標是全壘打。但是在第一次擊球時,球出界了,雖然沒有做到全壘打,但是你卻知道了一種打出界球的方法。事后通過總結,你可以這么想:“如果我的目標就是打個出界球,那么剛剛的那一記擊球就是完美的!”雖然沒有打出全壘打,但仍然有了進步。 HER的另一個優點是它使用了研究人員所稱的“稀疏獎勵”來指導學習。獎勵是我們如何告訴機器人它們的所作所為對強化學習是好事還是壞事。大多數強化學習算法使用的是“密集獎勵”,機器人根據完成目標的程度獲得不同大小的cookies。這些cookies可以單獨獎勵任務的一個方面,并在某種程度上幫助指導機器人按照指示的方式學習。 密集獎勵很有效,但是部署起來卻有些麻煩,并且在有些情況下并不是那么實用。大多數應用非常關注結果,并且出于實用的目的,你可以從中取得成功,也可能不成功。稀疏獎勵是指,機器人在成功后只得到一個cookie,這樣一來,該程序就更容易測量、編程和實施。但另一方面,這種方法可能會降低學習速度,因為機器人沒有獲得增量反饋,它只是被一遍又一遍地告訴“沒有cookie”,除非它非常幸運地偶然成功了。 這就是HER的基本原理:它讓機器人通過分散獎勵學習,改變原本的目標,把每次嘗試行為都看做成功,所以機器人每次都能學到一些東西。 通過這種方法,強化學習算法可以獲得學習信號,因為它已經實現了一些目標;即使它不是你原本想達到的目標,如果重復這個過程,最終機器人也會實現任意一種目標,包括最初真正的目標。 下面的視頻是HER方法與其他深度學習方法在實踐中的對比,左邊是新開發的HER方法,右邊是T. Lillicrap等人于2015年提出的深度決定性策略梯度(DDPG)方法: 最終的結果對比差別非常大: HandManipulateBlockRotateXYZ-v0上四個不同配置下的中位測試成功率(曲線)和四分位范圍(陰影部分)。數據繪制于訓練時期,每種配置下每隔五個隨機種子就進行總結 帶有稀疏獎勵的DDPG+HER明顯優于其他所有配置,并且只從稀疏獎勵中學習了成功策略來完成這項具有挑戰性的任務。有趣的是,帶有密集獎勵的DDPG+HER能夠學習,但表現得卻不好。而Vanilla DDPG的兩種配置均不能學習。完整的實驗結果可以在論文中查看。 OpenAI此次發布了八個Gym模擬機器人環境(Gym是OpenAI用于開發和比較強化學習算法的工具包,它能教智能體各種任務,比如走路、打乒乓球或玩彈球等),其中四個用于Fetch研究平臺,四個用于ShadowHand機器人,使用的是MuJoCo物理模擬引擎。 Fetch上的四個環境 將機械臂末端以最快速度移動到目標位置 擊中灰色目標,使其滑動到桌上一固定位置 用機械臂末端推動正方體使其到達目標位置 機械臂抓取桌上的正方體,并停留在桌子上方某固定位置 ShadowHand上的四個環境 將拇指和另一個手指移動到指定位置 在手上翻轉正方體直到達到預期位置 在手上翻轉彩蛋直到達到預期位置 在手上轉筆直到達到預期位置 HER的問題 雖然HER對于學習稀疏獎勵的復雜任務是很有前景的方式,但它仍存在改進的空間。和OpenAI最近發布的Request for Research 2.0相似,研究人員針對HER的進步提出了一下幾條想法: 事后自動創建目標。目前的HER使用硬編碼策略選擇目標,如果算法可以自動學習應該會很有趣。 無偏差HER。替換目標以無原則的方式改變了經驗的分布。這種偏差在理論上會導致不穩定,盡管在實踐中還沒有遇到這種情況。 HER+HRL。將HER與最近推出的層次強化學習(HRL)結合起來一定很有趣。這樣一來,HER不僅僅可以應用到目標上,還能應用到較高層次的策略生成的動作上。例如,如果較高層次命令低層次實現目標A,結果實現了目標B,那么我們可以假設高層次原本命令的是目標B。 更豐富的價值函數。擴展最近的研究,并在額外的輸入上調整價值函數,例如折扣因子或成功閾值。 更快的信息傳播。大多數off-policy深度強化學習算法使用目標網絡來穩定訓練。然而,由于改變需要時間傳播,就會限制訓練的速度。我們注意到在我們的實驗中,這是決定DDPG+HER學習速度最重要的因素。 HER+多步驟回報。由于我們更換了目標,HER上的實驗是off-policy的。所以用多步驟回報使用它就變得困難了。然而,多步驟回報能讓信息傳播的速度更快,所以也是可行的。 On-policy HER。目前,HER只能與off-policy算法一起使用。但是,最近的算法如PPO的穩定性非常好。所以我們可以研究一下HER能否與on-policy算法一起使用。 高頻動作的強化學習。目前的強化學習算法對動作過多的案例十分敏感,這就是為什么跳幀技術經常用于雅達利游戲。在連續控制領域,動作頻率越趨近于無窮,性能則越趨近于零。這是由兩個因素造成的:不一致的探索,和需要多次引導來傳播信息。 將HER與強化學習的最近進展相結合。最近,強化學習在多個方面都有了很大進步,它可以和優先經驗回放(Prioritized Experience Replay)、分布強化學習(distributional RL)以及entropy-regularized RL或反向課程生成相結合。 在論文中你可以找到關于新Gym環境應用的更多信息。 使用基于目標的環境 引入“目標”概念需要對現有Gym的API進行一些反向兼容更改: 所有基于目標的環境使用gym.spaces.Dict觀察空間。環境需要包含一個智能體嘗試達到的預期目標(desired_goal)、一個目前已經達到的目標(achieved_goal)、以及實際觀察(observation),例如機器人的狀態。 我們公開環境的獎勵函數以重新計算更換目標之后的獎勵。 下面是在新的基于目標的環境中,執行目標替換時的簡單例子: import numpy as np import gym env = gym.make('FetchReach-v0') obs = env.reset() done = False def policy(observation, desired_goal): # Here you would implement your smarter policy. In this case, # we just sample random actions. return env.action_space.sample() whilenotdone: action = policy(obs['observation'], obs['desired_goal']) obs, reward, done, info = env.step(action) # If we want, we can substitute a goal here and re-compute # the reward. For instance, we can just pretend that the desired # goal was what we achieved all along. substitute_goal = obs['achieved_goal'].copy() substitute_reward = env.compute_reward( obs['achieved_goal'], substitute_goal, info) print('reward is {}, substitute_reward is {}'.format( reward, substitute_reward)) 新的環境可以使用與Gym兼容的強化學習算法,如Baselines。用gym.wrappers.FlattenDictWrapper將基于字典的觀察空間壓縮成一個數組。 import numpy as np import gym env = gym.make('FetchReach-v0') # Simply wrap the goal-based environment using FlattenDictWrapper # and specify the keys that you would like to use. env = gym.wrappers.FlattenDictWrapper( env, dict_keys=['observation', 'desired_goal']) # From now on, you can use the wrapper env as per usual: ob = env.reset() print(ob.shape) # is now just an np.array

標簽:銅陵 赤峰 福建 陽江 白銀 湘西 湖南 寶雞

巨人網絡通訊聲明:本文標題《OpenAI開放模擬機器人環境和HER算法,讓機器人從》,本文關鍵詞  OpenAI,開放,模擬,機器人,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《OpenAI開放模擬機器人環境和HER算法,讓機器人從》相關的同類信息!
  • 本頁收集關于OpenAI開放模擬機器人環境和HER算法,讓機器人從的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产三级精品在线| 欧美精品视频www在线观看| 中文字幕中文字幕中文字幕亚洲无线| 欧美性大战xxxxx久久久| 亚洲国产美女搞黄色| 国产区在线观看成人精品 | 欧美日韩卡一卡二| 久久超碰97中文字幕| 亚洲黄色在线视频| 欧美国产一区视频在线观看| 欧美本精品男人aⅴ天堂| 欧美日韩精品电影| 欧美调教femdomvk| 在线免费观看一区| 欧美无乱码久久久免费午夜一区 | av午夜精品一区二区三区| 亚洲午夜久久久久| 亚洲色图都市小说| 国产精品免费视频网站| 久久精品亚洲国产奇米99| 精品sm在线观看| 精品黑人一区二区三区久久| 精品国产乱码久久久久久牛牛| 日本不卡一区二区三区| 国产精品大尺度| 国产精品国产三级国产| 自拍偷在线精品自拍偷无码专区| 国产麻豆午夜三级精品| 性感美女久久精品| 亚洲一区二区在线免费看| 亚洲综合在线视频| 亚洲成在线观看| 日日摸夜夜添夜夜添亚洲女人| 日韩一区二区三免费高清| 欧美猛男男办公室激情| 在线观看亚洲精品视频| 欧美日韩精品三区| 欧美哺乳videos| 26uuu亚洲综合色欧美| 国产午夜精品在线观看| **性色生活片久久毛片| 亚洲成人久久影院| 激情深爱一区二区| 成人夜色视频网站在线观看| 91福利在线免费观看| 制服视频三区第一页精品| 2021国产精品久久精品| 日韩毛片一二三区| 视频一区欧美日韩| 国产精品一二三四| 色婷婷久久久亚洲一区二区三区| 轻轻草成人在线| 玖玖九九国产精品| 成人一区二区三区在线观看| 在线精品视频一区二区三四| 精品国产一区二区三区久久影院| 91久久精品一区二区二区| 欧美喷潮久久久xxxxx| 国产日韩欧美激情| 午夜婷婷国产麻豆精品| 国产一区二区不卡| 欧美精品一卡两卡| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 亚洲人成在线观看一区二区| 亚洲色图在线看| 日韩激情一区二区| 99久久99久久免费精品蜜臀| 欧美电影免费观看高清完整版在| 欧美精品第1页| 国产嫩草影院久久久久| 亚洲福利一二三区| 9i看片成人免费高清| 精品国产精品一区二区夜夜嗨| 91久久精品一区二区三区| 91色九色蝌蚪| 久久这里只有精品6| 亚洲国产cao| 97se狠狠狠综合亚洲狠狠| 久久久久久久久久美女| 日本成人中文字幕在线视频| 欧美在线视频不卡| 亚洲色图另类专区| 国产东北露脸精品视频| 欧美岛国在线观看| 秋霞电影网一区二区| 欧美日韩免费电影| 亚洲一区二区三区在线播放| 色综合久久久久综合体桃花网| 成人精品视频一区二区三区尤物| 韩国欧美一区二区| 678五月天丁香亚洲综合网| 亚洲一区二区av在线| 成人av午夜电影| 国产婷婷色一区二区三区| 国产一区二区免费在线| 日韩不卡一二三区| 不卡影院免费观看| 国产精品丝袜黑色高跟| 国产精品亚洲视频| 久久久久国产精品麻豆ai换脸| 日韩一区二区电影在线| 亚洲成av人片在线| 9191成人精品久久| 亚洲精品视频在线| 99精品视频一区二区三区| 国产精品嫩草影院av蜜臀| 成人精品免费视频| 国产精品女人毛片| 99久久久久免费精品国产| 日韩理论片中文av| 色综合久久久久| 性久久久久久久久久久久| 欧美一级理论性理论a| 九一久久久久久| 国产人伦精品一区二区| www.日韩大片| 性欧美大战久久久久久久久| 日韩视频一区二区三区| 精品一区二区影视| 亚洲国产经典视频| 色天使久久综合网天天| 最新不卡av在线| 欧美精品日韩一本| 久久av中文字幕片| 亚洲国产精品ⅴa在线观看| 欧美专区日韩专区| 免费成人在线网站| 色婷婷精品大在线视频| 亚洲成人综合视频| 7777精品伊人久久久大香线蕉| 2021中文字幕一区亚洲| 成人性生交大片免费看视频在线| 欧美私人免费视频| 丝袜美腿亚洲色图| 中文字幕欧美激情一区| 欧美影院午夜播放| 国产精品资源网| 偷拍一区二区三区| 国产精品卡一卡二| 日韩欧美色综合网站| 一本大道av一区二区在线播放| 精品久久久久久久久久久院品网| 亚洲女性喷水在线观看一区| 中文字幕亚洲区| 日韩一区二区三区在线视频| 成人黄色大片在线观看| 悠悠色在线精品| 欧美成人a在线| 欧美性xxxxxxxx| 激情深爱一区二区| 亚洲成人免费看| 亚洲国产成人一区二区三区| 欧美日韩一卡二卡三卡| 国产激情视频一区二区三区欧美| 日韩女优电影在线观看| 成人精品高清在线| 蜜桃免费网站一区二区三区| 樱桃视频在线观看一区| 精品女同一区二区| 在线亚洲一区二区| 成人小视频在线| 久久精品国产免费| 亚洲国产一区在线观看| 亚洲日本韩国一区| 精品国一区二区三区| 色婷婷狠狠综合| 99视频精品在线| 精品一区二区在线免费观看| 一区二区在线免费观看| 国产午夜久久久久| 久久美女艺术照精彩视频福利播放 | 国产亚洲精品资源在线26u| 成人在线一区二区三区| 精品综合免费视频观看| 亚洲大片一区二区三区| 亚洲一区二区三区在线看| 夜夜精品视频一区二区| 亚洲视频在线一区观看| 久久久久久夜精品精品免费| 久久久国产午夜精品| 26uuu欧美日本| 精品粉嫩超白一线天av| 日韩免费观看高清完整版| 日韩欧美精品在线视频| 亚洲精品在线电影| 国产亚洲精久久久久久| 国产亚洲欧美日韩在线一区| 国产日韩欧美a| 中文字幕亚洲区| 亚洲影院在线观看| 五月婷婷欧美视频| 日韩电影在线一区| 精品一区二区免费看| 国产91在线|亚洲| 99riav久久精品riav| 欧美在线观看禁18| 日韩一区二区在线免费观看| 精品欧美一区二区在线观看| 国产精品丝袜91| 图片区日韩欧美亚洲|