基于D2GA的逆強(qiáng)化學(xué)習(xí)算法
摘要: 針對(duì)傳統(tǒng)生成對(duì)抗逆強(qiáng)化學(xué)習(xí)存在的專(zhuān)家樣本獲取困難以及生成樣本利用率低的問(wèn)題,提出一種基于事后經(jīng)驗(yàn)回放策略HER的雙鑒別器生成對(duì)抗D2GA逆強(qiáng)化學(xué)習(xí)算法。在該算法中,HER自動(dòng)合成類(lèi)專(zhuān)家的正樣本,通過(guò)D2GA與強(qiáng)化學(xué)習(xí)方法柔性動(dòng)作-評(píng)價(jià)SAC生成的負(fù)樣本進(jìn)行對(duì)抗性訓(xùn)練,基于所求解的最優(yōu)獎(jiǎng)勵(lì)函數(shù),利用SAC求解最優(yōu)策略。將所提出的D2GA算法與經(jīng)典的逆強(qiáng)化學(xué)習(xí)算法在Fetch機(jī)械臂... (共10頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)