摘要:針對(duì)移動(dòng)機(jī)器人的導(dǎo)航問(wèn)題,本文提出一種具有連續(xù)向量輸出的再勵(lì)學(xué)司算法(Reinforcement Learning with ContinuousVector output:CVRI)。CVRL具有層次結(jié)構(gòu)、低層是單元?jiǎng)幼骶W(wǎng)絡(luò)層、通過(guò)組合動(dòng)作產(chǎn)生連續(xù)向量輸出;高層是建立在組合單元?jiǎng)幼骺臻g上的Q學(xué)習(xí)單元,實(shí)現(xiàn)組合動(dòng)作的選擇,文中給出了CVRL導(dǎo)航控制器的具體實(shí)現(xiàn),并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了其有效性。 PDF下載: ![]() |