Sampled EfficientZero(包括 Factored/Gaussian 2种策略表征方法)在5个连续动作空间环境(Pendulum-v1,LunarLanderContinuous-v2,BipedalWalker-v3,Hopper-v3和 Walker2d-v3)上的基线结果: 其中 Factored Policy ...