使得机器人过去所看到和计划的编码版本可以准确预测机器人将来可能看到和获得的奖励。描述这种性质的一种数学工具是互信息它衡量我们通过观察另一个随机变量获得的有关一个随机变量的信息量。在我们的例子中和是机器人过去看到和计划的内容以及机器人未来看到和得到的奖励。直接优化互信息目标是一个具有挑战性的问题因为我们通常只能访问随机变量的样本而不能访问它们的基本分布。在这项工作中我们遵循之前使用的方法这是一种互信息的对比变分界限来优化目标。左我们使用表示学习来编码环境的。右我们通过重播缓冲区中的轨迹来训练表示并最大化过去的观察和运动计划与轨迹未来的观察和奖励之间的可预测性。
通过增强随机搜索预测信息接下来我们将与增强随机搜索相结合该算法在具有挑战性的决策任务中表现出了出色的优化性能。在的每次迭代中它都会对一组受扰动的控制器参数进行 佐治亚州手机号码列表 采样评估它们在测试环境中的性能然后计算使控制器向性能更好的方向移动的梯度。我们使用从中学习到的紧凑表示来连接和我们称之为。更具体地说优化了一个控制器该控制器将学习到的紧凑表示作为输入并预测适当的机器人命令来完成任务。通过优化具有较小输入空间的控制器能够更有效地找到最优解。同时我们使用优化期间收集的数据来进一步改进学习的表示然后在下一次迭代中将其输入到控制器中。

数据流概述。我们的算法交织在两个步骤之间优化更新策略的目标即提取学习表示的神经网络的权重使用对新轨迹进行采样并更新控制器参数。腿式机器人的视觉运动我们针对足式机器人的视觉运动问题评估。我们选择这个问题有两个原因视觉运动是腿式机器人在现实世界中应用的关键瓶颈而策略的高维视觉输入和腿式机器人的复杂动力学使其成为理想的测试案例展示算法的有效性。下面是我们在模拟中的任务设置的演示。策略首先在模拟环境中进行训练然后转移到硬件上。视觉运动任务设置的图示。该机器人配备了两个摄像头来观察环境如透明金字塔所示。观察结果和机器人状态被发送到策略以生成高级运动计划例如脚落地位置和所需的移动速度。