强化学习

类似于教授计算机玩复杂的视频游戏和帮助软件学习如何操纵机械手，强化学习是一种让软件通过试错来提升自己技能的技术。

文章

为此，更高的样本效率成为当前学术界与工业界对强化学习算法优化的核心目标，也就是希望RL算法能够「聪明地试错」，通过尽量少的环境交互学到尽量好的策略。

文章

如何提升强化学习算法的样本效率，提升算法对噪音环境的鲁棒性？

文章

可以看到，当前的强化学习技术在较复杂场景中往往不能很好地工作，只有序列性强、动作空间简单的场景（如网易云、快手等的音视频推荐）才比较容易刻画。

文章

这种场景下的强化学习一般可以相对准确地进行模拟和应用。

文章

类似于教授计算机玩复杂的视频游戏和帮助软件学习如何操纵机械手，强化学习是一种让软件通过试错来提升自己技能的技术。

文章