强化学习


  • Reinforcement Learning
  • 在环境中求生存的游戏
  • 在互动中学习, 没有学习样本(监督学习)
  • 没有老师
  • 只有环境, 机器人, 奖惩

传统的强化学习是没有神经网络结构的, 但是因为神经网络的优越性(高度非线性化, 参数复杂化).人们渐渐将神经网络和强化学习结合.

Q-Learning

image

Q-Learning 学习过程

  • 建立机器人和环境
  • 循环下面的操作
    • 机器人根据现在的状态做动作
    • 这个动作会带机器人去下一个状态
    • 环境给出下一个状态和奖惩
    • 机器人学习自己动作和因果的关系
    • 下次做奖励大的动作

缺点: 所有记录都在表格里, 很快表格空间被用完, 无法处理复杂的问题

Deep Q Networks (DQN)

image

  • Deep Q Networks (Mnih et al., 2015)
  • Atari 游戏中很多比人类玩得好
  • CNN + Q Learning

AlphaGo

image

为什么以前机器下不过人类?

  • 机器无法在短时间内考虑所有情况
  • 机器学习能力弱

为什么AlphaGo (Silver et al., 2016)现在可以了?

  • 新算法的提出(Monte Carlo Tree search + 神经网络)
  • 计算能力提升(GPU/TPU)

最近的AlphaGo zero (Silver et al., 2017)

  • 无师自通, 且学习时间更短

机器人模拟

两大主要领导者:

  • Google DeepMind
  • OpenAI

更多强化学习

  • 连续动作
    • DDPG (Lillicrap et al., 2015)
    • NAF (Gu et al., 2016)
  • 大规模并行
    • (Nair et al., 2015)
    • A3C (Mnih et al., 2016)
    • DPPO (Heess et al., 2017)
  • 基于DQN的改进
    • 优先记忆回放(Schaul et al., 2016)
    • Double DQN (Van Hasselt et al., 2016)
    • Duelling DQN (Wang et al., 2016)
  • 模仿学习imitation learning
    • GAN (Ho & Ermon, 2016)
    • GAN (Merel et al., 2016)
  • 协同学习
    • Multiagent DDPG (Lowe et al., 2017)
    • multiagent BiCNet (Peng et al., 2017)

results matching ""

    No results matching ""