2019-05-12

强化学习学习报告

强化学习与其它机器学习范式有什么不同呢？

1）没有监督，仅仅只有一个奖励信号，或者说，不直接判定某个状态或动作的好坏，而是给出一个奖励；
2）没有即时的反馈，或者说，反馈是有延迟的。比如围棋，我们当前的落子并不会直接被赋予奖励，而是整盘棋下完之后才有一个反馈（+1表示赢，-1表示输）；
3）数据是序列化的，数据与数据之间是有关的；
4）智能体的行为将影响后续的数据，比如在围棋中，我们当前的落子将会影响棋局的走向。

本文标题:强化学习学习报告

文章作者:刘政

发布时间:2019年05月12日 - 13时01分

最后更新:2019年05月12日 - 23时07分

原始链接:https://liuzheng007.github.io/2019/05/12/强化学习/

许可协议: "署名-非商用-相同方式共享 3.0" 转载请保留原文链接及作者。