强化学习 学习报告

强化学习与其它机器学习范式有什么不同呢?

1)没有监督,仅仅只有一个奖励信号,或者说,不直接判定某个状态或动作的好坏,而是给出一个奖励;
2)没有即时的反馈,或者说,反馈是有延迟的。比如围棋,我们当前的落子并不会直接被赋予奖励,而是整盘棋下完之后才有一个反馈(+1表示赢,-1表示输);
3)数据是序列化的,数据与数据之间是有关的;
4)智能体的行为将影响后续的数据,比如在围棋中,我们当前的落子将会影响棋局的走向。

文章目录
,