当前位置: 首页 > >

强化学*7日打卡营学*总结

发布时间:

一、什么是强化学*?
1.基本概念

强化学*(英语:Reinforcement learning,简称RL)是机器学*中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想:智能体 agent 在环境 environment 中学*,根据环境的状态 state(或观测到的observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。
三要素:state, action, reward


2. 对比监督学*和无监督学*
监督学*寻找输入到输出之间的映射,比如分类和回归问题。对数据标签依赖强非监督学*主要寻找数据之间的隐藏关系,比如聚类问题。对数据标签依赖弱强化学*则需要在与环境的交互中学*和寻找最佳决策方案。监督学*处理认知问题,强化学*处理决策问题
二、为什么选择强化学*?
1. 应用领域广泛
游戏(马里奥、Atari、Alpha Go、星际争霸等)机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)用户交互(推荐、广告、NLP等)交通(拥堵管理等)资源调度(物流、带宽、功率等)金融(投资组合、股票买卖等)其他
2. 理论前沿
三、如何运用强化学*解决问题?
    指导思想:强化学*通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。学*方案:基于价值(value-based)、基于策略(policy-based)经典算法:Q-learning,Sarsa,DQN,Policy Gradient,A3C,DDPG,PPO框架与工具:PARL,GYM,RLSchool

四、其它

课程链接:https://aistudio.baidu.com/aistudio/course/introduce/1335
学*资料:


《Reinforcement Learning:An Introduction》伯克利2018 Deep RL课程:http://rail.eecs.berkeley.edu/deeprlcourse/强化学*库 PARL:https://github.com/PaddlePaddle/PARL



友情链接: