Reinforcement Learning课堂小结

[2021-08-16 10:42 ]

非常有幸参加由马来西亚理科大学举办的机器人技术线上项目。在八月四日和五日两天,周教授为我们讲授的是强化学习相关知识。
这是我第二次接触强化学习,第一次是在本学期数据科学导论课中。强化学习是机器学习的方法之一,强化学习主要强调基于环境而行动,与环境交互的过程中通过学习策略达到回报最大化或实现特定目标的问题。
第一天的课程中的主要内容为强化学习的概念,马尔可夫决策过程以及强化学习的基本知识和方法;第二天将强化学习和机器人的智能控制和决策结合,还对时下热门话题:online RL&Deep RL进行了讲授。监督学习关注的是认知,而强化学习关注的是决策。简单的说,前者学习经验,后者运用经验。
此外,全英语授课对于我来说确实是个不小的挑战,在面对新的知识和不熟悉的语言时,预习就显得尤其重要,希望在后续的课程中可以收获更多知识,提高英语水平。———张文博同学




在这两天的学习中,我对计算机强化学习有了新的认识。
强化学习(Reinforcement Learning)是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习可分为model-based RL和model-free RL。
其中QLearning是强化学习算法中value-based的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,通过 Q table 就可以找到每个状态下的最优行为,进而通过找到所有最优的action得到最大的期望奖励。
如果想要在计算机行业有立足之地,过硬的专业能力和高素质的职业素养是必须要具备的。同时,我们应该不断充实自己、不断学习以达到更高水平,这样才不会被行业的快速发展所淘汰。一切都是需要自己不断努力、奋斗!——LJN同学




在这两天里周教授给我们介绍了强化学习的相关知识(Reinforcement Learning),让我受益匪浅。在第一天的课程中,周教授主要介绍了强化学习的基本概念和方法,以及Markov决策过程等。周教授通过机器人如何到达最终目标的简单例子,由浅入深地告诉我们强化学习中除agent,environment之外的四个元素,即Policy,Reward function,Value function和Model,以及有关强化学习的各种方法。其中令我印象深刻的就是在讲解有关蒙特卡洛方法(Monte Carlo Methods)时,周教授通过具体的、形象的小例子将抽象的、难以理解的方法讲解得非常透彻。
在第二天的课程中,周教授主要介绍了强化学习在机器人中的应用,搜索策略,以及强化学习面临的一些挑战等。相比于第一天的基本概念的介绍,第二天的课程中更多的是一些具体的算法内容,包涵了更多需要深入理解的数学符号等。但是周教授同样使用了详细的例子帮助我们理解方法核心,使得课程氛围生动有趣。
在这短短两天的学习中,我不仅学习到了强化学习的有关知识,周教授逻辑清晰,由浅入深的教学方法更加深了我对这门课程的理解。同时周教授严谨认真的教学态度更是令人钦佩,在今后的学术研究道路中,我也要秉持这种严谨认真的态度,学习如何将抽象化的算法运用形象具体化的方法表达出来的能力,提高自己的学术能力和水平。——Deniece Ji同学




强化学习的课程是针对初学者的一门很好的课程,这门课程可以帮助那些对强化学习充满兴趣但是没有基础的同学通过本次课程的学习,让我对强化学习有了基本的了解。强化学习是机器学习的方法之一,强化学习主要强调基于环境而行动,与环境交互的过程中通过学习策略的达到回报最大化或实现特定目标的问题。
在该门课程中,我学习了强化学习的概念,马尔科夫决策过程,强化学习在对机器人决策控制的应用,以及强化学习相关问题扩展
由于之前简单接触过强化学习中马尔科夫决策过程,但理解的不是很清楚。在这次课程学习的过程中,首先要感谢老师的精彩讲解,老师把生涩难懂的算法原理通过生动的例子讲述的十分清楚,也容易理解。该课程针对我们研究生的研究学习无人机位置的部署有很大帮助。——TZY同学









上一篇:Deep learning and Convolutional Neural Networks课堂小结 下一篇:Aerial robotics课堂小结-1