引言
强化学习作为机器学习的重要分支,通过智能体与环境的交互学习最优策略,已在游戏智能[1-2]、机器人控制[3-4]、自动驾驶[5]、生物医疗[6]等领域取得了显著成果。强化学习越来越被重视,图1通过每年发表论文数量展示强化学习领域的增长趋势(数据来自 Web of Science™)。

图1 强化学习领域论文发表数量年度增长趋势
然而,尽管强化学习在理论和应用上取得了显著进展,但是由于交互学习过程中的复杂性和动态性,强化学习的评估方法仍然面临诸多挑战。评估指标不仅是衡量模型表现的工具,更是优化算法、选择策略以及推动实际应用落地的关键。当前强化学习评估指标的设计和选择主要存在以下问题:
(1) 指标单一性:大多数研究过度依赖于回合奖励等单一指标。例如,在许多游戏场景中,仅仅关注最终得分这一指标,就可能忽略了许多其他重要的方面。从安全性角度来看,智能体在追求高分的过程中可能会采取一些看似有效但风险极高的策略,这些策略在实际应用中可能是不可接受的。而在效率方面,单一的回合奖励指标也无法全面反映智能体达成目标的速度以及资源消耗情况。此外,不同任务可能还涉及公平性、稳定性等多种维度,单一指标难以涵盖这些多维性能,从而可能导致对智能体能力的评估出现偏差。
(2) 环境依赖性:在高维的环境状态空间中,传统的评估指标往往难以准确捕捉智能体的表现。这是因为高维状态空间意味着智能体面临更多的可能性和不确定性,简单的指标可能无法充分考虑这些因素的影响。在这样的任务中,智能体可能需要经过很长一段时间或者一系列复杂的操作才能获得奖励。而且很多现有的评估指标在高维状态空间中可能会失效,它们可能会错误地评估智能体的探索能力或者过早地下结论,认为智能体表现不佳,实际上智能体可能只是尚未找到正确的路径,这就会导致评估结果的不准确性。
(3) 可解释性缺失:现有指标与人类偏好或领域知识对齐的困难限制了模型的实际应用。在许多实际应用场景中,决策者需要理解智能体为何做出特定的决策,但是现有的评估指标通常只提供一个数值结果,缺乏对这个结果背后原因的解释。例如,在医疗领域的强化学习应用中,医生希望了解智能体推荐某种治疗方案的原因,而不是仅知道推荐的结果是基于某个评估指标得出的。如果不能将评估指标与医学领域的专业知识相结合,那么即使智能体表现很好,也很难获得医生的信任。而且,不同的领域有不同的偏好和要求,如金融领域可能更注重风险控制,制造业可能更关注生产效率的提升,现有指标难以根据这些不同的偏好进行灵活调整,从而影响了强化学习模型在这些领域的推广和应用。
针对上述问题,本文旨在对强化学习领域中的评估指标予以系统回顾,剖析其于不同任务场景里的适用性,同时探讨其潜在的局限性。借由对现存文献的梳理整合,本文归结了评估指标的主要类别及其设计宗旨,并依据实际应用场景指明了选取评估指标时应当思量的关键要素。本文的相关研究不但为强化学习的研究者给予了全方位的参照,而且为评估方法的创新及优化给予了理论支撑,进而促进强化学习技术在实际应用当中的进一步发展与落地。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006800
作者信息:
安栋1,王媛媛2,宋宁宁3,戴超2,刘知音2
(1.华北计算机系统工程研究所,北京 100083;
2.中国信息安全研究院有限公司,北京 102209;
3.中国电子信息产业集团有限公司,广东 深圳 518057)
