研究意义

强化学习作为实现智能体自主决策与控制的重要方法,已在机器人控制、自动驾驶、智能调度以及大规模模型训练等领域展现出广泛应用潜力。然而,传统强化学习通常依赖试错式的自主探索,在面对奖励稀疏、状态空间复杂或安全约束严格的任务时,往往需要大量交互数据,且在探索过程中不可避免地伴随高风险行为。这一特性严重制约了强化学习在真实物理系统与安全关键场景中的直接部署,使得如何在保障安全性的前提下提升学习效率,成为当前强化学习研究中的关键问题之一。

为缓解上述矛盾,人在环强化学习(Human-in-the-loop Reinforcement Learning,HiL-RL)逐渐受到关注。该范式通过在训练过程中引入人类监督与交互,使人类能够在智能体出现危险或低效行为时进行干预,并以示范或接管的形式向学习过程注入高价值信息,从而在一定程度上兼顾探索效率与系统安全性。相关研究表明,人类先验知识在复杂决策任务中能够显著加速策略收敛,并有效降低灾难性失败发生的概率,使 HiL-RL 成为连接纯数据驱动方法与工程安全需求的重要桥梁。

然而,随着 HiL-RL 应用场景的不断扩展,其现有方法在干预触发机制与干预数据利用方式上仍暴露出明显不足。一方面,早期方法依赖持续的人类监控或预设规则触发干预,虽然能够保障安全,却难以适应长时间训练与大规模系统,人工成本高昂且缺乏灵活性。近年来尝试引入不确定性估计或风险预测来自动触发干预的研究,多依赖单一不确定性指标或额外模块,难以全面刻画策略在复杂环境下的真实风险水平,易导致干预过度或遗漏关键危险状态。另一方面,在干预数据的利用上,尽管模仿学习能够借助示范数据引导策略更新,但在大量自主探索经验的冲刷下,有限且高价值的干预示范往往难以对策略产生持续影响,其潜在价值未被充分挖掘。

在此背景下,将风险感知机制系统性地引入人在环强化学习框架,并与干预决策与模仿学习深度融合,具有重要的研究意义。从理论层面看,基于风险的干预建模有助于统一刻画不确定性、风险评估与人机协同决策之间的内在联系,为安全强化学习提供更具解释性与可控性的分析工具;从方法层面看,风险感知驱动的干预触发与示范利用机制,有望显著提升人类干预的精准性与效率,避免不必要的人工介入,同时最大化高价值示范数据在策略学习中的长期作用;从应用层面看,该研究可为自动驾驶、机器人操作以及高风险智能系统训练提供更加可靠的学习范式,推动强化学习技术从“可用”迈向“可信”,具有重要的工程价值与现实意义。

研究现状

人类干预

将人类干预引入强化学习过程已被广泛认为是提升智能体安全性与训练可靠性的有效途径 [1], [2], [3]。早期方法主要依赖持续的人类监督。例如,文献 [4] 提出了安全中断机制,允许在危险行为发生时进行实时终止;而文献 [5] 则通过人类对不安全行为的拦截来训练一个监督模型,从而降低未来干预的频率。然而,这类方法需要专家在整个训练过程中持续参与,导致人力成本较高。

为缓解上述问题,部分研究开始探索使智能体能够主动请求人类干预的机制。例如,文献 [6] 利用神经网络识别高风险状态,文献 [7] 通过检测不可逆状态来请求协助,而文献 [8] 则采用人工势场方法来判定干预时机。这些方法在一定程度上降低了人工负担,但由于依赖外部模块,其泛化能力仍然受限。

随着安全强化学习与不确定性建模研究的深入,研究者开始关注基于智能体内在不确定性估计的端到端风险感知干预策略。相关工作表明,利用策略或价值函数中的不确定性信息,可以在无需额外外部结构的情况下实现干预时机的自动判定,其中部分研究侧重于认知不确定性建模,另一些则关注环境噪声引起的偶然不确定性 [9], [10]。然而,现有方法多采用单一类型的不确定性刻画,难以全面反映复杂决策场景中风险的多源性与累积效应,在长期闭环训练过程中仍可能出现干预失衡或风险评估偏差的问题。

模仿学习

模仿学习通过将人类干预行为作为示范数据加以利用,已被广泛认为是提升智能体在奖励稀疏或高复杂度环境中学习效率与收敛速度的有效手段 [11], [12], [13]。代表性方法如 DQfD [14] 和 GAIL [15],能够在训练初期显著改善策略性能,加速智能体形成合理的行为模式。然而,这类方法主要依赖于动作替换或监督式预训练,更多作用于训练流程层面,并未对策略结构本身进行直接优化,其长期性能提升仍然受到一定限制。

为进一步增强人类专家知识在策略学习中的作用,近年来部分研究开始探索更深层次的模仿融合方式。例如,引入行为克隆目标以在策略优化过程中直接约束动作分布,或通过修改策略函数结构来显式编码人类示范信息 [16], [17]。尽管这些方法在一定程度上强化了示范数据的引导作用,但由于人类干预数据规模有限,其影响仍然容易在长期训练中被大量自主采集的交互经验所稀释,难以持续主导策略更新方向。

为缓解上述问题,一些研究进一步提出了双经验回放机制,将人类示范数据与智能体生成的经验分别存储于不同的回放缓冲区中,并在训练过程中联合采样,以提升示范数据的可见性与利用频率 [18], [19]。然而,这类方法通常未区分不同干预行为在风险降低与策略改进方面所蕴含的价值差异,容易导致高价值示范未被充分利用。

参考文献

  1. [1]M. Tan et al., “Safe navigation for robotic digestive endoscopy via human intervention-based reinforcement learning,” Expert Syst. Appl., vol. 294, p. 128841, 2025.
  2. [2]H. Liu, S. Nasiriany, L. Zhang, Z. Bao, and Y. Zhu, “Robot learning on the job: Human-in-the-loop autonomy and learning during deployment,” Int. J. Robot. Res., vol. 44, no. 10–11, pp. 1727–1742, 2025.
  3. [3]W. Huang, H. Liu, Z. Huang, and C. Lv, “Safety-aware human-in-the-loop reinforcement learning with shared control for autonomous driving,” IEEE Trans. Intell. Transp. Syst., vol. 25, no. 11, pp. 16181–16192, 2024.
  4. [4]S. Singi et al., “Decision Making for Human-in-the-Loop Robotic Agents via Uncertainty-Aware Reinforcement Learning,” in in: 2024 IEEE International Conference on Robotics and Automation (ICRA), 2024, pp. 7939–7945.
  5. [5]M. Zare, P. M. Kebria, A. Khosravi, and S. Nahavandi, “A survey of imitation learning: Algorithms, recent developments, and challenges,” IEEE Trans. Cybern., vol. 54, no. 12, pp. 7173–7186, 2024.
  6. [6]A. Xie, F. Tajwar, A. Sharma, and C. Finn, “When to ask for help: Proactive interventions in autonomous reinforcement learning,” Adv. Neural Inf. Process. Syst., vol. 35, pp. 16918–16930, 2022.
  7. [7]Y. Xu, Z. Liu, G. Duan, J. Zhu, X. Bai, and J. Tan, “Look before you leap: Safe model-based reinforcement learning with human intervention,” in in: Conference on Robot Learning, 2022, pp. 332–341.
  8. [8]A. Xie, F. Tajwar, A. Sharma, and C. Finn, “When to ask for help: Proactive interventions in autonomous reinforcement learning,” Adv. Neural Inf. Process. Syst., vol. 35, pp. 16918–16930, 2022.
  9. [9]C. Celemin et al., “Interactive imitation learning in robotics: A survey,” Found. Trends Robot., vol. 10, no. 1-2, pp. 1–197, 2022.
  10. [10]J. Hua, L. Zeng, G. Li, and Z. Ju, “Learning for a robot: Deep reinforcement learning, imitation learning, transfer learning,” Sensors, vol. 21, no. 4, p. 1278, 2021.
  11. [11]S. Fujimoto and S. S. Gu, “A Minimalist Approach to Offline Reinforcement Learning,” Advances in Neural Information Processing Systems, vol. 34, pp. 20132–20145, 2021.
  12. [12]F. L. D. Silva, P. Hernandez-Leal, B. Kartal, and M. E. Taylor, “Uncertainty-aware action advising for deep reinforcement learning agents,” in in: Proceedings of the AAAI Conference on Artificial Intelligence, 2020, vol. 34, pp. 5792–5799.
  13. [13]A. Nair, B. McGrew, M. Andrychowicz, W. Zaremba, and P. Abbeel, “Overcoming Exploration in Reinforcement Learning with Demonstrations,” in in: 2018 IEEE International Conference on Robotics and Automation (ICRA), 2018, pp. 6292–6299.
  14. [14]T. Hester et al., “Deep Q-learning from demonstrations,” in in: Proceedings of the AAAI Conference on Artificial Intelligence, 2018, vol. 32.
  15. [15]F. Wang et al., “Intervention aided reinforcement learning for safe and practical policy optimization in navigation,” in in: Proceedings of the Conference on Robot Learning (CoRL), 2018, pp. 410–421.
  16. [16]W. Saunders, G. Sastry, A. Stuhlmueller, and O. Evans, “Trial without error: Towards safe reinforcement learning via human intervention,” arXiv preprint arXiv:1707.05173, 2017.
  17. [17]T. Mandel, Y.-E. Liu, E. Brunskill, and Z. Popović, “Where to add actions in human-in-the-loop reinforcement learning,” in in: Proceedings of the AAAI Conference on Artificial Intelligence, 2017, vol. 31.
  18. [18]D. Amodei, C. Olah, J. Steinhardt, P. Christiano, J. Schulman, and D. Mané, “Concrete problems in AI safety,” arXiv preprint arXiv:1606.06565, 2016.
  19. [19]J. Ho and S. Ermon, “Generative Adversarial Imitation Learning,” Advances in Neural Information Processing Systems, vol. 29, pp. 4565–4573, 2016.

相关科研项目

人机混合智能系统双层智能测试评估技术研究