基于双置信度评估的人机共享控制研究
研究意义
人机共享控制是人机协作系统实现高效、安全决策的重要基础,也是推动智能系统从“自动化”向“协同智能”演进的关键技术之一。在自动驾驶、协作机器人、无人系统以及智能辅助决策等典型应用场景中,人类与机器往往需要在复杂、不确定且高风险的环境中共同完成任务。共享控制作为连接人类认知能力与机器计算优势的核心机制,其性能直接影响系统在安全性、可靠性与任务效率等方面的整体表现。
早期人机共享控制研究主要围绕控制权切换与权限分配机制展开,从规则设计与控制理论角度探索人机协作的可行性与稳定性。这类方法通过预定义逻辑、阈值或任务阶段来分配控制权,在特定场景下能够实现较为稳定的协作效果,为共享控制系统的工程实现奠定了基础。然而,随着应用场景逐步由结构化环境向动态、开放环境拓展,任务复杂度、环境不确定性以及人机状态差异显著增加,基于固定规则或经验参数的共享控制方法在适应性与鲁棒性方面逐渐暴露出局限性。
近年来,基于置信度的共享控制思想受到广泛关注,其核心在于通过刻画决策主体对当前任务与决策结果的“确信程度”,实现更加连续、柔性的控制权分配。现有研究多从人类操作者角度出发,借助生理信号或行为特征估计其认知状态,从而辅助系统进行权限调节。然而,这类方法在实际应用中往往面临信号噪声大、可解释性不足以及对个体差异敏感等问题。更为重要的是,单纯关注人类置信度忽略了机器决策自身的不确定性,使得共享控制在本质上仍然缺乏对整体决策质量的系统性评估。
在复杂人机协作任务中,人类与机器在信息获取、认知方式与决策机制上具有显著互补性。只有同时刻画双方对当前决策的置信水平,才能更全面地评估行为风险与潜在收益,从而实现真正意义上的协同决策与控制分配。因此,从系统视角出发,构建统一的人机双置信度评估框架,揭示置信度在共享控制决策中的内在作用机理,对于提升人机协作系统的安全性、稳定性与适应性具有重要意义。
综上所述,开展基于双置信度评估的人机共享控制研究,不仅有助于深化对人机协作中决策可靠性与不确定性建模问题的理论认识,也为构建具备风险感知与自适应调控能力的新一代共享控制系统提供了重要支撑,具有显著的理论价值与工程应用前景。
国内外研究现状
人机协同
随着机器学习技术的快速发展,机器的能力已从传统的机械化与自动化逐步演进为具备一定智能水平的决策与推理系统 [1]。尽管机器在信息处理与分析方面具有显著优势,在计算规模与响应速度上远超人类决策者,但其在复杂环境中的适应能力仍然受限,尤其是在高度不确定、动态变化的任务场景下 [2]。相比之下,人类能够依托直觉、经验与创造性思维,在不完全信息条件下作出灵活判断。因此,将人类与机器的能力进行有效协同,被普遍认为是提升复杂系统决策性能与鲁棒性的有效途径。
早期的人机协作研究主要侧重于能力互补与任务分工,通过将人类认知优势与机器计算能力相结合,实现对复杂任务的有效处理。在这一研究范式下,人机系统被认为在应对非结构化环境与高复杂度任务方面具有天然优势。相关研究指出,通过合理设计人机协作机制,可以显著提升系统在复杂任务中的整体表现 [3]。基于这一思想,研究者已在多个应用中验证了人机协作的有效性,例如远程抓取行为系统 [4],该类系统能够在未知或复杂环境中充分发挥人类决策与机器执行之间的协同优势。
为进一步提升协作效率,部分研究开始关注通过人类示范与引导提升机器学习能力。在示教学习与模仿学习领域,相关工作探索了如何利用人类演示、反馈或交互信息,引导机器完成特定任务 (missing reference)。这些方法在一定程度上降低了学习难度,提高了系统在特定任务中的适应性,但其效果往往依赖于示范质量与任务假设,难以直接推广至更为复杂或长期的决策场景。
共享控制
在共享控制框架下,人类与机器共同参与系统控制,通过对人类输入与机器输入进行仲裁来分配控制权限,从而实现协同决策 [5]。早期研究主要关注仲裁机制的结构设计,提出了多种基于规则或模型的仲裁方法 (missing reference)。其中,线性仲裁因其形式简单、参数可调且易于实现,被广泛应用于不同共享控制场景中 [6]。
在上述方法中,仲裁因子作为核心参数,用于调节人类与机器在控制过程中的相对权重,使系统能够根据不同任务或环境条件实现性能优化 [7]。然而,这类方法通常依赖人工设计的规则或固定调节策略,在面对任务多样性与环境不确定性时,往往难以保持稳定且高效的策略融合效果,限制了共享控制在复杂场景中的适用性。
为缓解上述问题,部分研究开始探索更加自适应的共享控制策略,通过引入在线调节或学习机制,使仲裁因子能够随系统状态变化而动态调整。例如,有研究通过在线学习或人机交互反馈对共享控制权重进行自适应更新,从而提升系统在动态任务中的响应能力 [8]。这类方法在一定程度上提升了系统的灵活性,但通常依赖额外的状态评估模块或先验假设,其泛化能力仍然受到限制。随着学习型控制与不确定性建模研究的深入,研究者逐渐关注基于策略学习的端到端共享控制方法。相关工作表明,通过利用强化学习或策略优化过程中获得的反馈信息,可以在无需复杂外部仲裁结构的情况下,实现对人机控制权重的自适应调整 [9]。然而,现有方法多侧重于从单一角度刻画决策质量,缺乏对人机双方决策可靠性与不确定性的统一建模,使得在复杂、长时序闭环控制任务中仍可能出现策略融合失衡或决策性能波动的问题。
参考文献
- [1]H. Liu, S. Nasiriany, L. Zhang, Z. Bao, and Y. Zhu, “Robot learning on the job: Human-in-the-loop autonomy and learning during deployment,” arXiv preprint arXiv:2211.08416, 2022.
- [2]G. Maeda, “Blending primitive policies in shared control for assisted teleoperation,” in 2022 International Conference on Robotics and Automation (ICRA), 2022, pp. 9332–9338.
- [3]M. Cubuktepe, N. Jansen, M. Alshiekh, and U. Topcu, “Synthesis of provably correct autonomy protocols for shared control,” IEEE Transactions on Automatic Control, vol. 66, no. 7, pp. 3251–3258, 2021.
- [4]T. Wang, J. Li, Z. Kong, X. Liu, H. Snoussi, and H. Lv, “Digital twin improved via visual question answering for vision-language interactive mode in human–machine collaboration,” Journal of Manufacturing Systems, vol. 58, pp. 261–269, 2021.
- [5]M. Marcano, Dı́az Sergio, J. Pérez, and E. Irigoyen, “A review of shared control for automated vehicles: Theory and applications,” IEEE Transactions on Human-Machine Systems, vol. 50, no. 6, pp. 475–491, 2020.
- [7]M. H. Jarrahi, “Artificial intelligence and the future of work: Human-AI symbiosis in organizational decision making,” Business horizons, vol. 61, no. 4, pp. 577–586, 2018.
- [8]D. Gopinath, S. Jain, and B. D. Argall, “Human-in-the-loop optimization of shared autonomy in assistive robotics,” IEEE robotics and automation letters, vol. 2, no. 1, pp. 247–254, 2016.
- [9]D. Silver et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.