NIC Lab | 基于不确定性感知的共享控制非线性仲裁方法

研究背景与意义

随着人工智能（AI）技术快速发展，人–AI共享控制通过融合人类的认知优势与AI的高速计算能力，使系统能够在复杂动态环境中实现高效、智能的协同决策与控制。该范式已在智能医疗诊断、驾驶辅助与无人机协同等关键应用中展现出显著价值，有助于提升任务效率与运行安全。然而，面向真实世界高风险场景的共享控制仍面临可靠性与安全性挑战，尤其在复杂交通和高动态飞行等环境下，协同质量对仲裁机制的鲁棒性提出了更高要求。

在共享控制框架中，仲裁机制是实现有效协作的核心环节，其主要功能是融合人类与机器算法的策略输出，并生成最终可执行的控制指令。当机器控制器主要由规则或解析模型驱动时，系统决策过程相对可预测且稳定，此时常采用线性加权实现仲裁：以固定或状态相关的权重对人机控制量进行融合，从而在自主性与用户意图之间取得平衡。因此，线性仲裁在传统共享控制与可解释控制器场景中具有实现简单、实时性强等优势。

然而，随着深度学习与强化学习策略被引入共享控制，AI策略的不确定性显著削弱了线性仲裁的有效性。AI策略通常由深度模型参数化，并在监督学习或强化学习框架下优化；尽管其具备更强的环境适应性，但其黑箱特性不可避免地引入策略不确定性。更关键的是，现有不确定性估计方法本身存在精度限制与近似误差。当这些估计结果被直接用于线性权重计算时，估计偏差会使人机融合比例偏离期望值，导致辅助效果下降甚至引发安全风险，尤其在高动态、高风险场景中更为突出。

从学习与部署的闭环角度看，上述偏差并非仅影响单次仲裁，而可能在训练迭代中形成耦合放大效应：不准确的权重分配会产生偏置的交互与训练数据分布，进而影响AI策略更新；更新后的策略又会带来新的不确定性估计误差，进一步干扰后续权重分配。该“仲裁偏差—数据分布偏移—策略更新偏置—新的估计误差”的链式反馈，会在长期迭代中持续放大策略偏离，造成收敛变慢、策略质量下降，以及复杂环境下稳定性与安全性降低。因此，依赖不确定性估计进行权重计算的线性仲裁在结构上存在固有限制：估计偏差既会在融合阶段被放大，也会通过数据与梯度路径反馈到策略优化过程中。

综上，为提升人–AI共享控制在复杂环境中的可靠性，将仲裁从简单的线性加权提升到分布层面的结构化融合，并使不确定性作为关键调节因子参与仲裁分布塑形，成为实现可靠共享控制的重要方向。

国内外相关研究

共享控制

共享控制方法通常可分为直接共享控制与间接共享控制两类[1]。直接共享控制在控制输入层面对人类与机器的输出进行融合，从而生成最终控制指令[2]。相比之下，间接共享控制更关注在意图或策略层面对人机信息进行融合，并通过评估人类策略、分配置信度或调整统一控制器参数等方式间接影响控制输入[3]。总体而言，直接共享控制结构清晰、易于实时实现与部署，但在输入级融合中往往难以显式表达任务级意图，也难以一致刻画策略不确定性；相对地，间接共享控制能够在策略或价值函数层显式引入意图信息与不确定性度量，更适合面向不确定性感知推理的决策级协作，但代价是建模更复杂且在线计算开销更高。

线性仲裁

由于结构简单且易于实现，线性仲裁被广泛用于共享控制中的人–AI策略融合[4]。现有研究在多种任务中采用线性加权机制，例如，通过策略混合在自主性与用户意图之间进行平衡[5]，在机器人遥操作中引入可定制融合参数[6]，以及基于强化学习的共享线性二次调节器（sLQR）以实现最小干预[7]。随着AI技术发展，线性仲裁也被用于AI驱动的共享控制场景，例如，基于可达性价值函数的动态调节机制[8]，以及带自适应融合权重的个性化控制方法[9]。然而，在高维动态环境中，当AI策略呈现显著不确定性时，这类方法在权重分配的精度与鲁棒性方面仍受限制，融合比例容易受到估计偏差影响而产生失真。

非线性仲裁

为克服线性仲裁在动态环境复杂耦合下的局限，已有研究探索了多种非线性仲裁机制。例如，[10]采用深度强化学习实现共享自主：将环境观测与人类输入联合嵌入，并选择既具有高价值又更接近人类偏好的动作。[11]利用 von Mises 分布，通过识别人类与AI策略之间的分歧来动态分配控制权。[12]提出残差策略学习方法，在无需环境模型或用户目标的条件下实现最小干预的人–AI协作。尽管这些方法提升了仲裁的灵活性与适应性，但普遍未考虑AI策略不确定性对系统性能的影响。

不确定性建模

针对AI策略不确定性建模，现有方法大体可分为三类。第一类是基于变分推断的贝叶斯神经网络[13]，其通常依赖因子化高斯等独立性假设来简化计算，但难以准确表征真实后验。第二类是基于随机采样的 Monte Carlo dropout[14]，其估计结果波动较大、稳定性不足。第三类是基于价值函数的分布式强化学习[15]，但其对尾部风险的刻画能力仍有限。尽管上述方法为共享控制提供了不确定性量化手段，但在高维动态环境中的可靠性与精度仍受限；当其被直接用于线性仲裁时，容易引入系统性偏差，并在训练迭代中产生累积效应，从而削弱策略更新质量与整体系统性能。

参考文献

[1]J. Tan, J. Wang, S. Xue, H. Cao, H. Li, and Z. Guo, “Human–Machine Shared Stabilization Control Based on Safe Adaptive Dynamic Programming With Bounded Rationality,” International Journal of Robust and Nonlinear Control, vol. 35, no. 11, pp. 4638–4657, July 2025.
[2]S. Zhao et al., “Safety-Critical Human–Machine Shared Driving for Vehicle Collision Avoidance Based on Hamilton–Jacobi Reachability,” arXiv preprint arXiv:2502.10610, 2025.
[3]R. Luo, M. Zolotas, D. Moore, and T. Padır, “User-Customizable Shared Control for Robot Teleoperation via Virtual Reality,” in Proc. IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS), 2024, pp. 12196–12203.
[4]T. G. J. Rudner, Z. Chen, Y. W. Teh, and Y. Gal, “Tractable Function-Space Variational Inference in Bayesian Neural Networks,” in Advances in Neural Information Processing Systems (NeurIPS), 2022, pp. 22686–22698.
[5]J. Duan, Y. Guan, S. E. Li, Y. Ren, Q. Sun, and B. Cheng, “Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors,” IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584–6598, 2022.
[6]Y. Oh, M. Toussaint, and J. Mainprice, “Learning to Arbitrate Human and Robot Control Using Disagreement Between Sub-Policies,” in Proc. IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS), 2021, pp. 5305–5311.
[7]E. Eraslan, Y. Yildiz, and A. M. Annaswamy, “Shared Control Between Pilots and Autopilots: An Illustration of a Cyberphysical Human System,” IEEE Control Systems Magazine, vol. 40, no. 6, pp. 77–97, 2020.
[8]C. Schaff and M. R. Walter, “Residual Policy Learning for Shared Autonomy,” in Proceedings of Robotics: Science and Systems (RSS), 2020.
[9]M. Abu-Khalaf, S. Karaman, and D. Rus, “Shared Linear Quadratic Regulation Control: A Reinforcement Learning Approach,” in Proc. IEEE 58th Conf. on Decision and Control (CDC), 2019, pp. 4569–4576.
[10]D. A. Abbink et al., “A Topology of Shared Control Systems: Finding Common Ground in Diversity,” IEEE Transactions on Human-Machine Systems, vol. 48, no. 5, pp. 509–525, 2018.
[11]D. P. Losey, C. G. McDonald, E. Battaglia, and M. K. O’Malley, “A Review of Intent Detection, Arbitration, and Communication Aspects of Shared Control for Physical Human–Robot Interaction,” Applied Mechanics Reviews, vol. 70, no. 1, p. 010804, 2018.
[12]S. Reddy, A. D. Dragan, and S. Levine, “Shared Autonomy via Deep Reinforcement Learning,” in Proceedings of Robotics: Science and Systems (RSS), 2018.
[13]Y. Gal and Z. Ghahramani, “Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning,” in Proceedings of the 33rd International Conference on Machine Learning (ICML), 2016, pp. 1050–1059.
[14]W. Xu, J. Huang, Y. Wang, C. Tao, and L. Cheng, “Reinforcement Learning-Based Shared Control for Walking-Aid Robot and Its Experimental Verification,” Advanced Robotics, vol. 29, no. 22, pp. 1463–1481, 2015.
[15]A. D. Dragan and S. S. Srinivasa, “A Policy-Blending Formalism for Shared Control,” The International Journal of Robotics Research, vol. 32, no. 7, pp. 790–805, 2013.