NIC Lab | 面向机器人视觉抓取任务的对抗攻击与鲁棒性增强研究

研究意义

机器人视觉抓取是机器人与物理世界交互的基础能力之一，也是实现复杂操作与操控任务的前提。在工业制造、仓储物流以及服务机器人等典型应用场景中，抓取通常作为操作流程的起始环节，其成功与否直接决定了后续搬运、分拣、装配与协作任务能否顺利完成。早期研究从接触力学与机械手设计角度系统分析了稳定抓取的物理条件，奠定了抓取在机器人操作中的核心地位[1], [2]。

随着深度学习与大规模数据驱动方法的发展，视觉驱动抓取在多类别物体、多视角与多传感模态条件下取得了显著进展。以 Dex-Net 系列和 GraspNet-1Billion 为代表的方法，通过大规模合成数据与解析抓取指标，大幅提升了抓取策略在复杂场景中的泛化能力[3], [4]。然而，随着机器人系统逐步从结构化环境迈向开放、动态的真实世界，物体几何形态、材质属性、光照条件及环境干扰均呈现出高度不确定性，使得现有抓取系统在长期运行中的安全性与可靠性面临严峻挑战。

近年来，“以攻促防”的研究范式逐渐受到关注，即通过构造对抗扰动主动暴露系统脆弱性，从而推动鲁棒性增强方法的设计。在视觉感知层面，深度神经网络已被证实对微小对抗扰动高度敏感，可能导致严重的认知偏差[5], [6]；在机器人系统层面，安全与对抗问题已被提升为影响真实部署的重要因素[7], [8]。对于视觉抓取任务而言，感知层的细微误差往往会在物理执行阶段被放大，最终引发抓取失败甚至安全事故。因此，从系统视角出发，系统刻画视觉抓取在对抗扰动与分布外场景下的脆弱性机理，并进一步构建具备风险感知与安全决策能力的鲁棒抓取系统，具有重要的理论意义与工程价值。

国内外研究现状

对抗攻击与机器人视觉抓取安全研究

现有关于机器人视觉抓取安全性的研究，主要围绕“通过构造可控扰动揭示系统脆弱性”这一思路展开。早期对抗样本研究主要集中于图像分类任务，揭示了深度神经网络在像素级微小扰动下的高度敏感性，为后续将对抗攻击扩展至机器人任务奠定了方法论基础[5], [6]。

在抓取领域，一类研究直接作用于视觉感知输入，通过在抓取场景中施加数字域或物理可打印的对抗扰动，分析深度抓取网络在感知层面的输出偏移；另一类研究则聚焦于物体本身，通过优化物体几何结构或局部外观，构造对特定抓取策略具有高度破坏性的“对抗抓取物体”[9]。此外，相关研究还表明，对抗扰动不仅会影响感知模块，还可能在运动规划与控制阶段诱导系统生成不安全轨迹，从而破坏整体执行稳定性[10], [11]。

随着具身智能与多模态机器人系统的发展，研究者开始关注视觉–语言–动作模型在机器人任务中的对抗脆弱性。最新工作表明，即使是局部、静态的视觉扰动，也可能在长时序决策过程中持续干扰语义对齐与动作生成，显著降低任务成功率[12], [13]。然而，现有攻击研究多依赖全知视角或单步决策假设，难以反映真实机器人系统中部分可观测、长时序闭环执行条件下的风险累积效应。

鲁棒性增强与安全决策研究

在防御与鲁棒性增强方面，现有研究主要从不确定性建模与安全约束两个角度展开。在视觉模型端，部分工作通过基线分数、置信度校准等方法检测误分类与分布外样本，缓解模型在异常输入下的过度自信问题[14], [15], [16]。这些方法在静态感知任务中取得了一定成效，但往往缺乏对机器人任务中物理执行风险的直接刻画。

在规划与控制层面，安全强化学习与安全规划方法通过约束优化或惩罚机制引入安全边界，为机器人系统提供理论保障[17]。近期，基于共形预测的方法进一步为动态环境下的安全规划提供了统计意义上的风险保证[18], [19]。然而，这类方法多聚焦于低维状态或单步决策，尚未形成与视觉感知不确定性深度耦合的序列级安全决策机制。

综上所述，尽管国内外在机器人视觉抓取的对抗攻击分析、鲁棒性增强以及安全规划等方面已取得一系列进展，但现有研究仍普遍存在物理机理刻画不足、对真实部署条件考虑不充分以及感知不确定性与决策安全性耦合不紧密等问题。特别是在开放环境与长时序执行条件下，视觉扰动、分布外输入与物理执行风险往往相互叠加，使得抓取系统的失效模式更加复杂。因而，有必要从系统层面出发，联合几何与力学约束、长时序感知与决策过程以及不确定性建模方法，对二指视觉抓取任务的脆弱性与安全性进行系统研究，从而为构建具备风险感知与安全决策能力的鲁棒抓取系统奠定理论与方法基础。

参考文献

[1]T. Wang et al., “Exploring the adversarial vulnerabilities of vision-language-action models in robotics,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2025, pp. 6948–6958.
[2]W. Wu, F. Pierazzi, Y. Du, and M. Brandão, “Characterizing physical adversarial attacks on robot motion planners,” in 2024 IEEE International Conference on Robotics and Automation (ICRA), 2024, pp. 14319–14325.
[3]N. W. Alharthi and M. Brandão, “Physical and digital adversarial attacks on grasp quality networks,” in 2024 IEEE International Conference on Robotics and Automation (ICRA), 2024, pp. 1907–1902.
[4]B. Chen, W. Wang, P. Sikorski, and T. Zhu, “Adversary is on the road: Attacks on visual {SLAM} using unnoticeable adversarial patch,” in 33rd USENIX Security Symposium (USENIX Security 24), 2024, pp. 6345–6362.
[5]R. Luo et al., “Sample-efficient safety assurances using conformal prediction,” The International Journal of Robotics Research, vol. 43, no. 9, pp. 1409–1424, 2024.
[6]L. Lindemann, M. Cleaveland, G. Shim, and G. J. Pappas, “Safe planning in dynamic environments using conformal prediction,” IEEE Robotics and Automation Letters, vol. 8, no. 8, pp. 5116–5123, 2023.
[7]J.-P. A. Yaacoub, H. N. Noura, O. Salman, and A. Chehab, “Robotics cyber security: Vulnerabilities, attacks, countermeasures, and recommendations,” International Journal of Information Security, vol. 21, no. 1, pp. 115–158, 2022.
[8]H.-S. Fang, C. Wang, M. Gou, and C. Lu, “Graspnet-1billion: A large-scale benchmark for general object grasping,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 11444–11453.
[9]D. Wang et al., “Adversarial grasp objects,” in 2019 IEEE 15th International Conference on Automation Science and Engineering (CASE), 2019, pp. 241–248.
[10]J. Mahler et al., “Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics,” arXiv preprint arXiv:1703.09312, 2017.
[11]B. Dieber, B. Breiling, S. Taurer, S. Kacianka, S. Rass, and P. Schartner, “Security for the robot operating system,” Robotics and Autonomous Systems, vol. 98, pp. 192–203, 2017.
[12]K. Lee, H. Lee, K. Lee, and J. Shin, “Training confidence-calibrated classifiers for detecting out-of-distribution samples,” arXiv preprint arXiv:1711.09325, 2017.
[13]C. Guo, G. Pleiss, Y. Sun, and K. Q. Weinberger, “On calibration of modern neural networks,” in International Conference on Machine Learning, 2017, pp. 1321–1330.
[14]D. Hendrycks and K. Gimpel, “A baseline for detecting misclassified and out-of-distribution examples in neural networks,” arXiv preprint arXiv:1610.02136, 2016.
[15]J. Garcıa and F. Fernández, “A comprehensive survey on safe reinforcement learning,” Journal of Machine Learning Research, vol. 16, no. 1, pp. 1437–1480, 2015.
[16]I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.
[17]C. Szegedy et al., “Intriguing properties of neural networks,” arXiv preprint arXiv:1312.6199, 2013.
[18]A. Bicchi and V. Kumar, “Robotic grasping and contact: A review,” in Proceedings 2000 ICRA. Millennium conference. IEEE International Conference on Robotics and Automation. Symposia proceedings (Cat. No. 00CH37065), 2000, vol. 1, pp. 348–353.
[19]M. R. Cutkosky and others, “On grasp choice, grasp models, and the design of hands for manufacturing tasks.,” IEEE Transactions on Robotics and Automation, vol. 5, no. 3, pp. 269–279, 1989.

研究意义

国内外研究现状

对抗攻击与机器人视觉抓取安全研究

鲁棒性增强与安全决策研究

参考文献

相关科研项目