【摘 要】随着人工智能技术的快速发展,可驾驶机器人的应用范围也越来越广泛。基于多模态感知的可驾驶机器人运动控制技术不但在物流运输、娱乐等方面展现出优势,而且在救援、抢险等危险领域发挥了重要作用。文章首先探讨多模态感知在可驾驶机器人中的重要性,然后分析可驾驶机器人多模态感知技术,最后结合多模态信息融合算法研究基于多模态感知的可驾驶机器人运动控制技术,希望为可驾驶机器人的进一步发展提供参考。
【关键词】可驾驶机器人;多模态感知;运动控制技术
引言
新时代,人工智能技术快速发展,大量算力满足了人工智能进一步发展的需求。可驾驶机器人是人工智能发展的一种产物,其在物流运输、救灾抢险等方面发挥了重要作用。在智能化时代,可驾驶机器人向着更高层次迈进[1]。多模态感知技术是通过多种感知形式的融合,共同协同运作的一种技术。基于多模态感知的可驾驶机器人运动控制技术能够实现人机交互,感知周围的场景,这种技术朝着模仿人脑的方向前进[2]。
一、多模态感知在可驾驶机器人中的重要性
(一)增强环境感知能力
单一模态的感知信息在复杂环境中存在局限性。例如,当光照不足或者有遮挡情况时,视觉传感器可能无法精确获取环境信息,听觉传感器可弥补视觉不足。它凭借对声音信号的感知,能检测周围物体的存在状况以及运动状态[3]。在可驾驶机器人理解周围环境时,多模态感知发挥着重要作用,能够将不同模态的信息进行综合,进而提供更全面准确的环境描述。
(二)提高运动控制的鲁棒性
可驾驶机器人在行走过程中会遇到很多不确定因素,例如,前方出现障碍物、路面不平整等,多模态感知技术能够让可驾驶机器人感知周围环境的变化,进而调整行进姿态[4]。假如可驾驶机器人在行走过程中,前方突然出现一个滚落的篮球,多模态感知技术能够通过预先训练,使可驾驶机器人灵活躲避篮球,暂停行走或调整路线,保证自身安全。
(三)丰富人机交互模式
多模态感知技术可以向可驾驶机器人输入语音、手势识别等多种指令,有效促进了可驾驶机器人与人类的交互,进而有效提升了用户体验[5]。例如,我国新一代可驾驶机器人可以听懂普通话,并根据人类的语言进行语音回答,或者进行相应指令动作。
二、可驾驶机器人多模态感知技术
(一)视觉感知技术
可驾驶机器人常用的感知方式中,视觉感知是其中之一。常用的视觉传感器包括摄像头、激光雷达等,摄像头能够获取彩色图像信息,并借助图像处理算法实现目标检测识别和跟踪等功能[6]。激光雷达能够高精度测量周围物体的距离和形状,进而构建三维环境地图。这样,可驾驶机器人就能够根据预设的路线实现自动行走,在一些人类不便到达的区域发挥了重要作用。例如,在大型商场发生火灾时,商场内大量的烟雾会严重危害消防员的生命。为了减少伤亡,消防部门将商场的结构三维图输入到可驾驶机器人中。根据结构三维环境地图,可驾驶机器人可以携带消防器械,深入火灾的最深处,在消防员的指导下进行灭火工作。
深度学习技术在视觉感知领域的应用广泛,卷积神经网络通过抓取目标图像的基础特征,并对其进行精确识别和分类。在复杂环境中,利用深度学习技术的视觉感知算法,能为可驾驶机器人的行动轨迹提供准确的定位,方便地图构建。
(二)听觉感知技术
听觉感知技术的原理在于系统采集周围一定范围内的声波,并通过声波来解析声波所蕴含的意义。例如,在复杂的交通环境下,可驾驶机器人运用声波技术能够感知周围汽车的喇叭声、汽车行走的声音,甚至是人类步行的细微声音。此外,可驾驶机器人运用声波技术感知人类语言,根据语言内容判断下一步的行走态势。系统还能够分辨针对人类与机器人的沟通,主动运用麦克风系统进行回应,这种人机互动有效提升了可驾驶机器人的人机效能。
(三)触觉感知技术
对于可驾驶机器人和环境的物理交互来讲,触觉感知具备极为关键的意义。在机器人的末端执行器处或者车身表面安装触觉传感器,凭借它来感知接触力、压力及纹理等的信息。在机器人抓取物体时触觉传感器可实时反馈抓取力的大小,确保机器人能安全稳定地完成物体抓取动作。


