近日,两年一届的国际计算机视觉大会(IEEE International Conference on Computer Vision,简称ICCV)在法国巴黎举行。由西安电子科技大学,洛桑联邦理工学院(EPFL),和Magic Leap组成的联合队伍获得了此次会议举办的BOP Challenge(Benchmark for 6D Object Pose Estimation)中的单模型赛道冠军,同时获邀在8th International Workshop on Recovering 6D Object Pose(R6D)上汇报。
本次比赛吸引了包括清华大学,皇后大学,德国人工智能研究中心,慕尼黑工业大学,普林斯顿大学,帝国理工学院,浙江大学在内的多个世界知名高校和研究机构的团队参加,总计共有超过2400次挑战结果提交,通院宋锐教授指导的由博士后郝丰达、硕士生樊鑫垚和海洋组成的参赛队伍在其中脱颖而出,获得了单模型赛道的冠军。
郝丰达博士在ICCV workshop中对获奖作品进行在线汇报
获奖算法可视化结果
获奖方法采用检测-估计-修正的处理框架。团队针对初始位姿中对称物体存在的姿态歧义性进行了算法改进,性能了提升接近20%。其次,方法进一步改进了位姿优化流程,加入了双向光流、在线渲染、深度信息优化等组件。另外,获奖方法还采用了迭代修正的思路,以实现速度与精度之间的平衡。相比于其他队伍采用的方案,获奖方法仅需使用RGB进行训练,即可在测试时同时处理RGB和RGB-D数据,可扩展性强。最终在单模型赛道,无论是使用RGB还是RGB-D,均大幅领先其他队伍。
本次比赛参赛队伍由西安电子科技大学通信工程学院图像所、ISN国家重点实验室的宋锐教授和李娇娇副教授,洛桑联邦理工学院的Mathieu Salzmann研究员,以及Magic Leap的胡银林博士等共同指导。
此外,团队的姿态估计新算法论文在ICCV 2023正式发表,论文一作为图像所硕士生海洋,导师为宋锐教授。该论文从利用自监督方法构建任务的角度出发,提出了一种仅使用RGB图像进行训练,不需要任何辅助信息的目标6D位姿估计方法。算法首先仅利用合成图像训练姿态估计网络获得初始姿态,然后在没有真值标注信息的真实图像上训练位姿优化网络。训练过程中,论文算法利用来自不同视角的图像对之间的几何一致性,动态地为位姿优化网络生成像素级的光流监督信号,最后通过获得的预测光流确定3d到2d对应关系,使用PnP求解器来计算最终姿态结果,实现基于自监督方法的目标级6D位姿估计。在LINEMOD, Occluded-LINEMOD, 和YCB-V等数据集上的实验结果和可视化表明,论文提出的方法在真实数据集上有很好的泛化能力。