0

    基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩 计算专题

    1年前 | admin | 138次围观

    基于互联网视频的人体运动捕捉 (Springer ECCV)

    Motion Capture from Internet Videos

    本期导读

    人体运动捕捉(MoCap)是计算机视觉中的一项核心技术,具有广泛的应用前景,比如电影制作,视频游戏开发,运动分析等。目前已经出现了很多成熟的商业化系统,例如Vicon、MotionAnalysis、OptiTrack等。然而,这些系统不仅昂贵且难以标定,仅适用于专业人士。更重要的是,动作捕捉对象需要在特定的工作室中进行数据采集,这使得收集大规模且动作丰富的数据集变得困难。

    近年,得益于深度学习的进步以及大型人体数据集和富有表现力的人体模型的提出,单目运动捕捉方法取得了显著的进展。然而,从单目图像进行3D重建本质上是一个欠定问题,因此很难从单个视频中恢复出准确而细致的人体运动。利用多个视角视频可以解决歧义性,然而标定且同步好的多视角视频并不常见。

    幸运的是,在互联网上,记录同一人体做某特定动作的视频非常丰富。尽管这些视频是在不同时间不同场景录制的,视频中的动作也并不完全相同,但它们编码的是同一人体的动作特征。与单目视频运动捕捉方法相比,多段视频具有丰富的观察信息,可以大大减轻重建的不确定性和自我遮挡问题,得到高精度的人体运动。从多段互联网视频进行人体运动捕捉,也带来了新的挑战:一是人体运动在不同视频中不是完全一致的;二是各个视频没有同步;三是相机参数未知,且各个视频的背景场景不同。

    针对这些问题,来自浙江大学的研究人员提出了一个鲁棒的从网络视频中精确提取人体运动特征的解决方案(文末有诸多动画视频演示),以论文《Motion Capture from Internet Videos》发表于计算机视觉三大顶会之一的ECCV 2020。

    基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩_基于c51的人体红外热释_人体动作捕捉系统方案

    技术路线

    该研究工作为了解决从多个互联网视频中重建人体运动这个新任务,提出了一个迭代优化框架,其主要包括基于三维人体姿态的视频同步,低秩人体运动建模,以及针对同步、相机参数和人体运动的迭代优化。

    基于c51的人体红外热释_基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩_人体动作捕捉系统方案

    图1 基于互联网视频的人体运动捕捉流程图

    首先,框架需要获取多段目标人物的非同步视频(如多段互联网视频),如图1中的(a) 所示。对于每一段视频,使用现有的深度神经网络方法(如 VIBE、HMMR 等)预测每一帧的三维人体姿态,如图1中的(b)。基于得到的三维人体姿态,计算任意两段视频之间每帧的相似性,并构建相似性矩阵,通过对该相似性矩阵进行循环一致性约束并用动态规划算法可以求解得到同步结果。

    人体的运动使用SMPL 模型进行表达,SMPL 模型是一个由低维参数控制的人体参数化模型。每一视频不同的帧具有不同的SMPL参数,文章通过最小化2D重投影误差来同时求解相机参数和SMPL参数。为了解决每个视频中的人体运动不完全相同的问题并保留各运动细节,文章将不同视频中对应帧的三维人体姿态参数组合构成一个矩阵,利用低秩作为优化过程中的约束条件来建模运动差异性,完成人体运动重建。

    基于初始姿态所估计的视频同步结果可能不太准确。因此,文章根据优化后的人体姿态来优化视频同步并进行循环迭代。具体而言,将同步时的相似性矩阵更新为优化后的人体姿态所计算的相似性矩阵,并重新计算帧对应关系。然后,使用更新后的视频同步结果再次优化人体姿态。在文章中第4.2节的实验证明,同步和人体姿态在迭代优化中彼此受益。

    该研究工作收集了一个新数据集,由各种角色的20个动作组成,例如网球发球、瑜伽和太极拳等(如图2所示)。

    人体动作捕捉系统方案_基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩_基于c51的人体红外热释

    图2 所收集的数据集部分代表性动作

    图3显示了一些代表性结果,与单目运动捕捉算法[1]相比,该研究方法预测更加细节和真实的运动(下文有诸多动画视频)。另外,该文章在有真值的室内运动捕捉数据基础上构造了一个不同步、未标定、动作不完全一致的数据集,并进行量化评价,具体可见原文。

    人体动作捕捉系统方案_基于c51的人体红外热释_基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩

    图3代表性结果展示

    Ref: [1] Kanazawa, A., Zhang, J.Y., Felsen, P., Malik, J. Learning 3d human dynamics from video. In CVPR 2019.

    论文信息:

    Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xiaowei Zhou, Hujun Bao, Motion Capture from Internet Videos. In ECCV 2020.

    技术详见:

    * 所有图片素材均来源于作者原始论文及网络公开资料,该技术分享不做任何商业用途。

    回顾与预告

    上期回顾:

    下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。

    Contact:

    由于近期微信公众号改版因素,部分用户反映的更新通知不及时问题,根据网络资料,可以通过在设置里把我们公众号加星关注实现对我们的支持,以便及时收到更新通知,再次感谢大家的理解和支持!

    INTELLIGENTOPTICSSHARING (I.O.S.)运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台,还望大家多多支持,欢迎来稿,欢迎拍砖。

    END

    基于c51的人体红外热释_基于视频的人体运动捕捉系统 哈尔滨工业大学 王轩_人体动作捕捉系统方案

    发表评论