
双东谈主看成生成新 SOTA!
针对 Human-human motion generation 问题,浙江大学提倡了一种对双东谈主畅通序列进行时序和因果建模的架构 TIMotion,论文已发表于 CVPR 2025。

具体来说,通过分手诈欺畅通序列时刻上的因果关系和两东谈主交互经由中的主动被迫关系,TIMotion 联想了两种有用的序列建情势样。
此外还联想了局部畅通情势增强,使得生成的畅通愈加平滑当然。
归并辅导词下,使用 TIMotion 和现时 SOTA 行动 Intergen 对比如下:
(翻译版)这两个东谈主歪斜着身子,面临面,玩起了石头剪刀布。与此同期,有一个东谈主遴选出布。

仔细对比手部看成,不错看出 TIMotion 的生见效果更好。
除此以外,实验扫尾披露,TIMotion 在 InterHuman 和 InterX 数据集上均达到了 SOTA 效果。
底下具体来看。
全新对准双东谈主看成生成
在生成式推测机视觉领域,东谈主类看成生成对推测天真画、游戏拓荒和机器东谈主遣散皆具有垂死意旨。
比年来,在用户指定的各式条目的运行下,东谈主类看成生成工夫取得了显赫高出。其中,很多诈欺诳言语模子和扩散模子的行动成绩于其浩大的建模材干,在生成传神而种种的看成方面取得了令东谈主注释的扫尾。
尽管取得了这一进展,但现存的大多量行动主若是针对单东谈主体育场景而联想的,因此忽略了东谈主体畅通的一个重要成分:东谈主与东谈主之间复杂而动态的互动。
为了更好地探索双东谈主看成生成,磋商团队最初综合出了一个通用框架 MetaMotion,如图 1 左侧所示,它由两个阶段构成:时序建模和交互羼杂。
以往的行动优先研究的是交互羼杂而非时序建模,主要分为以下两类:
基于单东谈主生成行动的扩张
基于单东谈主建模的行动
如图(a)所示,基于单东谈主生成行动的扩张会将两个东谈主合并成一个东谈主,然后将其输入现存的单东谈主畅通生成模块之中。基于单东谈主建模的行动如图(b)所示,是对两个个体单独建模,然后分手使用自我平稳和交叉平稳机制,从两个个体自己和对方身上索求畅通讯息。

按照 MetaMotion 的一般逻辑,团队提倡了 "时空交互框架"(Temporal and Interactive Framework),如图 ( c ) 所示,该框架模拟了东谈主与东谈主之间的因果互动,这种有用的时序建模行动不错简化交互羼杂模块的联想,减少可学习参数的数目。
提倡双东谈主看成生成架构 TIMotion
团队初次提倡了用于双东谈主看成生成的中枢办法 " MetaMotion "。
如上图所示,他们将双东谈主畅通生成经由综合为两个阶段:时序建模和交互羼杂。
具体来说,两个单东谈主序列通过期序建模模块得到输入序列。然后,输入序列被送入交互羼杂模块,这也曾由可暗示为
其中,InteractionMixing 频频是 Transformer 结构,包括自平稳和交叉平稳机制。
值得平稳的是,InteractionMixing 也不错是一些新兴结构,比如 Mamba、RWKV 等等。
TIMotion
TIMotion 的举座架构如下图所示,主要包含三个部分: ( 1 ) Causal Interactive Injection; ( 2 ) Role-Evolving Scanning; ( 3 ) Localized Pattern Amplification。

Causal Interactive Injection
畅通的自我感知以及与他东谈主畅通的交互感知是双东谈主畅通生成的重要要素。
研究到畅通的因果属性,团队提倡了 "因果互动注入"(Causal Interactive Injection)这一时序建模行动,以同期已毕对自我畅通的感知和两东谈主之间的互动。
具体来说,团队用暗示两个单东谈主畅通序列,其中庸是各自的畅通序列,L 是序列的长度。
由于两个东谈主在现频频刻步的畅通是由他们在之前时刻步的畅通共同决定的,因此团队将两个东谈主的畅通序列建模为一个因果交互序列
,绚烂 // 暗示除法后四舍五入,k 不错通过下式获取:

然后,团队不错将它们注入交互羼杂模块,并把柄 k 的界说将两个个体的看成特征从输出扫尾均分离出来。
Role-Evolving Scanning
东谈主类在交互经由中频频存在一定的内在规定,举例,"合手手"频频由一个东谈主先伸着手,这意味着交互看成不错被分为主动畅通和被迫畅通。
一些行动将文本描述分为主动和被迫语态。
但是,跟着互动的进行,"主动方"和"被迫方"胁制在两东谈主之间交换,如图 3 所示。
为了幸免冗余的文本预处理何况顺应脚色的胁制变化,论文联想了一种高效且有用的行动:脚色演变扫描(Role-Evolving Scanning)。

对于在 Causal Interactive Injection 中界说的因果交互序列 x,昭着 a 和 b 分手代表了主动方畅通序列和被迫方畅通序列。但是这种对于主动和被迫序列的假定并不老是稳妥试验规定。
为了叮嘱脚色的变化,论文将因果交互序列重新建模为对称因果交互序列

,k ’由下式得到:

给定因果交互序列和对称因果交互序列,论文通过脚色演变扫描得到最终的双东谈主交互序列:

然后序列 X 被送入交互羼杂模块得到看成的特征。
接下来,分手按照特征通谈和时刻的维度将两个东谈主的特征取出,并按照元素相加得到两东谈主交互后的最终特征,特征 split 和 fuse 经由如下式:

其中暗示按元素相加。
通过诈欺 "脚色演变扫描 "工夫让两个东谈主同期饰演主动和被迫脚色,相聚不错把柄文本的语义和看成的高下文动态调整两个东谈主的脚色。
Localized Pattern Amplification
因果交互注入和脚色演变扫描主要基于双东谈主互动之间的因果关系来建模举座畅通,但疏远了对局部畅通情势的关爱。
为了科罚这个问题,论文提倡了局部畅通情势增强(Localized Pattern Amplification),通过捕捉每个东谈主的短期畅通情势,使得生成愈加平滑和合理的畅通。
具体来说,论文诈欺一维卷积层和残差结构来已毕局部畅通情势增强。给定条目镶嵌和两个单东谈主的畅通序列,不错建造下式的结构:

其中 Convk 暗示卷积核为 k 的一维卷积,AdaLN 为自顺应层正则化。
得到全局输出和局部输出后,两者通过特征通谈维度的进行 Concat,然后通过线性层对特征进行调理,得到最终输出特征:

通过这种面貌,粗略捕捉每个东谈主的短期看成情势,并将其与条目镶嵌持续,从而生成更平滑和更合理的看成序列。
办法函数
论文禁受了常见的单东谈主看成失掉函数,包括足部讲和损成仇要道速率失掉。
此外,还使用了与 InterGen 沟通的正则化失掉函数,包括骨长度失掉、掩码要道距离图损成仇相对地方失掉。
最终,总体失掉界说为:

实验扫尾
在 InterHuman 数据集上,TIMotion 在三个不同的交互羼杂结构(Transformer, Mamba, RWKV)上皆获取了较好的推崇,其中 TIMotion 和 RWKV 结构相持续 FID 达 4.702,Top1 R precision 达到 0.501,达到了 SOTA。

在 InterX 数据集上,TIMotion 在 R precision,FID, MM Dist 等度量盘算推算上也达到了最优的推崇。

在推测复杂度方面,论文将 TIMotion 与现时开头进的行动InterGen进行了比较。
与 InterGen 比较,TIMotion 所需的参数和 FLOPs 更少,但在综总盘算推算 FID 和 R Precision 方面优于 InterGen。
值得平稳的是,使用与 InterGen 近似的 Transformer 架构,TIMotion 每个样本的平均推理时刻仅为 0.632 秒,而 InterGen 则需要 1.991 秒。

论文在 InterHuman 的测试集上进行了畅通裁剪的实验,通过给定序列的前 10% 和后 10% 帧让模子瞻望极端 80% 帧的序列来进行评估行动的可裁剪性。
Table 6 披露了 TIMotion 在畅通插值裁剪任务中,在通盘度量盘算推算上皆高出了 InterGen。

追念
论文将双东谈主畅通生成经由综合为一个通用框架 MetaMotion,其中包括两个阶段:时刻建模和交互羼杂。
磋商发现,由于现在的行动对时序建模的关爱不及,导致次优扫尾和模子参数冗余。
在此基础上,团队提倡了 TIMotion,这是一种高效、出色的双东谈主畅通生成行动。
具体来说,他们最初提倡了 Causal Interactive Injection,诈欺时序和因果属性将两个孤立的担任序列建模为一个因果序列。
此外,还提倡了 Role-Evolving Mixing 来顺应通盘这个词互动经由中的动态脚色,并联想了 Localized Pattern Amplification 来捕捉短期畅通情势,从而生成更平滑、更合理的畅通。
TIMotion 在两个大边界双东谈主畅通生成的数据集 InterHuman 和 InterX 上均达到了 SOTA 的效果,诠释了论文所提倡行动的有用性。
因此,TIMotion 为 Human-human motion generation 提供了一个有用的科罚决策。
论文:
https://arxiv.org/abs/2408.17135
技俩主页:
https://aigc-explorer.github.io/TIMotion-page/
一键三连「点赞」「转发」「留意心」
原谅在辩驳区留住你的思法!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页预计,以及关系面貌哦
咱们会(尽量)实时复兴你

� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun官方网站
下一篇:没有了
