关闭广告

图宾根大学等机构突破:AI实现模块化人体动作分解与合成

科技行者1626人阅读


这项由德国图宾根大学人工智能中心与马克斯·普朗克信息学研究所联合开展的研究,发表于2026年1月的arXiv预印本平台(论文编号:arXiv:2601.10909v1),有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的价值,我们先回想一下小时候玩积木的经历。当我们想要搭建一个复杂的城堡时,我们会先准备不同形状的积木块——有些是方形的,有些是三角形的,有些是圆柱形的。然后,我们按照自己的想象,将这些基础积木块组合在一起,最终创造出一个独特的城堡。这个过程的关键在于,我们既要有丰富的基础积木块,又要知道如何将它们巧妙地组合起来。

人体动作的生成其实也遵循着类似的原理。当我们描述"一个人走路、转身、坐下、站起来再走路"这样一个复杂动作序列时,实际上是在描述多个基础动作的组合。就像积木城堡由不同形状的积木块组成一样,复杂的人体动作也可以分解为头部转动、手臂摆动、腿部弯曲、身体旋转等基础动作元素。

然而,现有的人工智能系统在理解和生成人体动作时,往往只能处理整体描述,就像只能按照固定图纸搭积木,而不能灵活地拆分和重新组合。这就导致了一个问题:当我们想要生成一个训练数据中没有出现过的动作组合时,比如"坐着的时候举起左手",现有系统往往束手无策。

研究团队发现,解决这个问题的关键在于建立一个能够理解"部分与整体"关系的系统。他们开发了一个名为FrankenMotion的框架,这个名字很有意思,让人联想到科学怪人弗兰肯斯坦——通过组装不同部分创造新生命的故事。不过在这里,研究团队是在组装不同的身体部位动作来创造新的动作序列。

这个系统最大的突破在于,它能够同时理解三个不同层次的动作描述。第一个层次是整体描述,比如"一个人在打招呼";第二个层次是动作阶段描述,比如"站立、挥手、放下手臂";第三个层次是身体部位描述,比如"头部保持直立、右手向上挥动、左手放在身侧、双腿保持站立姿势"。这种多层次理解就像是拥有了一副多焦点眼镜,既能看清整个森林,又能观察到每一棵树,甚至每一片叶子的细节。

为了训练这样一个系统,研究团队面临的第一个挑战是数据问题。现有的动作数据集就像是一本只有整本书评价的图书馆——你知道这本书总体上讲的是什么,但不知道每个章节、每个段落具体说了什么。研究团队需要创建一个既有整本书评价,又有章节总结,还有段落分析的详细数据集。

他们的解决方案非常巧妙,利用了大语言模型强大的推理能力。就像请一位经验丰富的动作指导来分析现有的动作视频一样,研究团队让人工智能助手FrankenAgent观察已有的动作数据,然后详细分解每个动作中各个身体部位在不同时间段内的具体表现。这个过程就像是让一位细心的观察者观看一段舞蹈表演,然后详细记录下"在第1到3秒,舞者的头部向左转动,右手向上举起,左手保持在腰部位置,双腿做踏步动作"。

通过这种方式,研究团队构建了一个名为FrankenStein的数据集,包含了39小时的动作数据和多达138,500个不同层次的标注。这个数据集的规模相当可观,就像是创建了一个巨大的动作百科全书,不仅记录了每个动作的整体效果,还详细描述了构成这个动作的每个细节。

有了这个详细的数据集,研究团队接下来要解决的是如何让AI系统学会"积木式"的动作生成。他们设计了一个基于扩散模型的架构,这种模型的工作原理就像是从一团混乱的噪音中逐步"雕刻"出清晰的动作序列。

这个过程可以比作艺术家创作雕塑的过程。一开始,艺术家面对的是一块粗糙的石头(对应于随机噪音),然后根据心中的构想(对应于文本描述),一点点地雕琢,去掉多余的部分,保留需要的部分,最终创造出一个精美的雕塑(对应于流畅的人体动作序列)。

FrankenMotion系统的独特之处在于,它能够同时接收三个层次的"创作指导"。艺术家在雕刻时,既要考虑整体的美感(序列层次描述),也要注意各个部分的协调(动作层次描述),还要精确处理每个细节(身体部位层次描述)。系统通过精心设计的文本编码器来理解这些不同层次的指导,然后通过变换器架构来协调不同身体部位之间的关系。

在训练过程中,研究团队还采用了一种巧妙的策略来增强系统的鲁棒性。他们有意识地随机"遮挡"一些文本描述,就像是在教一个学生在信息不完整的情况下也能完成任务。这种训练方式使得系统在实际应用中即使只有部分描述,也能合理地推断出完整的动作序列。

为了验证系统的效果,研究团队进行了全面的对比实验。他们将FrankenMotion与现有的几种主流方法进行比较,包括STMC、DART和UniMotion等。实验结果显示,FrankenMotion在各个评价指标上都表现出色,特别是在语义正确性和动作真实性方面都超越了现有方法。

更令人兴奋的是,FrankenMotion展现出了强大的组合创新能力。系统可以生成训练期间从未见过的动作组合,比如"一个人坐着的时候举起左手"。这种能力就像是教会了AI如何用有限的积木块创造出无限可能的组合,而不是仅仅重复已经见过的搭建方式。

研究团队还进行了详细的消融实验,验证了多层次条件输入的重要性。实验发现,即使只使用身体部位级别的描述,系统也能产生相当好的结果,但加入动作级别和序列级别的描述后,生成的动作会更加自然流畅,语义也更加准确。这就像是在积木搭建中,有了整体规划图(序列描述)和分步骤指导(动作描述)后,最终的作品会更加精美和协调。

为了评估数据质量,研究团队还请人类专家对FrankenAgent生成的标注进行评估。结果显示,93.08%的标注被认为是正确的,这个准确率相当高,证明了自动标注方法的可靠性。专家之间的一致性评分也达到了0.91,说明评估标准是客观和一致的。

这项研究的应用前景非常广阔。在虚拟现实和增强现实领域,FrankenMotion可以让虚拟角色的动作更加自然和多样化。在游戏开发中,它可以大大降低动作设计的成本,让游戏制作者能够快速生成各种复杂的角色动作。在电影制作中,它可以用于预可视化,帮助导演在实际拍摄前预览角色的动作效果。

在健康和康复领域,这种技术也有着重要意义。物理治疗师可以使用这个系统来设计个性化的康复动作序列,根据患者的具体需求组合不同的基础动作。在体育训练中,教练可以用它来分析和设计训练动作,帮助运动员改进技术。

研究团队也诚实地提到了当前系统的局限性。目前的FrankenMotion还不能在单次处理中生成超长时间的动作序列,比如几分钟的连续动作。这是因为处理长序列需要更多的计算资源和更复杂的模型架构。不过,这个问题可以通过分段处理和拼接的方式来缓解。

另一个挑战是如何处理更加复杂的人物交互和环境交互。当前的系统主要关注单个人物的动作生成,但现实世界中的动作往往涉及多个人物之间的互动,或者人物与环境中物体的交互。这些更复杂的场景需要考虑更多的约束条件和关系。

从技术发展的角度来看,这项研究代表了人体动作生成领域的一个重要进步。它不仅提出了一种新的多层次控制框架,更重要的是,它展示了如何通过巧妙的数据构建和模型设计来实现复杂系统的组合能力。这种"分解-重组"的思路不仅适用于动作生成,也可能启发其他领域的研究,比如音乐生成、故事创作等。

说到底,FrankenMotion的核心价值在于它重新定义了我们对人体动作的理解方式。它不再将动作视为一个不可分割的整体,而是将其视为可以灵活组合的元素集合。这种理解方式更接近人类自己对动作的认知——我们在学习新动作时,往往也是通过分解和重组已知的动作元素来实现的。

归根结底,这项研究为我们展示了人工智能在理解和生成复杂行为方面的巨大潜力。通过将复杂问题分解为可管理的部分,然后学会如何重新组合这些部分,AI系统能够展现出类似人类的创造性和灵活性。这不仅在技术上是一个突破,在哲学层面上也给我们提供了新的思考角度:智能可能不在于完美地重现已知的模式,而在于创造性地组合基本元素来应对新的挑战。

对于普通人来说,这项技术的成熟可能会让我们与虚拟世界的交互变得更加自然和直观。当我们能够用简单的语言描述就生成复杂的虚拟角色动作时,虚拟现实、游戏、甚至视频制作都会变得更加平民化。更进一步地,这种技术可能会改变我们学习和教授复杂技能的方式,让知识的传播变得更加高效和个性化。

随着这类技术的不断发展,我们可能正在见证一个新时代的开始——一个AI不再只是模仿现有内容,而是能够真正理解和创造新内容的时代。FrankenMotion只是这个宏大愿景中的一小步,但它所展示的原理和方法论,很可能会在更广阔的人工智能领域产生深远的影响。

Q&A

Q1:FrankenMotion是什么?

A:FrankenMotion是德国图宾根大学开发的一个AI动作生成系统,它能像搭积木一样将基础动作元素组合成复杂的人体动作序列。系统的特点是可以同时理解整体动作、动作阶段和身体部位三个层次的描述,从而生成更精确和灵活的动作。

Q2:FrankenMotion和现有动作生成技术有什么区别?

A:传统技术只能根据整体描述生成动作,就像按固定图纸搭积木。而FrankenMotion可以分别控制不同身体部位在不同时间的动作,还能组合生成训练时没见过的新动作。比如可以生成"坐着时举起左手"这样的新组合,而不局限于训练数据中的固定模式。

Q3:FrankenMotion技术有什么实际应用?

A:这项技术可以应用于游戏开发、电影制作、虚拟现实等娱乐领域,让虚拟角色动作更自然多样。在医疗康复领域,物理治疗师可以用它设计个性化的康复动作。在体育训练中,教练可以用它分析和设计训练动作,帮助运动员改进技术。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

余承东任华为终端公司董事长,孟晚舟等卸任董事

蓝鲸新闻 浏览 1569

MINI与Paul Smith合作推出设计师款 东京车展首秀

网易汽车 浏览 2215

她用整整十二年,打捞出鲜活的大师影迹

幕味儿 浏览 2155

消息称6.3英寸小屏机或为OPPO Find X9s,将搭载双2亿镜头

IT之家 浏览 1915

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技 浏览 1078

把64T算力塞进家庭!萤石发布AI CoreX智能大模型主机

快科技 浏览 636

特朗普回应小学遇袭 暗示伊朗也可能有"战斧"巡航导弹

北京日报客户端-长安街知事 浏览 3764

加斯佩里尼:意甲争冠?我知道有一些实力更强的球队

懂球帝 浏览 1920

电车销量涨不动?油车打响“销量保卫战”

少数派报告Report 浏览 1971

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 2329

倍耐力官方:下赛季取消C6;所有车队将在12月9日测试新胎

懂球帝 浏览 2102

律所主任疑"借款"9亿失联 客户有上百人最年长者88岁

界面新闻 浏览 6203

尤斯特:我目前核心目标是保持巴萨稳定,让球队不受外部干扰

懂球帝 浏览 1144

为什么说医疗AI的终局,必然有讯飞医疗一席之地?

锦缎研究院 浏览 1300

黄金、白银价格暴涨暴跌,投资者要警惕暴富“陷阱”,戒除豪赌心态

时代周报 浏览 1585

一图看懂|朝鲜庆祝空军成立80周年 展示了哪些新式武器

澎湃新闻 浏览 1962

特斯拉在欧洲加速推广FSD!新增试驾体验,产品进入全新国家

车东西 浏览 1610

军报评何卫东、苗华等被开除党籍军籍:没有"铁帽子王"

北京日报客户端 浏览 10673

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 2260

特斯拉进入平价棋局 不足4万美元的新车又是鲶鱼?

禾颜阅车 浏览 2769

E句话| 袁惟仁去世,前妻发长文送别

仙女事件簿 浏览 1609
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1