微软开发的视频生成模型DragNUWA让清明上河图动起来了

导读【新智元导读】微软提出文本图像轨迹条件视频生成模型DragNUWA，支持手绘轨迹驱动图像动态化，实现复杂运动及场景控制。微软开发的视频生成模型DragNUWA让清明上河图动起来

微软开发的视频生成模型DragNUWA，让清明上河图动起来！

只要通过拖动给出运动轨迹，DragNUWA就可以使图像中的物体按照轨迹运动，生成连贯的视频。

DragNUWA 可以同时控制摄像机和多个物体的运动和复杂的轨迹，以生成具有真实世界场景和艺术绘画的视频。

近年来，可控视频生成技术备受关注。然而，现有的可控视频生成仍然存在两个主要限制：

1.现有作品大多集中于文本、图像或基于轨迹的控制，导致无法实现视频中的细粒度控制。

2. 轨迹控制的研究还处于早期阶段，大多数实验都是在Human3.6M等简单数据集上进行。这种限制限制了模型处理开放域图像和有效处理复杂曲线轨迹的能力。

微软的研究人员提出了一种基于开放域扩散的视频生成模型：DragNUWA。

论文地址：

针对现有研究中控制粒度不足的问题，DragNUWA还引入了文本、图像和轨迹信息，从语义、空间和时间角度对视频内容进行精细控制。

第一组演示了对复杂轨迹的控制，包括复杂运动（红色弯曲箭头）和相机移动（红色向右箭头）。

第二组演示了语言控制的影响，将不同的文本与相同的图像和轨迹配对，以达到将新物体引入图像的效果。

第三组展示了图像控制的影响，展示了现实世界和艺术视频的生成。

为了解决当前研究中有限的开域轨迹控制问题，研究人员从三个方面提出了轨迹建模：

首先，通过轨迹采样器（TS）实现任意轨迹的开域控制；其次，通过多尺度融合（MF）控制不同粒度的轨迹；最后，通过自适应训练（AT）策略根据轨迹生成一致的视频。。

工作准则

DragNUWA支持三种可选输入：文本p、图像s和轨迹g，并重点从三个方面设计轨迹。

首先，轨迹采样器 (TS) 从开放域视频流中动态采样轨迹。

其次，多尺度融合（MF）将轨迹与文本和图像深度融合到 UNet 架构的每个块中。

最后，自适应训练（AT）根据光流条件调整模型，使轨迹更加友好。

最终，DragNUWA 能够处理包含多个对象及其复杂轨迹的开放域视频。

DragNUWA 训练流程概览

为了验证轨迹控制的有效性，研究人员对DragNUWA在相机运动和复杂轨迹方面进行了测试。

在视频制作中，摄像机运动在为观众创造动态且引人入胜的视觉效果方面发挥着重要作用。

不同类型的摄像机移动有助于讲述故事或强调场景中的元素。常见的相机运动不仅包括水平和垂直运动，还包括放大和缩小。

如下图所示，虽然DragNUWA没有明确地对相机运动进行建模，但它可以从开放域轨迹建模中学习各种相机运动：

通过使用相同的文字和图像，同时改变拖动轨迹，可以实现多种相机移动效果。例如，您可以通过在所需的缩放位置绘制方向轨迹来表达放大和缩小效果。

视频中的物体通常具有复杂的运动轨迹。面对多个运动对象、复杂的运动轨迹以及不同对象之间不同的运动幅度，视频生成中的运动建模是一个巨大的挑战。

研究人员通过使用相同的文字和图片，同时改变拖动轨迹，实现了各种复杂的轨迹效果。

这证明了 DragNUWA 精确建模复杂运动的能力：支持复杂的弯曲轨迹，允许可变轨迹长度，并支持同时控制多个对象的轨迹。

DragNUWA通过集成文本、图像和轨迹三种基本控制来实现细粒度的视频生成，分别对应语义、空间和时间方面。

这三个条件缺一不可：

s2v 和 p2v 说明了图像和文本控件作为单独条件使用时的局限性：

如s2v所示，虽然图像本身提供了一些潜在的语义和动态信息，但它并不能实现对背景和角色运动的精确控制。

如p2v所示，当仅提供文本时，模型成功生成与文本相关的视频，但外观和动态仍然完全失控。

gs2v和ps2v强调文本（p）和轨迹（g）的重要性。在没有文字的情况下，无法确定模糊图像代表的是海上冲浪还是雪上冲浪。在没有轨迹的情况下，模型会自动假设角色正在向左移动。

当满足三个基本条件后，pgs2v中就实现了雪地冲浪和向右移动的控制。

数据集

在训练过程中，研究团队利用WebVid和VideoHD数据集来优化DragNU。

WAWebVid 是一个庞大的数据集，由 1000 万个网络视频组成，涵盖现实世界中的各种场景并配有相应的字幕。它涵盖了广泛的运动模式，适用于基于轨迹的开放域视频生成。

VideoHD是研究团队根据网络抓取视频构建的数据集。研究人员首先从互联网上收集了 75K 高分辨率、高质量的视频片段。然后使用 BLIP2 对这些片段进行注释。最后，生成结果中的一些错误被手动过滤掉。

关于作者

吴晨飞博士是微软亚洲研究院高级研究员。他的研究重点是大规模预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA（努瓦）系列（NUWA、NUWA-LIP、NUWA-Infinity、NUWA-3D、NUWA-XL）、多模态理解模型Bridge Tower系列（KD-VLP、Bridge-Tower））和多模态对话系统Visual ChatGPT。将在CVPR、NeurIPS、ACL、ECCV、AAAI、MM等发表多篇论文。

段楠博士，微软亚洲研究院高级首席研究员，自然语言计算团队研究经理，中国科学技术大学、西安交通大学兼职博士生导师，西安交通大学兼职教授。天津大学. 主要从事自然语言处理、多模态基础模型、代码智能、机器推理等方面的研究，并担任多个NLP/AI学术会议的程序主席和现场主席。发表学术论文100余篇，被谷歌学术引用10000余次，拥有20余项专利。被评为中国计算机学会（CCF）优秀会员、CCF-NLPCC青年科学家（2019年）、DeepTech中国智能计算技术创新人物（2022年）。

参考：

微软开发的视频生成模型DragNUWA让清明上河图动起来了

猜你喜欢：

最新文章：