导航菜单

中文版Sora被误解的背后 字节跳动有哪些技术

导读 OpenAI在2024年初推出产品Sora,将视频生成领域的标准提高,国内字节跳动研发的Boximator被称为中国版的Sora,字节跳动智能创作团队在其背...

OpenAI在2024年初推出产品Sora,将视频生成领域的标准提高,国内字节跳动研发的Boximator被称为中国版的Sora字节跳动智能创作团队在其背后作出了多项研究,通过这些最新的成果,我们能探索到视觉生成类模型在我国的进展。

关于Boximator的介绍

Boximator是一款视频生成模型,能将图片中的物体进行精准控制,不需要过于复杂的文本,自动将图片中的物体当做目标,生成一条完整的运动路径。其实早在Sora发布之前,Boximator就已经被研发出来了,只是目前还有成为一个完善的产品,在一些方面还有改进的地方。根据相关论文我们也能知道,Boximator会以插件的形式在电子设备上运行,在生成视频的时候不仅能保证画面质量,还能体验到其他控制功能。

Boximator背后的技术

为了能研发出Boximator,字节跳动在视频生成技术的背后作出了多个细分研究,包括图像或视频理解、图像自动生成、超分辨率等,对此字节跳动也已经公开发表了9项研究成果,体现在生图、图生视频、视频理解、文生视频等方面,从这些成果上我们也能看到国内在视频生成技术的最新进展。高质量视频生成的背后,离不开AIGC技术,模型对于语言和视觉而言是不断学习、融合的模态。

字节跳动的其他探索

字节跳动联合高校研究团队共同提出了高效像素级推理大模型PixelLM,PixelLM能生成高质量的掩码,即便是在没有昂贵视觉分割模型的情况下也能生成,大大提高了数据向不同程序迁移的可能性。视频内容要比图像面临的挑战更具难度,视频中包含了丰富的视觉信息,同时也会随着时间序列发生变化,因此字节跳动在文生视频技术方面不断探索和研究,让我们拭目以待。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: