其实被误解的“中国版Sora”背后,字节跳动到底拥有哪些技术?的问题并不复杂,但是又很多的朋友都不太了解,因此呢,今天小编就来为大家分享被误解的“中国版Sora”背后,字节跳动到底拥有哪些技术?的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
2024年初,OpenAI在生成式AI领域投下了重磅炸弹:Sora。
近年来,视频生成领域的技术迭代不断加速,多家科技公司也公布了相关技术进展和实施成果。此前,Pika 和Runway 都曾推出过类似的产品,但Sora 发布的demo 显然一手提升了视频生成领域的标准。
在未来的竞争中,哪家公司将率先打造出超越Sora的产品,目前还不得而知。
在国内,关注的焦点集中在一些大型科技公司。
此前有报道称,字节跳动在Sora 发布之前就开发了一款名为Boximator 的视频生成模型。
Boximator 提供了一种精确控制视频中对象生成的方法。用户无需编写复杂的文本提示,而是可以通过在对象周围画一个框来直接在参考图像中选择目标,然后添加一些框和线条来定义目标的结束位置或跨帧的整个运动路径,如图所示下图:
对此,字节跳动一直保持着低调的态度:相关人士向媒体回应称,Boximator是视频生成领域控制物体运动的技术方法的研究项目。目前还不能作为完整的产品来实现,在画面质量、保真度、视频时长等方面与国外领先的视频生成模型还有较大差距。
在相应的技术论文介绍(https://arxiv.org/abs/2402.01566)中,我们还可以看到Boximator作为插件运行,可以与现有的视频生成模型无缝集成。在保持视频质量的同时,添加运动控制功能。
视频生成背后的技术涉及多个细分领域,与图像/视频理解、图像生成、超分辨率等技术相关。经过深入挖掘,我们发现字节跳动在多个分支公开发表了一些研究成果。
本文将介绍字节跳动智能创作团队的9项研究,涉及文森图片、文森视频、图片视频、视频理解等多项最新成果。我们不妨从这些研究中追踪探索视觉生成模型的技术进展。
在视频生成方面,Byte有哪些成就?
今年1月初,字节跳动发布了视频生成模型MagicVideo-V2,一度引发社区热议。
论文标题:MagicVideo-V2: 多阶段高美观视频生成
论文链接:https://arxiv.org/abs/2401.04468
项目地址:https://magicvideov2.github.io/
MagicVideo-V2的创新之处在于将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。得益于这样的架构设计,MagicVideo-V2能够在“美观”方面保持稳定的高水准表现,不仅能生成精美的高分辨率视频,而且还具有相对较好的保真度和流畅度。
具体来说,研究人员首先使用T2I 模块创建了一张封装所描述场景的10241024 图像。然后,I2V 模块对该静态图像进行动画处理,以生成60060032 的帧序列,并通过底层噪声确保与初始帧的连续性。 V2V 模块将这些帧增强至10481048 分辨率,同时细化视频内容。最后,插值模块将序列扩展至94帧,得到10481048分辨率的视频,生成的视频具有较高的审美质量和时间平滑度。
研究人员进行的大规模用户评估表明,MagicVideo-V2 优于一些著名的T2V 方法(绿色、灰色和粉红色条分别代表MagicVideo-V2 被评为更好、相当或更差)。
高品质视频生成的背后
统一视觉和语言学习的研究范式
从MagicVideo-V2论文中我们可以看到,视频生成技术的进步离不开Vincent Picture、Picture Video等AIGC技术的铺路。生成高美感内容的基础在于理解,尤其是模型学习和整合视觉和语言模态能力的提高。
近年来,大型语言模型的可扩展性和通用能力催生了一种统一视觉和语言学习的研究范式。为了弥合“视觉”和“语言”两种模态之间的天然鸿沟,研究人员将预训练的大型语言模型和视觉模型的表示连接起来,提取跨模态特征,完成视觉问答、图像字幕、视觉知识推理和对话等任务。
在这些方向上,字节跳动也有相关探索。
例如,为了解决开放世界视觉任务中多目标推理和分割的挑战,字节跳动联合北京交通大学、北京科技大学的研究人员提出了一种高效的大规模像素级推理模型, PixelLM,并将其开源。
论文标题:PixelLM:大型多模态模型的像素推理
论文链接:https://arxiv.org/pdf/2312.02228.pdf
项目地址:https://pixellm.github.io/
PixelLM 能够熟练地处理具有任意数量的开放集对象和不同推理复杂度的任务,下图展示了PixelLM 在各种分割任务中生成高质量对象掩模的能力。
PixelLM 的核心是一种新颖的像素解码器和分割码本:码本包含可学习的标记,这些标记对与不同视觉尺度的目标参考相关的上下文和知识进行编码。像素解码器基于码本标记的隐藏嵌入和图像。特征生成目标掩模。在保持LMM 基本结构的同时,PixelLM 可以生成高质量的掩模,而无需额外的、昂贵的视觉分割模型,从而提高效率和不同应用的可移植性。
值得注意的是,研究人员构建了一个全面的多目标推理分割数据集MUSE。他们根据LVIS 数据集中的图像内容总共选择了910k 个高质量的实例分割掩模和详细的文本描述,并使用它们构建了246k 个问答对。
与图像相比,如果涉及到视频内容,模型遇到的挑战就增加很多。因为视频不仅包含丰富多样的视觉信息,还涉及时间序列的动态变化。
现有的大型多模态模型在处理视频内容时,通常将视频帧转换为一系列视觉标记,并将它们与语言标记结合起来生成文本。然而,随着生成文本长度的增加,视频内容的影响力会逐渐减弱,导致生成的文本与原始视频内容越来越偏离,产生所谓的“错觉”。
面对这个问题,字节跳动和浙江大学提出了Vista-LLaMA,一个专门针对视频内容复杂性而设计的多模态大模型。
论文标题:Vista-LLaMA:通过与视觉令牌的等距离实现可靠的视频旁白
论文链接:https://arxiv.org/pdf/2312.08870.pdf
项目地址:https://jinxxian.github.io/Vista-LLaMA/
Vista-LLaMA采用了改进的注意力机制——视觉等距令牌注意力(EDVT),在处理视觉和文本令牌时去除了传统的相对位置编码,同时保留了文本之间的相对位置编码。该方法极大地提高了语言模型对视频内容理解的深度和准确性。
特别是Vista-LLaMA推出的序列化视觉投影仪为视频中的时间序列分析问题提供了新的视角。它通过线性投影层对视觉标记的时间上下文进行编码,从而增强模型理解视频动态变化的能力。
在最近ICLR 2024 接受的一项研究中,字节跳动研究人员还探索了一种预训练方法,以提高模型学习视频内容的能力。
由于视频文本训练语料的规模和质量有限,大多数基于视觉语言的模型采用图像文本数据集进行预训练,主要关注视觉语义表示建模,而忽略时间语义表示和相关性。
为了解决这个问题,他们提出了COSA,一种串联样本预训练视觉语言基础模型。
论文标题:COSA: 连接样本预训练视觉语言基础模型
论文链接:https://arxiv.org/pdf/2306.09085.pdf
项目主页:https://github.com/TXH-mercury/COSA
COSA 仅使用图像文本语料库对视觉内容和事件级时间线索进行联合建模。研究人员按顺序连接多个图像文本对作为预训练的输入。这种转换有效地将现有的图像文本语料库转换为伪长格式视频段落语料库,从而实现更丰富的场景转换和明确的事件描述对应。实验表明,COSA 可以持续提高各种下游任务的性能,包括长/短视频文本任务和图文任务(例如检索、字幕和问答)。
从图像到视频
重新理解“扩散模型”
除了视觉语言模型之外,扩散模型也是大多数视频生成模型使用的技术。
通过对大型图像文本对数据集的严格训练,扩散模型能够完全基于文本信息生成详细图像。除了图像生成之外,扩散模型还可以用于音频生成、时间序列生成、3D 点云生成等。
例如,在一些短视频应用中,用户只需要提供一张图片就可以生成假动作视频。
几百年来一直保持着神秘微笑的蒙娜丽莎,立马就能跑:
这个有趣的应用背后的技术是由新加坡国立大学和字节跳动的研究人员联合推出的“MagicAnimate”。
MagicAnimate是一个基于扩散的人体图像动画框架,在基于特定运动序列生成视频的任务中,可以很好地保证整个动画的时间一致性,提高动画保真度。此外,MagicAnimate 项目是开源的。
论文标题:MagicAnimate:使用扩散模型实现时间一致的人体图像动画
论文链接:https://arxiv.org/pdf/2311.16498.pdf
项目地址:https://showlab.github.io/magicanimate/
为了解决生成动画常见的“闪烁”问题,研究人员通过将时间注意力块合并到扩散主干网络中,构建了用于时间建模的视频扩散模型。
MagicAnimate 将整个视频分成重叠的片段,并简单地对重叠帧的预测进行平均。最后,研究人员还引入了图像-视频联合训练策略,以进一步增强参考图像保留能力和单帧保真度。尽管仅针对真实人类数据进行训练,但MagicAnimate 已展示了泛化到各种应用场景的能力,包括未见过的领域数据的动画、与文本图像扩散模型的集成以及多人动画。
另一项基于扩散模型思想的研究“DREAM-Talk”解决了从单个肖像图像生成会说话的情绪面孔的任务。
论文标题:DREAM-Talk:基于扩散的真实情感音频驱动单图像说话人脸生成方法
论文链接:https://arxiv.org/pdf/2312.13578.pdf
项目地址:https://dreamtalkemo.github.io/
我们知道,在这项任务中,很难同时实现富有表现力的情感对话和准确的唇形同步。通常,为了保证唇同步的准确性,表现力往往会受到很大的损害。
“DREAM-Talk”是一个基于扩散的音频驱动框架,分为两个阶段:首先,研究人员提出了一种新颖的扩散模块EmoDiff,它可以根据音频和参考生成各种高度动态的情感表达和头部情感风格。身体姿势。鉴于嘴唇运动和音频之间的强相关性,研究人员随后利用音频特征和情感风格改进了动态,以提高嘴唇同步的准确性,并且还部署了视频到视频渲染模块,以实现将表情和嘴唇运动转移到任何肖像。
从效果来看,DREAM-Talk 在表现力、口型准确度和感知质量方面确实不错:
但无论是图像生成还是视频生成,目前基于扩散模型路线的研究仍然存在一些需要解决的基本挑战。
例如,很多人关心生成内容的质量(对应SAG和DREAM-Talk)。这可能与扩散模型生成过程中的一些步骤有关,例如引导采样。
扩散模型中的引导采样可以大致分为两类:需要训练的和不需要训练的。免训练引导采样利用现成的预训练网络(例如审美评价模型)来指导生成过程,旨在以更少的步骤和更高的精度从预训练模型中获取知识。目前的训练无引导采样算法是基于干净图像的一步估计来获得引导能量函数。然而,由于预训练网络是在干净图像上进行训练的,因此对于干净图像的一步估计过程可能不准确,尤其是在扩散模型的早期阶段,导致早期时间步骤的指导不准确。
针对这一问题,字节跳动和新加坡国立大学的研究人员联合提出了辛伴随指导(SAG)。
论文标题:通过辛伴随方法实现精确引导扩散采样
论文链接:https://arxiv.org/pdf/2312.12030.pdf
SAG通过两个内部阶段计算梯度引导:首先,SAG通过n个函数调用来估计干净的图像,其中n作为灵活的参数,可以根据特定的图像质量要求进行调整。其次,SAG使用对称对偶方法来准确有效地获得关于内存需求的梯度。该方法可以支持各种图像和视频生成任务,包括风格引导的图像生成、美学改进和视频风格化,并有效提高生成内容的质量。
最近入选ICLR 2024 的一篇论文重点关注“扩散概率模型梯度反向传播的临界灵敏度方法”。
论文标题:扩散概率模型梯度反向传播的伴随灵敏度方法
论文链接:https://arxiv.org/pdf/2307.10711.pdf
由于扩散概率模型的采样过程涉及到去噪U-Net的递归调用,朴素梯度反向传播需要存储所有迭代的中间状态,导致内存消耗极高。
在本文中,研究人员提出的AdjointDPM首先通过求解相应的概率流ODE从扩散模型生成新样本。然后,通过求解另一个增广ODE,使用邻接敏感性方法反向传播模型参数(包括条件信号、网络权重和初始噪声)损失的梯度。为了减少前向生成和梯度反向传播过程中的数值误差,研究人员进一步利用指数积分将概率流ODE 和增强型ODE 重新参数化为简单的非刚性ODE。
研究人员指出,AdjointDPM 在三项任务中非常有价值:将视觉效果转换为可识别的文本嵌入、针对特定类型的风格化微调扩散概率模型以及优化初始噪声以生成用于安全审计的对抗性示例。以减少优化工作的成本。
对于视觉感知任务,使用文本到图像扩散模型作为特征提取器的方法也受到越来越多的关注。在这个方向上,字节跳动的研究人员在论文中提出了一种简单有效的解决方案。
论文标题;利用元提示的视觉感知扩散模型
论文链接:https://arxiv.org/pdf/2312.14733.pdf
本文的核心创新是在预训练的扩散模型中引入可学习的嵌入(元线索)来提取感知特征,而不依赖于额外的多模态模型来生成图像标题,也不使用数据集中的类别标签。
元提示的作用有两个:首先,作为T2I 模型中文本嵌入的直接替代,它可以在特征提取过程中激活与任务相关的特征;其次,它将用于重新排列提取的特征,以确保模型关注与手头任务最相关的特征。此外,研究人员还设计了循环细化训练策略,充分利用扩散模型的特点来获得更强的视觉特征。
“中国版索拉”诞生之前
还要走多远?
在这些新论文中,我们了解到了字节跳动等国内科技公司在视频生成技术上的一系列积极探索。
但与Sora相比,无论是字节跳动还是AI视频生成领域的一批明星公司,都存在肉眼可见的差距。 Sora的优势基于其对Scaling Law的信仰和突破性的技术创新:通过补丁统一视频数据,依靠Diffusion Transformer等技术架构和DALL·E 3的语义理解能力,真正做到了“遥遥领先”。
从2022年文胜图的爆发到2024年Sora的出现,人工智能领域的技术迭代速度已经超出了所有人的想象。 2024年,相信这个领域还会出现更多的“爆款产品”。
字节显然也在加大技术研发的投入。近日,Google VideoPoet项目负责人姜璐、开源多模态大模型LLaVA团队成员、前微软研究院首席研究员李春元均被曝加入字节跳动智能创作团队。团队也在大力招聘,官网已经发布了多个与大模型算法相关的职位。
不仅是字节,BAT等老牌巨头也发布了许多引人注目的视频生成研究成果,一批大型模型初创公司更是咄咄逼人。文森视频技术将会有哪些新的突破?我们拭目以待。
用户评论
这片文章讲得很详细很透彻,之前一直对“中文版Sora”抱有疑问,看完这篇博文终于明白了!字节跳动真的很厉害,在AI技术上投入这么多精力真是让人佩服。
有12位网友表示赞同!
我个人觉得,将"中文版Sora"称为"被误解"可能有些夸张。它跟其他文本生成模型的差异在于训练数据和应用场景,应该从各个方面来对比评测而不是局限于某一个角度。
有13位网友表示赞同!
我也玩过“中文版Sora”,感觉确实跟谷歌的模型不太一样。也许是由于训练数据上的不同导致输出风格不一样吧,不过我更喜欢"中文版Sora"的这种风格,感觉更加贴近普通用户的语言习惯。
有18位网友表示赞同!
真是没想到字节跳动在AI技术上如此强大!这篇文章让我对“中文版Sora”有了更深入的了解,它背后蕴含的技术确实让人惊叹。未来期待看到它更多的应用场景。
有19位网友表示赞同!
我觉得有些夸张,"中文版Sora"只是应用了一套比较特殊的训练方法而已,并没有达到颠覆性的技术突破。
有9位网友表示赞同!
之前一直听说“中文版Sora”很厉害,看了这篇文章才明白它的核心价值在于其独特的训练数据和模型架构。字节跳动这次真的做出了创新,值得关注。
有12位网友表示赞同!
个人认为"中文版Sora"跟谷歌的模型差别并不会很大,只是侧重点不同而已。我觉得更重要的是AI技术应用于具体的场景,能够为用户带来哪些实际价值?
有14位网友表示赞同!
很不错的一篇文章,深入分析了“中文版Sora”背后的技术,让我对字节跳动在AI领域的努力有了更深的理解。期待它能在这方面继续做出更多突破。
有20位网友表示赞同!
我不太明白“误解”二字的含义,"中文版Sora"的确与其他模型有所区别,但这并不能说它被误解了。每个人都有自己的侧重点和评价标准,不同的读者会有不同的解读方式。
有11位网友表示赞同!
这篇文章很有深度,揭示了“中文版Sora”背后的技术功底,让我对AI发展的趋势有了新的思考。字节跳动在AI领域绝对是一个不容忽视的巨头。
有20位网友表示赞同!
我觉得"中文版Sora"作为一款文本生成模型,它的输出质量还是有待提升的。希望未来开发团队能够继续优化模型,使其更加精准、流畅。
有16位网友表示赞同!
这篇文章让我对“中文版Sora”有了新的认识,不仅了解了其背后的技术支持,也对字节跳动在AI领域的科研投入有了更清晰的了解。
有8位网友表示赞同!
我一直好奇"中文版Sora"是怎么做到输出如此接近人类语言的文字,看完文章终于明白了其中的奥秘。原来是采用了多种先进的技术手段来训练模型!
有11位网友表示赞同!
虽然“中文版Sora”确实有自己的特点,但也无法完全取代其他主流的文本生成模型。AI技术的发展还很长,各种模型都将发挥各自优势,共同推动行业进步。
有10位网友表示赞同!
我对“中文版Sora”一直持观望态度,看完这篇文章更加确认我的想法:它是一个很有潜力的项目,但还需要进一步的发展和完善。
有16位网友表示赞同!
字节跳动在AI领域确实很优秀,"中文版Sora"虽然还处在早期阶段,相信随着技术的进步和应用场景的拓展,它一定会取得更大的成就!
有5位网友表示赞同!
希望“中文版Sora”能够更加开放,让更多开发者和用户有机会参与到它的开发和应用中来,共同推动AI技术的发展。
有18位网友表示赞同!