腾讯版“Sora”加入文生视频战场,混(hun)元,模子,技术

作者 | 黄昱

编纂 | 周智宇

年初，“文生视频”模子Sora的出现，掀起了全球竞逐AI视频生成的高潮；近10个(ge)月已往，Sora迟迟没有对外开放，而作为厥后(hou)者的腾讯混(hun)元，抢先加入了这一战场。

12月3日，腾讯混(hun)元大(da)模子正式上线视频生成能力，C端用户通过(guo)腾讯元宝APP就可申(shen)请试用，企业客户通过(guo)腾讯云提供办事(shi)接入，目前API同步开放内测申(shen)请。

把文生视频摆上牌桌，这是继文生文、文生图、3D生成之(zhi)后(hou)，腾讯混(hun)元大(da)模子的又一新里程碑。与此同时(shi)，腾讯开源(yuan)该(gai)视频生成大(da)模子，参数目130亿，是当前最大(da)的视频开源(yuan)模子。

据华尔街见闻(wen)了解，腾讯混(hun)元的视频生成几乎没有门槛，用户只需(xu)要输入一段文字形貌，腾讯混(hun)元生成视频大(da)模子就可以生成一段五秒的视频。

展开盈余 75 %

相较于Sora分(fen)钟级别以及一些“类Sora”产品10s的视频生成时(shi)长(chang)，腾讯混(hun)元的视频生成时(shi)长(chang)不太让(rang)人奋发。

在当日的媒体沟通会上，腾讯混(hun)元多模态生成技术负责人透露表现，视频时(shi)长(chang)不是技术成绩，而是纯算力和数据成绩，因为时(shi)间扩长(chang)一倍，它的算力是一个(ge)平方级的上升，所以不是很划算。

此外，他指出，大(da)部分(fen)人用视频的情况下都是一个(ge)镜头接一个(ge)镜头，所以混(hun)元视频生成模子第一版先放5s时(shi)长(chang)的出来，优先满足大(da)部分(fen)的需(xu)求。“未(wei)来如(ru)果大(da)家有许多强烈需(xu)求，要做很长(chang)的一镜到底，我们再(zai)去做升级。”

腾讯混(hun)元生成视频目前主(zhu)要浮现四大(da)特点：写实(shi)画质、语(yu)义遵从、动态流畅、原生转场。

在技术路线上，腾讯混(hun)元视频生成模子选择了跟Sora类似的DiT架(jia)构，并在架(jia)构计划上进行(xing)多处升级，包括引入多模态大(da)语(yu)言模子作为文本(ben)编码(ma)器、基于自(zi)研Scaling Law的全注意力DiT、自(zi)研3D VAE等。

腾讯混(hun)元多模态生成技术负责人指出，混(hun)元算是业内首个(ge)或者特别多数拿多模态大(da)语(yu)言模子来做文本(ben)编码(ma)器的视频生成模子。业界现在更多还是选用T5模子和CLIP模子作为文本(ben)编码(ma)器。

之(zhi)所以这样选择，是因为腾讯混(hun)元是看(kan)中了这条技术路线的三大(da)优点，包括增强复杂文本(ben)的明白能力、原生图文对齐能力以及支持零碎(sui)提醒词。

此外，腾讯混(hun)元多模态生成技术负责人提到，在做GPT之(zhi)前，OpenAI花了许多心思去考证Scaling Law（用更多的数据训练更大(da)的模子）在语(yu)言模子中的有效性，但在视频生成领域(yu)学术界或业界没有把Scaling Law是否有效公开出来。

在此背景下，腾讯混(hun)元团队自(zi)己把图像(xiang)、视频生成的Scaling Law考证了一边，最终得出结论，图像(xiang)DiT有，视频基于图像(xiang)DiT做二(er)阶(jie)段的训练一样是有Scaling Law的性质在的。

“所以我们首版腾讯混(hun)元视频生成模子是基于这套比较严格的Scaling Law的推论，做了一个(ge)130亿的模子。”腾讯混(hun)元多模态生成技术负责人说道。

与此同时(shi)，腾讯混(hun)元也在疾行(xing)视频生成生态模子的探索，包括图生视频模子、视频配音模子、驱动2D照片数字人等。

腾讯混(hun)元多模态生成技术负责人指出，相较于文生视频，图生视频模子在可用性的推进上进展会更快，大(da)概在不到一个(ge)月之(zhi)内混(hun)元会发布(bu)最新进展。

自(zi)去两年前ChatGPT掀起的AI大(da)模子高潮以来，大(da)语(yu)言模子技术路径已收敛，而视频生成模子仍处于探索期。

西方证券分(fen)析师指出，在OpenAI的技术方向引领下，目前语(yu)言模子的技术路径基本(ben)就是GPT这一条路。而多模态技术方面(mian)，目前没有一家公司处于相对抢先地位，技术路径仍存(cun)在探索的大(da)概。

腾讯混(hun)元多模态生成技术负责人也透露表现，文生视频整体都处于不太成熟的阶(jie)段，综合合格率都不高。

作为多模态生成中难度最大(da)的领域(yu)，视频生成对算力、数据等资本(ben)要求较高，目前相较于文本(ben)、图像(xiang)成熟度更低，同时(shi)面(mian)临商业化、产品化进展较慢的挑战。

OpenAI也宣布(bu)因为算力短缺而推迟Sora的更新，导(dao)致至今尚未(wei)对外开放。

只管如(ru)此，为了更快抢占市场，客岁十一月以来，视频生成领域(yu)的成果密集落地。

停止目前，国内外不少大(da)模子厂商都实(shi)现了类Sora产品落地，包括国内MiniMax、智谱、字节、快手、爱诗科(ke)技等，海外Runway、Pika、Luma。不过(guo)，因为算力和技术等因素，视频生成时(shi)长(chang)一样平常在10s以内。