业界新闻
银程金服有限公司全国统一客服电话以及诚银金服
2024-12-05 14:48:44
银程金服人工客服电话【点击查看客服电话】工作时间是:上午9:00-晚上21:00。处理还款,申请协商还款,人工客服流程,协商退款,提前还款各方面问题等相关问题

腾讯版“Sora”加入文生视频战场,混(hun)元,模子,技术

作者 | 黄昱

编纂 | 周智宇

年初,“文生视频”模子Sora的出现,掀起了全球竞逐AI视频生成的高潮;近10个(ge)月已往,Sora迟迟没有对外开放,而作为厥后(hou)者的腾讯混(hun)元,抢先加入了这一战场。

12月3日,腾讯混(hun)元大(da)模子正式上线视频生成能力,C端用户通过(guo)腾讯元宝APP就可申(shen)请试用,企业客户通过(guo)腾讯云提供办事(shi)接入,目前API同步开放内测申(shen)请。

把文生视频摆上牌桌,这是继文生文、文生图、3D生成之(zhi)后(hou),腾讯混(hun)元大(da)模子的又一新里程碑。与此同时(shi),腾讯开源(yuan)该(gai)视频生成大(da)模子,参数目130亿,是当前最大(da)的视频开源(yuan)模子。

据华尔街见闻(wen)了解,腾讯混(hun)元的视频生成几乎没有门槛,用户只需(xu)要输入一段文字形貌,腾讯混(hun)元生成视频大(da)模子就可以生成一段五秒的视频。

相较于Sora分(fen)钟级别以及一些“类Sora”产品10s的视频生成时(shi)长(chang),腾讯混(hun)元的视频生成时(shi)长(chang)不太让(rang)人奋发。

在当日的媒体沟通会上,腾讯混(hun)元多模态生成技术负责人透露表现,视频时(shi)长(chang)不是技术成绩,而是纯算力和数据成绩,因为时(shi)间扩长(chang)一倍,它的算力是一个(ge)平方级的上升,所以不是很划算。

此外,他指出,大(da)部分(fen)人用视频的情况下都是一个(ge)镜头接一个(ge)镜头,所以混(hun)元视频生成模子第一版先放5s时(shi)长(chang)的出来,优先满足大(da)部分(fen)的需(xu)求。“未(wei)来如(ru)果大(da)家有许多强烈需(xu)求,要做很长(chang)的一镜到底,我们再(zai)去做升级。”

腾讯混(hun)元生成视频目前主(zhu)要浮现四大(da)特点:写实(shi)画质、语(yu)义遵从、动态流畅、原生转场。

在技术路线上,腾讯混(hun)元视频生成模子选择了跟Sora类似的DiT架(jia)构,并在架(jia)构计划上进行(xing)多处升级,包括引入多模态大(da)语(yu)言模子作为文本(ben)编码(ma)器、基于自(zi)研Scaling Law的全注意力DiT、自(zi)研3D VAE等。

腾讯混(hun)元多模态生成技术负责人指出,混(hun)元算是业内首个(ge)或者特别多数拿多模态大(da)语(yu)言模子来做文本(ben)编码(ma)器的视频生成模子。业界现在更多还是选用T5模子和CLIP模子作为文本(ben)编码(ma)器。

之(zhi)所以这样选择,是因为腾讯混(hun)元是看(kan)中了这条技术路线的三大(da)优点,包括增强复杂文本(ben)的明白能力、原生图文对齐能力以及支持零碎(sui)提醒词。

此外,腾讯混(hun)元多模态生成技术负责人提到,在做GPT之(zhi)前,OpenAI花了许多心思去考证Scaling Law(用更多的数据训练更大(da)的模子)在语(yu)言模子中的有效性,但在视频生成领域(yu)学术界或业界没有把Scaling Law是否有效公开出来。

在此背景下,腾讯混(hun)元团队自(zi)己把图像(xiang)、视频生成的Scaling Law考证了一边,最终得出结论,图像(xiang)DiT有,视频基于图像(xiang)DiT做二(er)阶(jie)段的训练一样是有Scaling Law的性质在的。

“所以我们首版腾讯混(hun)元视频生成模子是基于这套比较严格的Scaling Law的推论,做了一个(ge)130亿的模子。”腾讯混(hun)元多模态生成技术负责人说道。

与此同时(shi),腾讯混(hun)元也在疾行(xing)视频生成生态模子的探索,包括图生视频模子、视频配音模子、驱动2D照片数字人等。

腾讯混(hun)元多模态生成技术负责人指出,相较于文生视频,图生视频模子在可用性的推进上进展会更快,大(da)概在不到一个(ge)月之(zhi)内混(hun)元会发布(bu)最新进展。

自(zi)去两年前ChatGPT掀起的AI大(da)模子高潮以来,大(da)语(yu)言模子技术路径已收敛,而视频生成模子仍处于探索期。

西方证券分(fen)析师指出,在OpenAI的技术方向引领下,目前语(yu)言模子的技术路径基本(ben)就是GPT这一条路。而多模态技术方面(mian),目前没有一家公司处于相对抢先地位,技术路径仍存(cun)在探索的大(da)概。

腾讯混(hun)元多模态生成技术负责人也透露表现,文生视频整体都处于不太成熟的阶(jie)段,综合合格率都不高。

作为多模态生成中难度最大(da)的领域(yu),视频生成对算力、数据等资本(ben)要求较高,目前相较于文本(ben)、图像(xiang)成熟度更低,同时(shi)面(mian)临商业化、产品化进展较慢的挑战。

OpenAI也宣布(bu)因为算力短缺而推迟Sora的更新,导(dao)致至今尚未(wei)对外开放。

只管如(ru)此,为了更快抢占市场,客岁十一月以来,视频生成领域(yu)的成果密集落地。

停止目前,国内外不少大(da)模子厂商都实(shi)现了类Sora产品落地,包括国内MiniMax、智谱、字节、快手、爱诗科(ke)技等,海外Runway、Pika、Luma。不过(guo),因为算力和技术等因素,视频生成时(shi)长(chang)一样平常在10s以内。

? ? ? ? ? ? ? ? ?