在Sora王炸面世后,挑战者正在前赴后继地涌现,其中不乏国产大模型的身影。
6月21日,澎湃新闻记者独家获悉,快手可灵大模型发布重磅更新:正式开放图生视频功能,支持将静态图像转化为5秒钟视频,用户可通过提示词文本控制图像中物体的运动;同时推出视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成约3分钟视频。
今年6月,快手发布自研的视频生成大模型可灵,可支持生产最高达120秒的视频,在快影App开放邀测体验,目前累计已有约14万人申请内测。
作为视频生成模型,可灵最直接的竞争对手无疑是Sora。今年2月15日,OpenAI披露了“文生视频”模型Sora的研发进展,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及多个角色,也可以根据静态图像制作动画。
消息一出,曾经引发AI行业“地震”,成为全网舆论热议话题,Sora也一度成为国产大模型的对标方向。
从视频长度来看,此次可灵的续写能力加持下,最终可支持用户创作长达约3分钟的视频,这也是在可灵披露实现120秒钟的单次视频生成后,再次披露长时间的视频生成能力。
根据快手方面介绍,此次推出的续写功能可以实现一次性让视频运动延续约5秒,文生视频和图生视频结果均可支持。凭借对物理世界的理解,该功能不仅能够理解前一段视频的运动,生成符合物理规律的连续运动,而且能实现较大幅度的动态变化。
通俗而言,用户使用可灵大模型可以通过文生视频和图生视频两种模式,生成约5秒钟视频,此后可使用视频续写功能,每次续写都能将视频延续约5秒,最终可实现长达3分钟的视频。
此外,每一段续写都能够融入用户的创意和想法,还能实现转换和场景过渡功能,用户可对每一段延长的视频添加不同提示词,生成连续长视频。
例如同一个古堡视频,既可以生成“太阳落下去,天空变暗”再“太阳升起来,天空变亮”的续写视频,也可以呈现从“太阳落下去,天空变暗,灯光亮起”到“灯光亮起,雾气出现”的不同变换效果。
在腾讯、抖音、百度等多家互联网大厂角逐的视频生成赛道,业内已经将快手视作Sora的有力挑战对手。
在2024年北京智源大会上,DiT论文作者、纽约大学助理教授谢赛宁曾和Sora及Dall-E团队负责人阿迪蒂亚·拉梅什(Aditya Ramesh)谈及快手可灵大模型,并询问拉梅什如何看待其与Sora的竞争。
对此,拉梅什曾回应称欢迎竞争,“很高兴看到其他实验室或公司也在发布视频生成模型。我认为,越来越多的人采用不同的方法在这个领域前进,可以激发行业的创造力。在视频生成领域看到有趣的产品创新也很棒。”
在财报中,快手也曾多次披露大模型相关进展,电话会议上,程一笑曾表示,今年一季度,快手稳步推进自研大模型各项性能的迭代提升,并且加快大模型在各业务场景的应用。
国内互联网大厂正在扎堆布局视频生成领域。
4月27日的2024中关村论坛年会上,清华大学联合生数科技正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu,不过,Vidu的16秒与Sora的一分钟仍存在算力和工程方面的巨大差距。
3月15日,腾讯和清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”。基于输入模型的图片,用户只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。从时长来看,相关视频时长为10秒钟。
去年开始,字节正式组建Flow部门,专注于AI大模型的应用研发。字节产品与战略副总裁朱骏和字节技术副总裁洪定坤分别担任部门的产品负责人和技术负责人。今年4月,字节提拔AI部门的负责人,现由朱文佳整体负责字节AI业务,向字节跳动CEO梁汝波汇报。
2月,有传言称,字节跳动在Sora引爆文生视频赛道之前,已经在研发“中文版Sora”:一款名为Boximator的创新性视频模型。
当时,字节跳动相关人士曾告诉澎湃新闻记者,Boximator是视频生成领域控制对象运动的技术方法研究项目。目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
还没有评论,来说两句吧...