可灵大模型是什么?
可灵大模型是由快手大模型团队自研打造的视频生成大模型,具备3D时空注意力机制,能生成长达2分钟、30fps的1080p高分辨率视频,且支持多种宽高比。它能模拟真实物理世界,转化用户想象为具体画面,并支持多种视频宽高比,适用于多样化的视频制作和内容创作需求。
此外,基于“可灵”大模型,未来还将有更多应用方向即将落地,近期将首发“AI唱跳’新玩法,可以同时驱动表情和肢体动作,仅需- -张照片就能生成“唱跳”视频。
产品特性
大幅度的合理运动
可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。
长达2分钟的视频生成
得益于高效的训练基础设施、 极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视频,且帧率达到30fps。
模拟物理世界特性
基于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。
强大的概念组合能力
基于对文本-视频语义的深刻理解和Diffusion Transformer架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的的场景。
电影级的画面生成
基于自研3D VAE, 可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。
支持自由的输出视频宽高比
可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需求。
应用场景
影视制作
用于生成电影或电视剧中的特效场景,减少实景拍摄成本。
社交媒体
用户可以创作独特的视频内容,用于社交媒体平台分享。
艺术创作
艺术家和设计师使用可灵大模型来实现他们的创意构想。
广告行业
设计吸引人的广告内容,通过高质量的视频广告提升品牌影响力。
虚拟现实(VR)和增强现实(AR)
创造沉浸式体验,提供逼真的虚拟环境和元素。
游戏开发
生成游戏内的场景和动画,提供更加丰富和动态的游戏体验。
新闻媒体
快速生成新闻报道中的动态图像和背景视频。
可灵大模型的高自由度和强大的生成能力使其成为多个行业创新和内容创作的有力工具。
官网
链接:https://kling.kuaishou.com/
目前,可灵大模型已在快影App中开放邀测体验。基于“可灵”的文生视频功能位于“快影’App首页的“AI创作”模块下的‘“Al生视频”页面,目前处于限时内测免费的状态,用户可以申请体验。