在科技飞速发展的当下,AI生成视频技术成为了备受关注的焦点。璞雅文化作为佛山的一家文化公司,也在密切关注这一领域的动态。
当下,AI视频生成领域看似热闹非凡,但实际上却存在着诸多问题。就目前而言,现有的模型仅仅能生成“看起来像视频”的像素序列,对物理规律的理解几乎为零。比如,生成的视频中手指数量可能异常,物体穿模现象更是屡见不鲜,逻辑连贯性超过5秒就容易崩塌。所以,若想用其制作电影,目前还不太现实,不过用来制作动态表情包或广告素材倒是可行。
现在的视频AI就如同一个只会模仿动作的哑剧演员,它能模仿“喝水”的动作,但要是要求“边喝水边看书”,就会手忙脚乱,可能出现杯子穿过脑袋、书变成水的荒诞场景。其本质是时空上的像素预测,而非物理引擎模拟。因此,其落地场景适合短、平、快的内容。
可控性是目前该技术的关键所在,目前纯Text - to - Video是不可控的,必须结合Image - to - Video(首帧控制)或Pose - to - Video(动作控制,如ControlNet for Video)。
在工作流程上,可以先用Midjourney生成分镜图,再用Runway Gen - 3或Pika让图片动起来,最后用Topaz Video AI提升分辨率和帧率。
在技术栈方面,Stable Video Diffusion (SVD) 和AnimateDiff是开源界的主力,值得重点关注。