bibo必博抱着试探的想法,身为深圳商报员工的我,在自己部门的基础上组建了一支临时的AI视频创作团队,想切身体会一下未来创作者们的感受。
去年10月左右,我当时便想制作一部AI影视作品。如果没有记错,当时Runway刚刚发布了自己的第一代视频模型GEN1。更早之前,围绕着Stable diffusion,众多机构和爱好者也发布了一系列开源的AI视频插件和节点。
今年年初,Sora的一系列测试视频彻底将AI视频制作的热情彻底点燃起来了。不少兄弟单位和同行都相继推出了自己的AI视频作品。这显然让更早介入AI内容生产的小伙伴们感到多少有些“坐立不安”,而反应最为激烈的其实是离AI内容生产更远一些的导演。
参会前,我们先广泛收集了目前网络上反响较为不错的AI影视作品,然后在餐桌上逐一展示和讨论。
大家普遍认为,目前的AI视频,其实大多数都是一些类似“PPT”的画面拼接——人物没有动作,镜头缺乏运动;仅在大场景中的有烟、云、水等一些环境物体发生变化和运动。
会上,两位导演——叶智斌、曾亚终于提出了项目目标:要做有故事的超现实科幻内容,要做有大幅运镜的视频,要让AI人物真正动起来。
导演的雄心壮志固然热血,但当时我内心却非常忐忑——受限于自己年老失修的2070显卡,推理一个2秒视频都需要耗费将近30分钟——所以,我虽然对AI图像内容生成接触较深,但对AI视频确实研究有限。
当然,于我同样有顾虑的还有部门副主任何丹,为免于打击创作热情,她稍微修正了一下目标:为避免因为难度过大,导致项目搁浅,不要做故事内容,就做以展示人物动作、镜头运动为主的超现实科幻AI MV。
当然,大部分与传统影视行业相差无几——导演、制片、剪辑、美术等等,大概4-5人,是个规模极小的团队。
虽然我是项目发起人,但在实际工作中却担任了AI影视项目中的一个全新岗位:提示词工程师。
提示词工程师需要对AI大模型、微调模型(lora)有一定的了解,熟悉它们的能力、参数设定等等。至少不能拿一个擅长国画的模型,来硬出3D风格作品,以至于效果不达标。
除此之外,对于开源视觉模型,提示词工程师还需要熟知工作流的搭建,最后协调不同的AI模型统一协作并最终完成作品。
所以,提示词工程师是项目当中唯一能精准地与AI进行交流的岗位;这个人虽然不是理工生,却要搭建起代码世界与文艺创作之间的桥梁。
然而,影视作品是一个综合工程,不但要对镜头进行处理,还要对声音、图像、人物、动作等进行处理。
也就是说传统影视拍摄中的灯光、演员、化妆、服装、场景搭建、摄影、音乐等等多个工种都将在AI MV制作中简化成一个岗位。
最初,我们项目中并没有音乐监制这个角色,其实这也为以后项目的多次返工埋下了伏笔。也再次印证了我之前的认识——在使用任何专业方向的AI模型时,提示词工程师最好是有相关专业知识背景,或者要有监制从旁辅助。
由于没有歌曲创作经验,我们按照写作习惯,让AI起草了歌词。通过对结果的多次修正以后,导演对歌词表示了认可,并快速写出了文字剧本。
一天以后,美术监制汤亦也根据导演的剧本给出了分镜草稿,作为提示词工程师工作的依据。
同时给到的还有根据导演要求,撰写的关于画面质量的一些具体描述:亮面偏暖,暗面偏冷,画面空气感较强,整体以亮色为主,色温是6500K。
接下来,就是创作静态画面的工作,要让AI生成服装、道具、人物、场景等诸多图片,为视频制作的AI提供生产依据。
为节省时间,也因为计算机硬件不达标,最开始我们尝试使用的是国内外各种已经开发并包装好的AI视频工具。
然而,这些由于缺乏可控性或功能单一等种种原因。这些宣传效果极佳的AI视频工具,在实际使用过程中表现出了各种动作随意、画面崩溃等各种问题。
尝试了大概3-4种Ai工具结果都是相似的:基本上耗完所有购买的使用次数,才能得出寥寥几个勉强能让导演满意的镜头。人物动作、镜头移动就更不用说了,基本无法达标。
开源的AI模型控制插件或节点更多,也能联合多个模型一起工作。但是,插件或节点的作者往往是根据自己的爱好和方向来进行制作和更新,并不会对节点间的冲突负责,也没有所谓的售后服务。
这就意味着,不但要在搭建工作流上煞费苦心,还需要临时中断项目进程,来解决各种莫名其妙的报错问题。
在这个项目中bibo必博,最长的一个报错耗费了我将近三天时间来逐个排查模型、插件、检测器之间的问题,去网上搜索关于这些问题解决的蛛丝马迹。
最终我们还是成功搭建起了三套工作流分别来完成转场特效、人物动作、人物表情。大场景描述,还是交给了网上的AI工具。
就这样,原本预期一个星期完成的项目,至此已经过了一个月。而我们最终完成项目制作还需要一个月。
我需要对照导演的脚本和分镜头剧本,控制每一个镜头,把相应的提示词和参数调整好,甚至需要将眨眼、睁眼等动作提示到具体的每一帧画面上。
然后,通过一个个预览窗口观察每一次画面生成的变化,然后决定继续让AI生成或是停止工作调整参数及提示词。
与初期众多小伙伴们共同商议期间不同,正式生成时就只剩下了我一个人。这也是AI影视制作的一个特点——没有摄制现场,也不需要所有工种到齐开拍;导演也不需要喊“Action”“Cut”——我们的拍摄地点就微信群上,我只需要将AI生成好的镜头发到群里,等待导演观看后提出建议即可。
为了平衡性价比,我们选择了使用对画面细节会有一定损失的加速模式,但即便这样一个6秒左右的镜头AI从初稿到修复也需要十几分钟。
我的时间被彻底碎片化,这种眼睛既可以可以离开又不能离开太久的工作模式,导致我往往打开十多个网页、多个应用程序,在工作期间来回横跳。实际一天制作下来,感觉头晕脑胀。
但不得不说,一旦步入生产正轨,相比实拍影片,AI的拍摄的效率真是直线上升。同时,AI的介入也彻底解放了拍摄者,让导演可以同时在多个影片中执导。
只是对于我来说,到生产中以后多少有些枯燥乏味,与大家以为的AI生产充满创意和挑战不同,我觉得未来AI影视普及后可能更多的是重复性地劳动。
很可惜,音乐监制徐乐娜直到最后阶段才加入团队。因此,尽管她提出了很多非常好的建议,也让AI生产的音乐终于上了一个台阶。但终因返工成本太高,导致无法与大家分享了。
最后,影片在接近两个月断断续续反反复复地制作,生产了300多个镜头、100多首风格迥异的歌曲之后,MV终于完成了。
受制于团队本身的技术能力以及硬设备,影片有不少缺陷。但最终我们还是成功实现了人物运动和镜头运动,也提前体验了一把未来影视行业可能会发生的变化。