Google 的 Veo 3可根据文本提示生成带有音频的视频。音频可以是对话、画外音、音效和音乐。
让我们的常驻 AI 播客为我们介绍一下:
提示:一档播客节目,一位身穿灰色毛衣、深棕色凌乱头发盘成高髻的女士,直视镜头,几缕头发勾勒出她的脸庞。她对着麦克风说道:“这是 Replicate 的 Veo 3 提示指南……”
写下发生的事情
首先是基础知识。精心设计的提示是生成优质视频的关键。您在提示中用通俗易懂的语言描述得越详细,Veo 3 就越容易理解并生成您想要的视频。
尝试在提示中包含以下视觉元素:
- 主题:场景中的人物或事物 — 人、动物、物体或风景。
- 语境:拍摄对象在哪里?室内?城市街道?森林?
- 动作:你的拍摄对象是在走路、跳跃还是转头?
- 风格:您所追求的视觉美感(电影、动画、定格动画等)。
- 摄像机运动:描述摄像机的移动方式:空中拍摄、视线水平、自上而下或低角度。
- 构图:镜头的构图方式:广角镜头、特写等。
- 氛围:情绪和灯光。你可以使用“暖色调”、“蓝光”或“夜间”等词语。
您还需要包含音频元素,我们将在下面详细介绍。
以下是基本提示与详细提示的示例:
一名男子接听旋转电话
相对:
摇晃的推拉变焦镜头从远处的模糊画面过渡到特写镜头,画面中一位身穿褪色绿色风衣的绝望男子正拿起挂在粗糙砖墙上的旋转拨号电话,电话沐浴在绿色霓虹灯诡异的光芒中。变焦镜头展现了他挣扎着打电话时脸上的紧张与绝望。浅景深聚焦于他紧锁的眉头和黑色的旋转拨号电话,将背景模糊成一片霓虹色和模糊阴影的海洋,营造出一种紧迫感和孤独感。
第二个提示包含结构元素,以推动 Veo 3 走向我们试图创建的场景。
每次更改提示
如果您熟悉 Midjourney 或Flux等提示模型,您就会知道,使用这些模型,如果您运行相同的提示几次(即使用不同的种子),您将获得相当程度的变化。
Veo 3 则不同。对于相同的提示,即使是相当简单的提示,Veo 3 也会输出非常相似的结果。你可能会在类似的场景中看到穿着相同衣服的同一个人。如果输出结果出现轻微错误(例如连贯性或音频故障),这非常有用——你可以运行不同的种子来获得你想要的结果。但如果你处于探索模式,想要查看各种可能的结果,那么多次运行相同的提示就是浪费金钱。
在下面的例子中,我们用不同的种子运行了两次“一个女人笑了”这个提示。请注意,她的长相和她一样,穿着同样的衣服,笑的方式也一样,房间也一样,甚至戴着同样的耳环。一个模型能如此一致,实属罕见。
如果你还不确定自己想要什么,可以先从几个大致不同的问题开始。如果你已经了解了自己想要的元素,那么就具体地描述它们。
在这个视频中,我们可以做的显而易见的事情就是开始播放以下描述:
- 女人的长相(头发颜色、发型、肤色)
- 她穿什么
- 她在哪里
- 她笑得怎么样
- 她为什么笑
以下是几个示例:
一位女士在办公室开会时大笑了很久,之后她感到很尴尬一位女士轻声笑着,她正在家里看电视节目
角色一致性
通常,当您使用没有起始帧或场景素材的视频模型时,很难保持角色的一致性。这些功能即将在 Veo 3 中推出。
与此同时,由于类似的提示会产生类似的角色,如果你保持角色的详细提示描述在各个世代之间保持一致,你通常会得到一个长得一样的角色。这意味着你可以保存一个角色描述列表,并在不同的提示中逐字重复它们:
约翰,一位 40 多岁的男子,留着棕色短发,身穿蓝色夹克,戴着眼镜,一脸若有所思
这些描述越独特、越具体,Veo 3 就越能保持单独生成的场景之间的视觉连续性。请创建措辞精准的角色参考表,以确保一致性。
约翰,一位四十多岁的男子,留着棕色短发,身穿蓝色夹克,戴着眼镜,若有所思地说:“你好,我也是约翰,我看起来和那边那位(没有字幕!)的家伙有点像。” 他身处一间明亮的房间里。约翰,一位四十多岁的男子,留着棕色短发,身穿蓝色夹克,戴着眼镜,若有所思,他说:你好,我叫约翰,我是这篇博文中虚构的人物(没有字幕!)
提示音频
由于 Veo 3 会在播放每个视频时生成音频,因此您还需要提示您想听到的音频。请考虑以下因素:
- 人们在说什么(对话)
- 场景的环境噪音(繁忙的街道、繁忙的办公室、繁忙的咖啡馆等的声音)
- 场景外的音效或噪音(如电话铃声)
- 场景可能需要的任何音乐(紧张的电影配乐、欢快的流行歌曲等)。
提示对话并避免字幕
用 Veo 3 创造的角色非常吸引人。他们会说话、讲笑话、做手势,有时还会表演。但如果你想让他们说话,你需要提示他们。
您可以通过两种不同的方式来引发对话:
- 明确地说:“一个人说:我叫本”
- 含蓄地:“一个人告诉我们他的名字”
这两种方法都会导致一段男人说话的视频,第一种方法会使用你要求的确切词语,第二种方法会让模特决定如何说,在这种情况下,模特会为你决定一个名字。
编写自己的对话
如果你要明确表达自己的想法,尽量保持对话简短。最好在8秒左右就能说完。
如果你试图塞入太多内容,最终角色可能会语速过快。如果你要求角色说得太少,要么会陷入尴尬的沉默,要么角色会说出毫无意义的AI胡言乱语(例如下面的第二个例子)。如果没有明确的指导,模型将无法拼凑出所有需要的单词。
约翰是一位 40 多岁的男子,留着棕色的短发,身穿蓝色夹克,戴着眼镜,看上去若有所思,他说:你给了我一个很长的提示,我必须非常快速且不自然地说话,试图在 8 秒内说出所有这些话,最后我会上气不接下气,唷。太短(并且带有 AI 胡言乱语):约翰,一个 40 多岁的男人,留着棕色短发,身穿蓝色夹克,戴着眼镜,看起来若有所思,他说:你好,我是约翰。
让 Veo 3 编写对话脚本
如果你不擅长写对话,隐式对话提示会有所帮助。而且,你随时可以转录你喜欢的输出,以便在以后的提示中使用。
这里我们让 Veo 3 制作一段单口喜剧演员讲笑话的视频。首先,我们让 Veo 3 决定笑话的内容。在第二个视频中,我们让 Veo 3 尝试讲出我们在提示中提出的笑话。
一位单口喜剧演员在音乐节上讲了一个尴尬的笑话,远处乐队的声音,喧闹的人群,热闹的音乐节场地的环境背景(没有演播室观众)一位脱口秀喜剧演员在音乐节上讲了一个尴尬的笑话:你知道音乐节的精彩之处是什么吗?看着两万人假装他们今天之前就认识这个乐队,同时拍摄他们永远不会看的垂直视频。
如您所见,只要给出正确的提示和所有适当的上下文,Veo 3 就可以为您填写对话。
您可以尝试以下提示来了解 Veo 3 在对话方面的多功能性:
- 一位单口喜剧演员讲了一个笑话
- 两个人讨论一部电影
- 一名男子正在电话里争吵
- 一位女士向我们讲述她的人生故事
发音正确
有时你会发现模型发音不正确。最简单的解决方法是按照语音拼写单词。在开头的例子中,我们的播客说:
继续阅读,了解 fofr 和 Shridar 制作视频的指导
但为了得到我们名字的正确发音,我们必须将提示改为:
继续阅读,了解 foh-fur 和 Shreedar 制作视频的指导
谁说了什么
当你在多个角色之间进行对话时,你有时会发现 Veo 3 会混淆彼此的对话。当角色描述相似时,这种情况很常见,Veo 3 很难分辨出哪个角色是哪个。
尝试在提示中具体说明谁在说话:
穿粉色衣服的女人说:但我才是穿粉色衣服的人
戴眼镜的男人回答说:不,我就是戴眼镜的那个
避免输出字幕
Veo 3 肯定接受过大量内置字幕视频的训练,因为输出中经常会出现拼写错误或字幕不正确的情况。这些情况通常会毁掉一代作品,但有一些简单的方法可以避免:
- 将您想听的讲话放在冒号后面,例如:“一个人说:我的名字是本”,而不是放在引号中,例如:“一个人说:'我的名字是本'”
- 在提示中输入“(无字幕)”,否定词在 Veo 3 提示中效果很好
- 如果其他方法都失败了,就一直说“没有字幕”。“没有字幕!”好几遍。
错误的背景音频(或不受欢迎的现场演播室观众的情况)
如果你没有明确视频中想要的背景音频,Veo 3 就需要自己处理,通常情况下这没问题,但有时也会出错。现场演播室观众是常见的幻觉。有时它正是你想要的,比如一部伪情景喜剧。但通常情况下,额外的笑声与场景不符。Veo 3 在制作上述示例时也遇到了这个问题,下面是一个不合适的演播室观众毁掉一代人的例子:
背景中不受欢迎的演播室观众笑声示例。提示:“一位单口喜剧演员在音乐节上讲了一个尴尬的笑话。”
避免这种情况最简单的方法是明确提示你希望听到的音频。在这种情况下,我们通过添加“远处乐队的声音、喧闹的人群、热闹的节日场地的环境背景”来修复生成问题,以便在输出中获得正确的感觉。
提示音乐
就像视频的其余部分一样,如果您希望场景中有音乐,则需要将其包含在提示中。
再次强调,您可以明确描述您想听的音乐的类型、风格和氛围。或者,您也可以含糊其辞,让 Veo 3 来决定。
样式
开箱即用的 Veo 3 通常会生成一些看起来像制作精良的实景视频的东西,比如流畅的专业演示、商业广告或音乐视频。
如果你想避免这种情况,你需要在提示符中添加一个样式。以下是 Veo 3 可以生成的一些样式示例,提示符如下:
风格类似[风格名称]:一位身穿法兰绒衬衫和破旧牛仔裤的蓄着胡须的男子盘腿坐在摇曳的篝火旁,琥珀色的火光在寂静的林间空地上,投下柔和的舞动光影,洒满松针。在他对面,就在火光边缘之外,站着一头巨大的灰熊,平静而安详,皮毛反射着温暖的光芒,眼睛里闪烁着诡异的智慧,映照着火焰。两人握手,仿佛是老友一般。
您会注意到,不仅视频的外观发生了变化,而且角色的移动和互动方式也发生了变化。
在每一种情况下,音频都保持非常相似,我们没有对音频进行不同的提示,而且不同风格之间也没有太大的变化。
原始视频乐高黏土动画南方公园皮克斯动画8位复古图画小说折纸辛普森一家蓝图日本动画片大理石
相机运动
正如您所料,与其他视频型号一样,Veo 3 对常见的摄像机移动提示反应良好。使用以下术语,您可以控制视频中的动作:
- 视线高度
- 高角度
- 虫眼
- 推车拍摄
- 变焦拍摄
- 摇摄镜头
- 跟踪镜头
放大缩小从左到右平移推莉拍摄
自拍风格的视频
Veo 3 的自拍视频效果出奇地好,看起来非常逼真。我们发现某些短语似乎可以持续解锁这种功能。
以“…的自拍视频”开头比仅仅描述一个人拿着相机效果要好得多。
让手臂清晰可见是保证真实感的关键。大猩猩的例子很好地体现了这一点,“它把相机举到一臂远的地方。它那修长有力的手臂在画面中清晰可见。” 正因如此,它看起来更像是一张真正的自拍照,而不是特写镜头。
自然的眼球运动也大有裨益。东京的例子就体现了这一点,“偶尔看一眼摄像头,然后再转身指向有趣的摊位”。这种自然的扫视行为比直视摄像头效果更好。
以下两个示例展示了其工作原理:
一位旅行博主自拍了一段视频,记录了她探索东京熙熙攘攘的街头市场。她身穿复古牛仔夹克,眼神中流露出兴奋。午后的阳光在摊位之间投下美丽的光影。她一边品尝着不同的街头小吃,一边聊天,偶尔会看向镜头,然后转身指着一些有趣的摊位。画面略显颗粒感,看起来很像胶片。她操着一口英国口音说道:“好吧,你来东京一定要尝尝这里。这里的章鱼烧真是太好吃了,摊主刚告诉我,他家的章鱼烧已经传承了三代。” 最后,她竖起了大拇指。
一张手持自拍风格的照片,以茂密丛林中一只大猩猩的视角拍摄。一只体型庞大的银背大猩猩将相机举到一臂之遥。它修长有力的手臂清晰可见,脸部也完美地融入画面。大猩猩说道:“我只是在测试一下这个功能是否有效,我稍后会把它发布到抖音上,感觉它很可爱,之后可能会删掉。”(嘴唇动了动,像是在说这句话)
东京旅游博主大猩猩自拍
东京的例子还表明了一点:加上“图像略有颗粒感,看起来很像胶片”的字样,似乎会让输出结果偏离AI那种过于干净的视觉效果。最终看起来更像是用手机实际拍摄的。
如何使用 Veo 3 制作垂直视频
目前 Veo 3 本身不支持竖屏视频,只能播放 16:9 的横屏视频。不过,你可以拍摄一段横屏视频,然后使用Luma 的 Reframe Video之类的模型进行渲染。
Reframe 视频功能允许您传入任意视频(最长 30 秒),并以指定的宽高比将其绘制成新视频。所有输出均为 720p。
重新构图为 9:16 垂直视频的 Veo 3 视频
Veo 3 即将推出对垂直视频的原生支持。
物理
Veo 3 擅长模拟逼真的物理效果,在应用不同风格时保持适当的运动和交互。该模型保留了物体的自然运动,确保基于物理的动画(例如跌落、弹跳和流体运动)即使转换为不同的艺术风格也能保持物理准确性。
乐高折纸铬合金画
升级至 4k 和 60fps
Veo 3 默认输出 1280p x 720p 视频。我们建议使用Topaz Lab 的视频升频器,将您的视频提升至 4k 分辨率和 60 帧/秒。
结语
平淡无奇的视频和精彩绝伦的视频之间的区别,取决于你的提示。使用 Veo 3,你不仅仅是在描述发生了什么,而是在导演一个场景。高质量的视频会将主题、场景、动作、镜头、音频和氛围进行层次化。像电影制作人一样思考,Veo 3会跟随你的指引。
最后提示:
一档播客节目,一位身穿灰色毛衣、深棕色凌乱发髻的女士,发丝点缀着她的脸庞。她身处一间粉色和金色灯光的房间。没有字幕。她正在做结尾,直视镜头,对着麦克风说着(没有字幕!):我们的指南到此结束,希望对您有所帮助。


