DeepSeek V4 Video Official Logo - Next-Gen AI Video SynthesisDeepSeek V4 Video 文档

Seedance 2.0 Reference 输入指南

学会在 Seedance 2.0 中更有效地使用 1 到 3 张 reference 图片,锁定身份、产品几何和场景一致性。

Reference-to-video 不是“多上传几张图的 image-to-video”。它真正适合的场景,是稳定性本身就是任务目标

在当前 Seedance 2.0 工作流里,reference 路径主要围绕 1 到 3 张参考图 来构建。只要每张图职责明确,这已经足够覆盖大多数实际场景。

什么时候该选 reference-to-video

当你最怕的是“漂”,就应该优先考虑 reference-to-video:

  • 脸变了
  • 产品形状变了
  • 手一碰物体就坏
  • 服装和道具开始乱变
  • 多次重试之间失去连续性

如果你只是想把一张静态图动起来,image-to-video 更简单。只有当连续性比简单更重要时,reference-to-video 才是更优解。

给每张 reference 明确分工

最稳的 reference 工作流,通常会这么分配:

参考图最适合承担的角色
Image 1主身份锚点或主产品锚点
Image 2辅助角度、服装、或产品细节
Image 3可选的色彩、环境、或第二层连续性提示

不要上传 3 张在姿态、光线、风格上互相打架的图。reference 变多只有在它们彼此一致时才有帮助。

什么样的 reference 组合更强

好的 reference 组应该在你想保留的维度上保持一致:

  • 同一个人或同一个产品
  • 光线逻辑兼容
  • 风格兼容
  • 画质层级接近

它们最好不要在这些方面明显冲突:

  • 年龄感或脸型
  • 产品比例
  • 服装颜色
  • 镜头距离

一旦 reference 之间冲突,模型就会尝试“求平均”,漂移往往就是从这里开始的。

reference 模式下更稳的 Prompt 结构

在 reference 模式里,顺序要稍微变一下:

  1. 先写清楚什么必须稳定
  2. 再定义动作
  3. 再给一个运镜
  4. 再写风格
  5. 最后写约束

示例:

@Image1 creator identity remains consistent, holds the skincare bottle near the face, subtle push-in, soft daylight beauty review setup, no face drift no finger artifacts no bottle shape change

和普通写法最大的不同是:一致性规则要放在氛围前面。

什么情况下 reference 模式更合适

下面这些情况,reference-to-video 通常更合适:

  • 创作者本人必须可识别
  • 产品 demo 高度依赖形状准确
  • 手要接触主产品
  • 多次重试必须保持品牌连续性
  • 你打算把多个短片段拼成一个序列

这对下面这些场景尤其重要:

  • UGC 广告
  • 美妆 demo
  • 包装类镜头
  • 时尚配饰
  • 创作者讲解类视频

最常见的 reference 使用错误

想用 reference 去解决一个本质上是 prompt 的问题

如果场景本身就很模糊,reference 救不了。你仍然需要:

  • 一个明确动作
  • 一个明确运镜
  • 一个清楚的视觉主次关系

一个镜头里塞太多视觉企图

reference 模式的强项是保护连续性,不是让模型一次性把所有事都做完。镜头越窄越稳:

  • 一个动作
  • 一个主主体
  • 一个画面焦点

忘记保护手部

只要画面里有手,就要在 negative prompt 里明确约束。reference 存在,不等于手部自动稳定。

一个简单好用的 reference 工作流

创作者类

  • Image 1:清晰的人脸和上半身锚点
  • Image 2:产品持握或服装补充
  • Prompt:只做一个说话或持物动作

产品类

  • Image 1:干净的 hero packshot
  • Image 2:另一角度或材质细节
  • Prompt:只做一个 reveal 或一个 hold,不要直接写成完整广告片

角色类

  • Image 1:身份锚点
  • Image 2:服装或轮廓补充
  • Image 3:如果不冲突,可补环境色调

常见失败模式与修法

问题常见原因第一修法
脸在帧间变化reference 冲突或动作太大降低姿态变化,换成更清晰的主锚点
产品形状漂运镜太复杂简化运动,并明确写几何稳定
手还是容易坏手部动作太夸张改成更简单的手势,并加强手部约束
结果很稳但很僵一致性规则压得太重保留锁定规则,再只加一层轻微运动

什么时候该从 reference 模式退出来

如果你发现结果已经足够稳定,但画面太僵,通常说明当前问题已经不是连续性了。这时可以:

  • 如果首帧最重要,切回 image-to-video
  • 如果需要更大创意空间,切回 text-to-video

reference 模式最适合的前提,是“身份稳定”仍然是第一目标。

相关指南