Seedance 2.0 Reference 输入指南

学会在 Seedance 2.0 中更有效地使用 1 到 3 张 reference 图片，锁定身份、产品几何和场景一致性。

Reference-to-video 不是“多上传几张图的 image-to-video”。它真正适合的场景，是稳定性本身就是任务目标。

在当前 Seedance 2.0 工作流里，reference 路径主要围绕 1 到 3 张参考图 来构建。只要每张图职责明确，这已经足够覆盖大多数实际场景。

什么时候该选 reference-to-video

当你最怕的是“漂”，就应该优先考虑 reference-to-video：

脸变了
产品形状变了
手一碰物体就坏
服装和道具开始乱变
多次重试之间失去连续性

如果你只是想把一张静态图动起来，image-to-video 更简单。只有当连续性比简单更重要时，reference-to-video 才是更优解。

给每张 reference 明确分工

最稳的 reference 工作流，通常会这么分配：

参考图	最适合承担的角色
Image 1	主身份锚点或主产品锚点
Image 2	辅助角度、服装、或产品细节
Image 3	可选的色彩、环境、或第二层连续性提示

不要上传 3 张在姿态、光线、风格上互相打架的图。reference 变多只有在它们彼此一致时才有帮助。

什么样的 reference 组合更强

好的 reference 组应该在你想保留的维度上保持一致：

同一个人或同一个产品
光线逻辑兼容
风格兼容
画质层级接近

它们最好不要在这些方面明显冲突：

年龄感或脸型
产品比例
服装颜色
镜头距离

一旦 reference 之间冲突，模型就会尝试“求平均”，漂移往往就是从这里开始的。

reference 模式下更稳的 Prompt 结构

在 reference 模式里，顺序要稍微变一下：

先写清楚什么必须稳定
再定义动作
再给一个运镜
再写风格
最后写约束

示例：

@Image1 creator identity remains consistent, holds the skincare bottle near the face, subtle push-in, soft daylight beauty review setup, no face drift no finger artifacts no bottle shape change

和普通写法最大的不同是：一致性规则要放在氛围前面。

什么情况下 reference 模式更合适

下面这些情况，reference-to-video 通常更合适：

创作者本人必须可识别
产品 demo 高度依赖形状准确
手要接触主产品
多次重试必须保持品牌连续性
你打算把多个短片段拼成一个序列

这对下面这些场景尤其重要：

UGC 广告
美妆 demo
包装类镜头
时尚配饰
创作者讲解类视频

最常见的 reference 使用错误

想用 reference 去解决一个本质上是 prompt 的问题

如果场景本身就很模糊，reference 救不了。你仍然需要：

一个明确动作
一个明确运镜
一个清楚的视觉主次关系

一个镜头里塞太多视觉企图

reference 模式的强项是保护连续性，不是让模型一次性把所有事都做完。镜头越窄越稳：

一个动作
一个主主体
一个画面焦点

忘记保护手部

只要画面里有手，就要在 negative prompt 里明确约束。reference 存在，不等于手部自动稳定。

一个简单好用的 reference 工作流

创作者类

Image 1：清晰的人脸和上半身锚点
Image 2：产品持握或服装补充
Prompt：只做一个说话或持物动作

产品类

Image 1：干净的 hero packshot
Image 2：另一角度或材质细节
Prompt：只做一个 reveal 或一个 hold，不要直接写成完整广告片

角色类

Image 1：身份锚点
Image 2：服装或轮廓补充
Image 3：如果不冲突，可补环境色调

常见失败模式与修法

问题	常见原因	第一修法
脸在帧间变化	reference 冲突或动作太大	降低姿态变化，换成更清晰的主锚点
产品形状漂	运镜太复杂	简化运动，并明确写几何稳定
手还是容易坏	手部动作太夸张	改成更简单的手势，并加强手部约束
结果很稳但很僵	一致性规则压得太重	保留锁定规则，再只加一层轻微运动

什么时候该从 reference 模式退出来

如果你发现结果已经足够稳定，但画面太僵，通常说明当前问题已经不是连续性了。这时可以：

如果首帧最重要，切回 image-to-video
如果需要更大创意空间，切回 text-to-video

reference 模式最适合的前提，是“身份稳定”仍然是第一目标。