Seedance 2.0 图片输入指南
了解何时使用 image-to-video,如何准备首帧和末帧,以及如何保护产品和画面的结构稳定性。
当首帧已经存在,而你的真正任务是“在不破坏原始构图的前提下加上运动”,image-to-video 往往就是 Seedance 2.0 里最合适的模式。
这让它尤其适合:
- 产品 hero shot
- 海报起片
- 静态广告素材动效化
- packshot / tabletop 镜头
- 起始构图很强的环境镜头
什么时候该选 image-to-video
满足下面任意一种情况时,优先考虑 image-to-video:
- 构图已经定了
- 产品轮廓必须保住
- 你需要的是“加运动”,不是“重新设计场景”
- 首帧价值远高于中后段自由发挥
如果你的核心目标是整段视频里的人脸、产品或手部都要稳定,那么更适合转去看 Reference 输入指南。
把首帧当成结构锚点
上传的图片不只是灵感图,它是镜头结构锚点。
更容易出好结果的首帧通常具备这些特征:
- 只有一个清晰主体
- 轮廓清楚
- 主体与背景分离明显
- 光线方向稳定
- 主体周围没有太多无关干扰
对于产品类镜头,主体在画面里要足够大,标签、材质、边缘才有机会被稳定保留下来。
什么时候加末帧
当前 image-to-video 工作流支持首帧,并可选配末帧。当你已经明确知道镜头该怎样结束时,末帧才真正有价值。
适合加末帧的情况:
- 结束构图必须可控
- 你要做 before / after 或 open / closed 状态变化
- 镜头需要从一个已批准布局走向另一个已批准布局
不要因为“有这个功能”就机械加末帧。如果首帧和末帧视觉差距太大,中间过程反而更容易断裂。
更稳的 image-to-video Prompt 模板
先引用图片,再写运动:
@Image1 [subject], [single motion layer], [camera move], [lighting/style], [constraints]示例:
@Image1 perfume bottle on dark marble, droplets slide down the glass, slow macro dolly-in, luxury studio contrast, no label blur no cap drift no extra objects之所以这个结构有效,是因为画面基础已经存在。你要做的是定义“这张静态图如何活起来”,而不是重新发明整个场景。
怎样准备更好的源图
产品类
- 一张图里尽量只放一个主产品
- 尽量用清晰源图
- 不要让反光先把标签遮住
- 道具尽量克制,除非它们对镜头确实必要
人物类
- 脸部角度清楚
- 如果后续要出现手,尽量不要把手裁得太碎
- 优先单一光源逻辑,不要混合多种冲突光线
场景类
- 地平线和建筑线条要干净
- 尽量避免画面里有太多会抢运动预算的次要元素
哪些运动更适合
image-to-video 通常更适合:
- push-in
- slow pull-back
- restrained orbit
- controlled tracking
- 轻量环境运动
它通常不太适合直接承担:
- 复杂人物表演
- 大幅姿态变化
- 强透视跳变
- 多主体交互
常见失败模式和第一修法
| 问题 | 常见原因 | 第一修法 |
|---|---|---|
| 产品形状扭曲 | 请求的运动太猛 | 放慢运动,只保留一个主产品 |
| 标签看不清 | 反光或粒子太多 | 简化场景,并加强标签相关约束 |
| 动起来但很空 | prompt 只写了物体,没写镜头 | 增加一个明确运镜和一个运动线索 |
| 中间过渡很怪 | 首帧和末帧差太大 | 先去掉末帧,或缩小过渡跨度 |
| 背景开始融化 | 次要元素过多 | 简化道具,让焦点更集中 |
什么情况下 image-to-video 比 text-only 更优
当下面这些条件成立时,image-to-video 往往更优:
- 客户已经批准了 packshot
- 视频要和现有平面广告统一
- 产品几何稳定性比场景想象力更重要
- 你本来就是从 catalog、PDP 或 lookbook 素材出发
这也是为什么很多电商测试,应该先从 image-to-video 开始,而不是一上来就 text-to-video。
更实用的迭代顺序
当结果失败时,建议按这个顺序修:
- 先简化运动
- 再简化画面
- 再加强 negative prompt
- 最后才换源图
很多团队会太早怀疑素材本身。实际更常见的问题,是镜头任务给得过大。
DeepSeek V4 Video 文档