Kling 3.0提示词写法进化史（从1.0到3.0对比）-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

Kling 3.0提示词写法进化史（从1.0到3.0对比）

作者：互联网

2026-03-11

视频生成

Kling（可灵AI）从2024年中期的1.0起步，到2026年初全面铺开的3.0系列，提示词写法经历了三次范式级跃迁：从“描述画面” → “描述动作+风格” → “导演分镜脚本+多模态指令”。

阶段对比表（核心差异一览）

版本

发布大致时间

提示词最优长度

模型最听什么

最容易崩的地方

典型提示词写法心态


Kling 1.0 / 1.5	2024年中–末	20–60词	画面主体 + 简单动作 + 风格词	复杂动作、连续镜头、角色漂移	“描述一张会动的画”
Kling 2.0–2.6系列	2025全年	60–150词	主体细节 + 运镜词 + 情绪递进 + 物理真实	长时序逻辑、多主体互动、一致性仍弱	“像拍短视频一样描述镜头语言”
Kling 3.0 / 3.0 Omni	2026年初	100–400词（多镜头）	分镜脚本结构 + 时长标注 + 主体锚定词 + 电影导演指令	不结构化、缺少主体重复锚定时仍会漂	“写给虚拟导演的分镜头剧本”

1.0时代（基础生存期）

当时模型理解能力较弱，提示词越短越好，越像Midjourney静态图描述越稳。

一只可爱的柴犬在秋天公园里奔跑，阳光洒落，卡通风格，4K

典型问题：稍微复杂一点的因果动作（如“先跳起来然后落地翻滚”）就崩，角色五官/服装全程漂移严重。

2.0–2.6时代（运镜觉醒期）

模型开始认真听运镜词（slow zoom in, dolly shot, whip pan），也初步理解情绪递进和物理模拟。

一位穿红色风衣的亚洲女刺客在雨夜霓虹街头快速奔跑，低角度手持跟拍，急速推镜头切到她的锐利眼神，蓝色粉霓虹反射在水洼上，赛博朋克氛围，电影质感，动作流畅，8K

进阶但仍有限：单镜头还能撑，超过8–10秒或想连续两个以上有逻辑关系的镜头，模型就容易“失忆”或硬切。

3.0时代（导演剧本期）——当前最强写法

核心变革：原生多镜头 + 主体一致性大幅加强 + 时长可控 + 理解复杂叙事逻辑。

现在最稳的写法是结构化分镜脚本，而不是一整段描述。

全局风格：赛博朋克电影质感，胶片颗粒，强烈霓虹色彩分级，8K，物理真实

镜头1（0-5秒）：Wide shot, 缓慢从高空俯冲而下，雨夜东京街头，穿黑色连帽雨衣的年轻亚裔女性（短发、锐利眼神、左耳银色耳钉）快速奔跑，无人机红光追逐，低角度手持跟拍

镜头2（5-10秒）：Medium tracking shot，同一女性面部特征不变，她猛拐进窄巷，急速回头，无人机逼近，她贴墙喘息，侧逆光打亮半边脸，紧张感递增

镜头3（10-15秒）：Close-up 快速切到眼睛特写，瞳孔收缩，雨滴打在睫毛，她咬牙抽出EMP装置，背景虚化只剩红蓝光斑

镜头4（15-22秒）：Over-the-shoulder，从肩后拍，她按下EMP，无人机失控坠落冒火花，镜头快速拉远到全景，她抬头望天，霓虹与火光交织，史诗收尾

3.0专属高频关键词：同一人物/面部特征不变、镜头1（X秒）、慢速推进/急速zoom out、dutch angle、rack focus、动作延续、情绪递进、电影音效设计、原生音频

以上就是小编整理的全部内容，希望对您有帮助。