上海交大推出世界叙事模型，沪上影视工业锚定技术话语权

在AI视频生成技术快速渗透影视制作行业的当下，专业创作者普遍陷入一种被称为“抽卡”的低效循环：输入一段描述镜头语言的文本指令，等待数十秒后获得一段视频，检查画面、发现问题、修改指令、重新生成，再检查，再发现新的问题。

上海交大团队在前期调研中统计了一组数据：专业创作者使用主流视频生成模型时，为获得一个符合基本要求的镜头，平均需生成20至50次；在追求高精度控制的精品制作中，成功率不足50%。行业将这种低效循环称为“抽卡”——像极了手机游戏里玩家为了一张稀有卡牌反复氪金的行为。

7月3日，上海交大张文军院士团队的倪冰冰教授发布“世界叙事模型”（World Narrative Model, WNM）。这个被团队称为“为视频基模装上专业方向盘”的模型，试图终结的正是这种“概率赌博”式的创作困境。

当“黑盒”遇见新模型

要理解WNM的定位，需先看懂当下AI视频生成是如何工作的。

倪冰冰在接受第一财经专访时指出：市面上大多数文生视频AI本质是“神经渲染器”——输入文字或图片，直接生成动态画面，靠数据自学光影、镜头和运动规律。这种端到端模型的工作原理，相当于一个“黑盒概率采样器”：输入稀疏文本指令，输出高维稠密像素矩阵。中间发生了什么？没人知道，也没人能干预。

“导演想要一个镜头，模型给出一堆像素。中间缺少对物理世界的显式建模——场景的几何结构是什么？物体的运动轨迹怎么走？灯光从哪个角度打？这些在端到端模型里全是隐式的、不可控的。”倪冰冰对记者表示。

WNM的思路是把这个黑盒拆开，拆成两半：一半是控制器，即世界叙事模型本身；另一半是绘图器，由现有的视频生成大模型（如Kling、Seedance、Wan等）担任。

控制器承担的是理解物理世界、规划叙事结构的职能。它将导演的创作意图——包括剧本、分镜、参考图——自动转化为包含场景几何、人物骨骼、道具摆放、动作动线、运镜轨迹、灯光参数等维度的结构化物理参数序列。这些参数构建出一个完整的、可编辑的4D（三维空间+时间）数字世界表征。

绘图器则简单得多：拿到控制器输出的结构化参数，在确定性的物理骨架基础上完成像素级渲染。

倪冰冰对记者解释，这一架构的实质是将理解物理世界与渲染视觉像素两大任务彻底解耦。他称，现有视频基模只负责它最擅长的事情——画像素。至于画什么、怎么动、光从哪来，则全部由控制器精确指定。

如此拆分后，物理参数变为可调、可控、实时生效的。导演可以直接调整场景几何、修改人物动作细节、改变运镜轨迹、调节灯光位置与色温，不再需要反复“抽卡”，等待模型随机吐出一个接近预期的结果。

用户数据显示，采用WNM后，单镜头编辑轮次从20至50次降至3次以内，专业创作者综合满意率超过80%。

视频模型热潮下WNM的定位

目前视频生成模型赛道正热，世界模型是比前者范畴更大的热门概念。

以目前行业头部世界模型GoogleGenie 3为对比案例，倪冰冰向记者明确区分了两者的核心差异：前者追求的是可玩性，用户可以在模型生成的游戏化环境中实时操控，但只能在模型封闭的生成世界中做有限探索。后者追求的是可控性，用户可以对场景、角色等所有物理参数进行独立操控。

再与Kling、Veo等视频模型对比，倪冰冰表示，这类端到端视频模型输入稀疏指令、输出像素，中间无法干预，必然导致“抽卡式”低效生产。WNM“控制器+绘图器”架构可以先规划场景、设计走位、调度运镜、布置灯光，再交由绘图器来执行。

该技术路径仍面临不小的挑战。倪冰冰表示，最大的瓶颈在数据层面——训练一个能精确理解物理世界的模型，需要带有精确几何和物理标注的三维数据，这种数据比训练渲染器用的互联网视频稀缺好几个数量级。

此外，如何让AI生成的几何体在物理引擎中计算准确也是一个难题。团队通过构建自动化标注流水线和数据飞轮来解决数据瓶颈，采用多智能体协同和主动学习降低人工标注量。

另一大瓶颈是长时序一致性——如何保证长达5分钟的生成过程中，场景布局、角色身份、物体位姿不发生漂移。上海交大团队的解决方案是通过世界叙事模型维护跨帧的物理状态连续性，模型不是逐帧“猜”下一帧长什么样，而是基于明确的物理参数状态演化来驱动每一帧的生成。

从“抽卡二十次拍一个镜头”到“确定性地构建一个镜头”，WNM试图跨越的正是这道从“能生成”到“能控制”的分水岭。张文军院士认为：视频生成的下一个分水岭是可控性，可控性的基石是物理孪生式的世界叙事模型。

当模型能够精确理解场景的三维结构、物体的物理属性和运动规律时，真正可控的视频生成才有可能。

落地上海中试基地

2026年的AI产业开始密集落地实际场景，WNM切入的是影视工业生产链条中的前期可视化与预演环节。

传统影视制作中，导演在实拍前需要通过分镜图、概念设计、3D预演等手段来规划镜头。这是一个耗时、昂贵且高度依赖人工经验的环节。WNM将其自动化并提升到物理参数级别，导演可以在可编辑的4D物理世界层面完成全部创意规划，将专业判断精准注入每一个控制环节。

当前市面上已出现大量AI视频创作平台——包括帧赞、LibTV、TapNow、360纳米等，其核心逻辑是将现有视频基模通过API串联，加上剧本生成、分镜管理、素材库等功能模块，形成一条生产线。倪冰冰认为这些平台本质上是流程集成工具，底层仍然依赖黑盒基模，用户依然在“抽卡”，且无法精确控制画面中的每一个元素。

而WNM不是集成，而是尝试从底层架构上推翻端到端像素采样的生成范式。这一区别决定了WNM在产业链中不是现有生产线的补充插件，而是对生成范式的底层重构。

2026年5月25日，上海市文旅局发布全国首个省级AI微短剧专项政策《AI微短剧沪8条》。政策明确在徐汇、杨浦、闵行建设三大AI微短剧产业集聚区，布局市级“AI+微短剧”中试基地，对自主研发且市场认可的AI微短剧智能体项目，按不超过实际研发投入的20%给予最高1000万元资金支持。

据记者了解，中试基地项目技术牵头方由上海交大团队担任，算力由九章云极提供。倪冰冰对记者表示，团队将依托中试基地，将WNM嵌入精品短剧和影视内容生产流程中，大幅缩短制作周期，预期WNM的落地将推动上海从微短剧的流量消费地升级为技术输出地和标准制定地。

从更宏观的视角看，这一判断的底层逻辑是行业正在发生的结构性变化。倪冰冰对记者分析，目前视频模型产品同质化严重——大家都在拼单次生成的画质。但真正决定谁能跑出来的核心是可控性和工作流适配：谁能被创作者真正嵌入日常生产流程，谁就能胜出。

目前张文军院士团队已将论文公开发布，基于WNM的视频创制平台同步上线公测。倪冰冰对记者透露，商业化方面考虑多种模式并行：面向中小团队的SaaS订阅制、面向大型影视公司的私有化部署，以及面向开发者的API按调用收费。目前已在上海与多家影视制作机构开展合作验证。

倪冰冰认为，当前视频模型领域正处在一个十字路口。一端是继续堆算力、拼画质的端到端路线；另一端是回到先理解物理世界、再生成视觉像素路线。他判断，大语言模型走通的路，视频生成大概率也要走一遍，后者的“Transformer时刻”不会发生在像素生成层面，而会发生在世界理解层面——当模型能够精确理解场景的三维结构、物体的物理属性和运动规律时，真正可控的视频生成才有可能。

在AI视频生成从实验室走向产业化的关键节点，谁能在可控性上率先突破，谁就有可能定义下一代影视工业的技术标准。上海交大团队选择用“控制器+绘图器”的架构回答这个问题。至于这套答案能否真正跑通，接下来要看它在中试基地与一线制作机构的碰撞中交出怎样的答卷。