趣看热点

机器之心发布

机器之心编辑部

当 Sora 2、Google Veo 3 还在卷短视频逼真度，AI 影视的下一站该是长片叙事了？

在 AI 视频生成技术日新月异的今天，主流模型如 Sora 2、Google Veo 3 等已能生成视觉惊艳的短视频片段，但想要创作长视频甚至是影视作品时，AI 模型似乎开始变得力不从心。

然而，在好莱坞，一家 AI 影视公司却已经拔地而起，开始将 AI 影视生成技术从模型验证推向大规模产业化。

11 月 3 日，据 Deadline 报道，AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road（SFR）宣布成立资本规模达数十亿美元的合资公司 Utopai East，以加速韩国影视的国际化进程。

SFR 背后，一面是 LG 集团继承人 Brian Koo，另一面是阿联酋主权基金推动者 Amin Badr-El-Din。

报道显示，此次合作中 Utopai Studios 将成为 SFR 在娱乐领域的独家 AI 技术合作伙伴，依托 SFR 在韩国规划的 350 亿美元 AI 数据中心枢纽，构建下一代影视制作基础设施。

在这场以韩娱为核心的产业协同背后，隐藏着 Utopai 希望系统性攻克的关键命题：如何让 AI 真正理解并驾驭影视长片的叙事逻辑，进而实现从「短片生成」到「长片制作」的工业级跨越？

视频链接：https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ

核心问题：为何传统视频模型难以驾驭长片制作？

目前主流视频生成模型（如 Diffusion）的本质还是概率性生成器，它们逐帧或短片段独立生成视频，缺乏对长叙事逻辑的全局规划能力。

当视频生成目标从「生成片段」升级为「制作长片」时，Diffusion 模型的短板开始凸显：

长程一致性崩塌：角色外貌、场景元素在跨镜头时容易出现「漂移」，例如服装颜色突变、人物外貌畸变等。
叙事可控性不足：模型难以理解剧本中的因果链条（如情绪的递进转换），生成的内容往往与导演意图偏离。
物理合理性缺失：模型仅学习 2D 像素统计规律，缺乏对三维空间遮挡、碰撞等规则的认知，易产生反物理的「幻觉」。

Utopai 带来的解决方案则是直击痛点 ——不再追求单一模型的极致优化，而是通过架构重组，让不同模型各司其职。

技术架构：规划与渲染解耦的协同范式

Utopai 在技术上的重要创新是构建了分层协同架构，其中自回归模型（AR）负责「规划」，扩散模型（Diffusion）负责「渲染」，二者通过统一状态空间耦合。

1.规划层：自回归模型作为「导演大脑」

序列预测机制：AR 模型以剧本为输入，通过前帧预测后帧的机制，生成涵盖角色 ID 向量、摄像机轨迹、光影变化等要素的时空计划。该计划本质是一个机器可执行的「拍摄蓝图」，确保长达数十分钟的片长中元素演进逻辑保持一致。
状态记忆与因果推理：模型能够维护可回放的长程状态记忆，例如追踪角色从第 1 镜到第 50 镜的动作轨迹，避免传统模型因局部生成导致的逻辑断裂。

2.渲染层：扩散模型作为「执行引擎」

条件化生成：扩散模型不再随机「抽卡」，而是严格依据规划层输出的结构化指令（如深度图、光流信号）生成画面。例如，当规划层指定「摄像机以俯角拍摄雨夜小巷」时，扩散模型就会据此渲染细节。
物理规律注入：通过训练时引入带精确标注的 3D 合成数据，模型学习空间遮挡、材质反射等规则，避免生成内容违反重力或碰撞逻辑。

3.协同接口：统一状态空间

规划层与渲染层通过统一状态空间交换信息：规划器输出未来帧的几何与语义约束，渲染器据此生成像素，并反馈生成结果供规划器优化后续计划。这一闭环解决了扩散模型「生成即遗忘」的缺陷。

简单来说，Utopai 的突破就在于构建了一种融合自回归模型与扩散模型的协同架构，通过「规划 — 渲染」解耦的协同范式，将 AI 从「画面生成工具」升级为「叙事协作伙伴」。

训练方法论：从 2D 统计到 3D 物理规律的跃迁

Utopai 模型能力的基石是其独特的训练策略，训练的核心是用 3D 物理规律替代 2D 像素统计。

1.预训练阶段：几何与语义对齐

通过使用高质量 3D 合成数据（如虚拟城市、动态物体），训练模型去理解场景的深度信息，如材质属性、运动轨迹等，而非仅学习网络视频的像素分布；通过构建「下一状态预测」「掩码重建」等任务，强制模型推理物体遮挡关系（如角色绕过桌椅而非穿模）。

2.微调阶段：多模态指令遵循

在这一阶段，引入剧本、分镜等专业数据，训练模型将抽象指令（如「史诗感」）转化为具体视觉元素（如低角度镜头、暖色调光影）。

这样的训练方式使模型能处理复杂指令，例如当要求角色「由怀疑转为恍然大悟」时，模型能够协调人物角色的面部微表情、肢体语言、镜头焦距的同步变化，而非简单替换表情贴图。

可量化的技术优势：定义 AI 电影叙事的新指标

当前 AI 视频领域的通用指标（如 FVD、CLIP Score）主要衡量视觉逼真度和文本符合度，但无法有效评估「叙事质量」。

Utopai 的核心优势之一，正是建立一套基于专业影视标准的内部评估体系，其在三个维度超越传统方案：

1.一致性指标

相较于通用模型在几秒后可能出现角色特征「漂移」的现象，Utopai 的系统旨在跨越数十甚至上百个镜头，仍然稳定保持核心角色身份、场景布景和光影逻辑的连续性。这种一致性不是简单的「不变化」，而是按照叙事逻辑的「合理演进」。

2.剧本指令遵从度

Utopai 能够量化生成内容与复杂剧本指令的匹配程度。例如，当剧本要求「角色从犹豫转为决绝」时，AI 模型能通过姿态、视线、镜头语言与光影的协同变化，呈现出符合表演逻辑的情感转变，而非生硬的表情切换。

3.制作效率的跃升

这样的架构能极大优化专业影视制作的前期流程，导演可通过修改时空计划（如调整摄像机轨迹）精准控制生成结果，无需反复「抽卡」，将创意迭代周期从数周缩短至几天。

Utopai 的实践揭示了一条代表范式转变的技术路径：影视级 AI 模型的未来不是替代 Diffusion 或 AR，而是通过架构创新实现专业化分工。

在这里，AI 不再是辅助工具，而是能够理解导演愿景、具备电影级思维的真实创作伙伴。

正如 Utopai 创始人兼 CEO Cecilia Shen 所言：「AI 可以生成无穷选项，但定义品味的永远是会讲故事和有艺术审美的人。」

而此次合作也不仅是资本层面的联手，更是以韩国为战略枢纽，整合 AI 技术、算力基建与内容生态的系统性布局。

当技术的成本壁垒被 AI 击穿，电影制作的未来将更多地取决于想象力的边界，而非预算的多少。那些曾因「拍不起」而被搁置的宏大叙事，或许正奔跑着拥抱 AI 影视，阔步走向好莱坞大荧幕。

Utopai联手LG、中东主权基金加码韩娱，新模型颠覆AI视频格局！

王一博被批丧...

Alumin...

以军频袭黎巴...

泽连斯基:会...

空姐穿毛衣上...

10个瞬间，...

4年时间门店从0增至960家，全国开店的零食品牌，如今陷入闭店争议！官方回应：主动放缓是策略，不是叫停加盟

荣耀Magic8 Pro Air支持eSIM，搭配实体SIM卡可实现四卡双待

委内瑞拉武装部队宣布增招士兵5600名

印尼国家队经理：克鲁伊维特教练团队必须重新接受评估

美国11月ISM制造业PMI萎缩幅度创四个月最大，就业进一步收缩，价格涨

弗兰克：球队的进攻还需要提升；希望在所有赛事都具有竞争力

Motif发布12.7B模型：用小算力挑战大模型，效率与性能的＂双赢＂

第100台设备落地！胜科纳米与赛默飞共铸二十年“双向成就”

深圳松岗街道：以“开放性场景”创享技术可感、产品可触、产业互联“新模式”

星途七年七换帅，高管动荡魔咒如何破？

抄底许家印，截胡王健林，这个湖北出来的80后为什么能登顶巅峰？

万亿豪赌：OpenAI结盟芯片、云巨头，AI生态闭环了吗？

与宾利添越是＂亲兄弟＂大众途锐3.0TSI锐臻版上市

特朗普：伊朗刚告知我们他们已处于＂崩溃状态＂

市场定位模糊！贝莱德基金本土化试水困局，主动权益产品边缘化

明年新能源汽车销量将超2000万辆

何穗孕照被扒！和陈伟霆一举得男，超模都偏爱港男，生娃不办婚礼

Meta被曝靠诈骗广告赚取巨额利润

成本仅为真人1/18！漫威衍生剧用AI重拍女二，太厉害了吧

美媒：特朗普政府再就霍尔木兹海峡拼凑国际联盟

李昀锐孟子义被曝恋情，双方火速回应

隐退4年后，张一鸣久违现身！互联网大佬正集体杀回

华为鸿蒙 HarmonyOS 6.0.0.107 SP7 / SP5 Developer 版本发布

米切尔：我罚球少是因为不假摔；不敢多聊，我朋友都被罚款了