人工智能文生视频大模型Sora,颠覆性的革命?

%title插图%num

Sora，OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” ），于2024年2月15日（美国当地时间）正式对外发布。

Sora继承了DALL-E 3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频，该模型可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景，能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

“一个时髦的女人走在东京的街道上，街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克，一件红色的长裙，一双黑色的靴子，还带着一个黑色的钱包。她戴着太阳镜，涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的，创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”
这是OpenAI官网介绍Sora时，出现的第一组提示词。

在相同的提示词下，Pika仅能生成3秒的视频，Gen-2video则可以生成4秒的视频。其中，Pika的视频为“时髦女人”的背影，无法体现她“戴着太阳镜，涂着红色的口红”的描述，不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好，但整体上视频较为模糊。

Gen-2video则跳出了“无法输入这么多提示词”的弹窗，并根据能够输入的部分生成了一个4秒的视频，该视频相比Pika显然精细很多，也符合提示词描述的人物形象，包括“街道、人群、黑钱包”等。

而Sora不仅体现了提示词中的全部细节，而且还很好地保持了人物的连贯性，使得该视频几乎可以“以假乱真”。当然，如果仔细观察，可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲，以及该视频中的背景广告牌虽然酷似日文，但由于目前AI还无法直接在视频中“认识”文字，其只能生成似是而非的“日文”，这都是AI生成视频的特点之一。

%title插图%num