人工智能文生视频大模型Sora,颠覆性的革命?

2024年2月19日 679点热度 0条评论

%title插图%num

Sora,OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布  。

Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频 ,该模型可以深度模拟真实物理世界 ,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式 。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步 ,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃 。

“一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”
这是OpenAI官网介绍Sora时,出现的第一组提示词。

 

在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频。其中,Pika的视频为“时髦女人”的背影,无法体现她“戴着太阳镜,涂着红色的口红”的描述,不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好,但整体上视频较为模糊。

Gen-2video则跳出了“无法输入这么多提示词”的弹窗,并根据能够输入的部分生成了一个4秒的视频,该视频相比Pika显然精细很多,也符合提示词描述的人物形象,包括“街道、人群、黑钱包”等。

而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,以及该视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”,这都是AI生成视频的特点之一。

%title插图%num

点击链接查看视频
cdn.openai.com/sora/videos/tokyo-walk.mp4

Sora有卓越能力:60s超长时间,高度详细复杂的场景;复杂的相机运动;同一场景多个镜头

Sora的技术原理:它是扩散模型,生成一个视频通过一个静止的噪声开始,然后逐步移除噪声,同时核心架构还是用的Transformer,建立在DALLE3和GPT上通过让模型一次看到许多帧,他们解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

他们将视频和图像表示为称为patch的较小数据单元的集合,每个patch都类似于 GPT 中的一个token。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。 

%title插图%num

OpenAI的文生视频大模型Sora无疑具有巨大的潜力,可以在许多领域带来革命性的变革。首先,Sora可以生成高质量的视频内容,无需人类干预,这将极大地提高视频制作的效率和速度。从广告制作到电影制作,Sora都可以为创作者节省大量时间和精力。

其次,Sora可以帮助人们更轻松地创作内容,无论是视频博客、短片还是动画片,Sora都可以为创作者提供灵感和创意。这将促进更多人参与到视频创作中,推动视频内容的多样化和创新。

此外,Sora还可以用于教育和培训领域,帮助教师和学生更好地理解和学习知识。通过生成生动的视频教学内容,Sora可以提高学习效率和吸引力,让学习变得更加有趣和易于理解。

总的来说,OpenAI的文生视频大模型Sora有望在视频制作、内容创作、教育培训等领域带来革命性的变革,让人们更轻松地创作和学习,推动社会的进步和发展。但同时也需要注意其潜在的风险和挑战,如信息误导、隐私泄露等问题,需要加强监管和控制。

%title插图%num

 

harry

这个人很懒,什么都没留下

文章评论