互联网那些事

主页文章

互联网那些事

1151 文章 10 粉丝 0 关注

+关注私信

公告

有态度够深度

文集

互联网(1069)

统计

今日访问：3938

总访问量：20714473

从聊天到视频，Sora是OpenAI的“技术爆炸”

2024年02月19日

评论数（0）

Sora的出现不亚于一次“小型核爆炸”。

2月16日，Open AI公司发布了全新的视频生成AI大模型Sora，该模型可以通过文本快速制作出一段长达60秒的视频，视频中可以呈现多个角色、特定动作、以及复杂场景。

这无疑是AI领域的一个爆炸新闻。

自ChatGPT诞生以来，围绕着生成式AI的讨论便层出不穷，各个软件厂商也开始了在语言大模型赛道上的军备竞赛，百度率先推出了“文心一言”，阿里推出了“通义千问”等等，各家都不希望错过这个风口。

而就在这个赛道正走向平静的时候，谷歌推出了重磅级的产品“Gemini 1.5”，并将上下文窗口长度扩展到100万个tokens，这让Gemini 1.5有了一次性处理超过三万行代码的能力。然而谷歌的这一张牌也使得Open AI带来了其“王炸”级别的产品——Sora。

Open AI推出Sora将生成式AI推进到视频生成时代，对整个AI的市场格局有什么影响？生成视频AI对各个行业未来会有什么样的颠覆？真正的人工通用智能（AGI）即将到来？

Sora推进“AGI”大跨步

“AGI可能不需要十年二十年那么远，可能一到两年就能实现。”这是周鸿祎在Sora发布之后给予的评价。马斯克更是直接发文表示：“人类要完（gg humans）。”

Sora是什么样的一款产品，能让业内人士给出如此高的评价？

目前，在Open AI的官网上已经更新了48个视频，在这些视频中尽管有些视频还是会出现一些不符合尝试的小bug，但在绝大多数场景下，Sora能够精准地展现出文字描述的细节，更能理解物体在真实世界中的存在，生成相对应的角色和信息。也标志着Sora不仅仅能够通过信息学习到信息，更能灵活地运用这些信息模拟出一个接近真实的“虚拟世界”。甚至一次性还能生成同一个场景下不同“机位”不同视角的场景。

仅从现在Sora展现出的实力，显然已经让目前的“Gemini 1.5”望尘莫及。但同样也有人提出了质疑，图灵奖得主LeCun表示，像Sora这种仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同。而后Meta也推出了一个全新的无监督「视频预测模型」——V-JEPA，号称能够“以人类的视角来理解世界”。

无可否认的是，Sora不仅是生成式AI由语言文字模型迈向视频模型的一步，更也将“世界模型”这一概念彻带火。未来的AI模型发展方向也成为了更真实地去理解模拟这个现实世界。

“世界模拟”也成为了AI新的方向，这一新方向也正在推进着“AGI”时代的到来。有了认识世界模拟世界的能力，甚至再给AI加上摄像头和传感器，AI成正朝着拥有自主感知认识现实世界，学习并模拟现实世界的能力，能处理语言文本，图像视频的人工通用方向智能跃进。

有了这样的AI，也有许多人表示担忧：“这次可能是真的要失业了。”

“Sora”占领未来“抖音”们？

视频生成大模型，首先会改变的可能就是是视频行业的格局。

目前，在短视频平台上，无数的AI读有声小说，AI小说配漫画图一类视频都有着极高的热。随着视频生成大模型的进一步发展，或许一部小说，AI就能自动生成一部电视剧或是电影。对于观众而言，生成式视频大模型或许未来会成为最懂你的“导演”，为你独家生成最合适的剧情和最符合你审美的演员。

对于许多的短视频创作者而言，视频生成大模型同样能够帮助节约下许多的拍摄成本，想要的场景，想要的演员甚至是剧情，只需要简单文字描述，就可以生成一段理想的视频素材，从而辅助短视频的创作。由于AI视频生成的便捷和快速，许多需要快速制作的时效性视频便成为了AI大显身手的领域。

对于视频后期工作者来说，尤其是特效工作者，视频生成大模型的加入同样也是以此极大的生产力进步，许多场景的替换，特效制作，甚至是在现实世界中从未出现的特效画面，都可以通过向AI描述的方式来获得想要的特效画面。

但也正是因为AI功能的过于强大，让许多人再次产生了行业以及职业发展的担忧。

周鸿祎表示：以大模型技术作为基础，加上人类知识的引导，可以创造各个领域的超级工具，例如在生物医学、蛋白质、基因研究，包括物理、化学、数学的学科研究上，大模型都会其相应发挥作用。甚至AI的算力能帮助我们推演这个世界上人来尚未掌握的自然规律。

从技术发布到技术落地上有一大段路要走，未来是否真的能如周鸿祎构想的那样由大模型技术带来一场“技术爆炸”尚未可知。

就像珍妮纺纱机在工业革命时大放异彩，的确让许多人在当时失业，但不代表着人类会进入一种由AI主导的“人类无用”状态，AI依旧是需要人来支配以及提供维护，辅助学习的。并不会如一些悲观者所言出现AI取代人类的状态。

但必须要接受的是，我们在这场科技革命当中，需要转变心态拥抱一个新的时代的到来，甚至是拥抱一个虚拟的世界的到来。

Sora，虚拟与现实的潘多拉魔盒

Sora的强大，让出门问问的创始人李志飞感慨道：“LLM ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模和模拟了，到底什么是现实？”

当AI创造出了一个足够真实的虚拟世界，或许曾经人们在科幻电影里所畅想的“黑客帝国”，想成为的“头号玩家”，也会在不远的将来正式到来。降温许久的元宇宙，或许随着“世界模型”的不断发展，也将再度占领风口。

此前，2月初，苹果公司推出的虚拟现实设备Vision Pro也迎来了正式发售，虽然第一代产品并不完美，但其可用度和操控性在一众虚拟现实产品当中已经是佼佼者，并且让许多消费者看到了虚拟现实设备成为下一个时代的移动设备的潜力。

Sora和Vision Pro或许会是真正叩开元宇宙大门的代表软硬件的两把钥匙。

无论是曾经的Meta推出的头戴设备还是如今苹果的设备，都不能做到虚拟和现实真正的融合，也就是现实中的人，无法沉浸在那样一个虚拟的世界当中。而如果未来Sora能构建一个与物理世界体验无差的虚拟世界，真正构建出一个宏大的元宇宙，或许那个时候才是元宇宙迎来真正爆发的时候。

我们可能真的能体会到《头号玩家》甚至是《黑客帝国》里面描述的那样的世界，我们可能真的能沉浸式体验一把“三体游戏”。只是不知道，如果真到了那时候，马斯克会不会再度感慨：“gg humans”。

数据来源：网络

图片来源：网络

参考文章：

新智元《LeCun怒斥Sora不能理解物理世界！Meta首发AI视频世界模型V-JEPA》

每日经济新闻《Sora横空出世，马斯克发声！OpenAI估值飙升，有望超800亿美元》

财联社《Sora潜力多大？OpenAI科学家分享：它可以同时生成多视角视频》

数科星球《Sora“拯救”元宇宙，世界模型的潜力才刚释放》

和讯网《OpenAI的Sora会砸掉谁的饭碗？》

周鸿祎微博《Sora意味着AGI实现将从十年缩短到一年》

文章为作者独立观点，不代表联商专栏立场。

联商专栏原创文章由作者授权发表，转载须经作者同意，并同时注明来源：联商专栏+互联网那些事。

上一篇：安徽车企奇瑞，凭什么第一？

下一篇：赛博「升堂办案」，更适合年轻人的裁决之地

赞(0) 分享