以假乱真！AI 视频工具 Sora 是怎么做到的？

信息源

科普中国网

前沿技术 2024-12-20 14:12

今年2月，OpenAI首次公布了自己的文生视频模型 Sora，在科技领域引起极大的反响。

根据OpenAI的官方简介，Sora可以制作长达60秒的视频，视频包括高清晰度的场景、复杂的镜头动作，并可支持多个角色的创作，是基于ChatGPT和静止图像生成器DALL-E所建立的视频生成模型。

例如，根据文字“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上，她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去”的提示，Sora生成了一段60秒的视频，画面质感高级，人物肌肤纹理的细节逼真。有网友表示，如果不注明AI生成，自己完全分不出真假。

虽然Sora生成的内容虽然还存在一些缺陷，但已经展现出强大的视频创作能力。那么Sora是如何生成视频的呢？

根据OpenAI发布的技术报告，Sora是一个扩散模型。扩散模型本身很复杂，但可以通过一个简单的例子，大致理解扩散模型的思路。

想象一下，我们手头有一张清晰的狗狗照片。通过逐步向这张照片中添加噪点，它会逐渐变得模糊，直至最终变成一堆看似无序的噪点集合。

这个过程实际上可以逆向进行。也就是说，从一堆杂乱的噪点出发，我们可以通过一步步去除噪点，逐渐还原出原始的图片。而扩散模型的关键所在，就是学会如何有效地进行这种逆向去噪的过程。

值得一提的是，扩散模型的应用并不仅限于图片生成。例如，在Sora的技术报告中就提到，OpenAI通过特定的转换处理，使得视频数据也能被用于模型训练。这样一来，Sora便能根据给定的提示词，直接生成相应的视频内容。

本条资讯信息源自科普中国网，更多详情参考原文出处，原文标题：《以假乱真！文字直接生成视频，AI 视频工具 Sora 是怎么做到的？》作者：星空计划

赞赏

专题：#AIGC能骗过人类吗#

人工智能（AI） | +

特别声明：以上文章资讯内容（含文字、图片、视频）不代表科幻岛平台的观点或立场。如有关于作品内容、版权或其它问题请于作品发布后的30日内与科幻岛联系。

投递人

canis1