以假乱真!AI 视频工具 Sora 是怎么做到的?
信息源
今年2月,OpenAI首次公布了自己的文生视频模型 Sora,在科技领域引起极大的反响。
根据OpenAI的官方简介,Sora可以制作长达60秒的视频,视频包括高清晰度的场景、复杂的镜头动作,并可支持多个角色的创作,是基于ChatGPT和静止图像生成器DALL-E所建立的视频生成模型。
例如,根据文字“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”的提示,Sora生成了一段60秒的视频,画面质感高级,人物肌肤纹理的细节逼真。有网友表示,如果不注明AI生成,自己完全分不出真假。
虽然Sora生成的内容虽然还存在一些缺陷,但已经展现出强大的视频创作能力。那么Sora是如何生成视频的呢?
根据OpenAI发布的技术报告,Sora是一个扩散模型。扩散模型本身很复杂,但可以通过一个简单的例子,大致理解扩散模型的思路。
想象一下,我们手头有一张清晰的狗狗照片。通过逐步向这张照片中添加噪点,它会逐渐变得模糊,直至最终变成一堆看似无序的噪点集合。
这个过程实际上可以逆向进行。也就是说,从一堆杂乱的噪点出发,我们可以通过一步步去除噪点,逐渐还原出原始的图片。而扩散模型的关键所在,就是学会如何有效地进行这种逆向去噪的过程。
值得一提的是,扩散模型的应用并不仅限于图片生成。例如,在Sora的技术报告中就提到,OpenAI通过特定的转换处理,使得视频数据也能被用于模型训练。这样一来,Sora便能根据给定的提示词,直接生成相应的视频内容。
根据OpenAI的官方简介,Sora可以制作长达60秒的视频,视频包括高清晰度的场景、复杂的镜头动作,并可支持多个角色的创作,是基于ChatGPT和静止图像生成器DALL-E所建立的视频生成模型。
例如,根据文字“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”的提示,Sora生成了一段60秒的视频,画面质感高级,人物肌肤纹理的细节逼真。有网友表示,如果不注明AI生成,自己完全分不出真假。
虽然Sora生成的内容虽然还存在一些缺陷,但已经展现出强大的视频创作能力。那么Sora是如何生成视频的呢?
根据OpenAI发布的技术报告,Sora是一个扩散模型。扩散模型本身很复杂,但可以通过一个简单的例子,大致理解扩散模型的思路。
想象一下,我们手头有一张清晰的狗狗照片。通过逐步向这张照片中添加噪点,它会逐渐变得模糊,直至最终变成一堆看似无序的噪点集合。
这个过程实际上可以逆向进行。也就是说,从一堆杂乱的噪点出发,我们可以通过一步步去除噪点,逐渐还原出原始的图片。而扩散模型的关键所在,就是学会如何有效地进行这种逆向去噪的过程。
值得一提的是,扩散模型的应用并不仅限于图片生成。例如,在Sora的技术报告中就提到,OpenAI通过特定的转换处理,使得视频数据也能被用于模型训练。这样一来,Sora便能根据给定的提示词,直接生成相应的视频内容。
赞赏
专题:#AIGC能骗过人类吗#
特别声明:以上文章资讯内容(含文字、图片、视频)不代表科幻岛平台的观点或立场。如有关于作品内容、版权或其它问题请于作品发布后的30日内与科幻岛联系。