高端品牌鞋子排行榜前十名,安徽网站关键字优化,移动互联网时代的信息安全与防护超星网课答案,西安住房和城乡建设部网站1.Sora能力边界探索 从sora的视频合集里看到了多段视频#xff0c;假如我不知道这是sora视频合计#xff0c;估计我第一反应并不是AI生成了这些视频#xff0c;可以说在我这里通过了图灵测试#x1f60a;。 在视频合集里还有同一场景的多角度/镜头的生成能力#xff0c;让…
1.Sora能力边界探索 从sora的视频合集里看到了多段视频假如我不知道这是sora视频合计估计我第一反应并不是AI生成了这些视频可以说在我这里通过了图灵测试。 在视频合集里还有同一场景的多角度/镜头的生成能力让我想起了我曾经学习3d建模的时光大学时曾经学习过一段时间的maya做3d建模在制作动画中也会切换不同视角估计sora训练数据里有一些3d建模的素材不然很难输出同一场景的多镜头的视频。 sora还可以支持任意分辨率宽高比的视频输出从视频截图里还可以看到无论什么分辨率视频的主题乌龟都能恰好出现在视频比较中间的位置我想是不是sora生成的原始视频是一个比较大的场景然后根据不同分辨率宽高比需求然后像拍电影一样调整成自己想要的宽高比聚焦主角当然这样可能会造成算力浪费当时如果是这样实现的会感觉很有趣。 sora生成的玻璃杯掉到桌子上后没有碎这种看起来是sora的缺点并不能很好模拟出真实世界的物理规律但是我觉得sora团队能公开这种看似失败的视频证明他们已经想好了解决方案在改进中了可能到了sora2.0发布的时候这个视频还会再次出现只不过标题是sora2.0和sora1.0的对比。
2.Sora模型训练流程关键技术拆解 通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示基于 Diffusion Transformer完成从文本语义到图像语义的再映射DiT 生成的低维空间表示通过 VAE 解码器恢复成像素级的视频数据。这里的技术名词还有些陌生但是从描述中能了解到sora也是需要将复杂的东西分解成简单的东西然后做训练再生成简单的东西再输出复杂的内容。
3.个人的思考与总结 本次学习了解到了最新的sora视频能里有多强期待进一步的技术学习及代码实践AI时代跟上时代的脚步。