精品手机网站案例,40岁了开始学室内设计,公众号怎么开通原创,二级目录 wordpress 伪静态作为一种新的商品表现形态#xff0c;内容几乎存在于手淘用户动线全流程#xff0c;例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力#xff0c;能够从供给端缓解内容生产成本高的问题#xff0c;通过源源不断的低成本供给… 作为一种新的商品表现形态内容几乎存在于手淘用户动线全流程例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力能够从供给端缓解内容生产成本高的问题通过源源不断的低成本供给倒推消费生态的建立。过去一年我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验我们将开启一段时间的内容AI专题连载欢迎大家一起交流进步。 第一篇《淘宝内容AI团队2024年8篇论文总结》 第二篇《内容AI: 目标驱动的图像生成》 第三篇《OpenAI o1模型的前世今生》 第四篇《多模态人物视频驱动技术回顾与业务应用》 背景介绍 视频虚拟试穿任务定义为将指定服饰穿着到视频中的人物身上以实现视频级别的服饰上身展示效果。在此之前大多数的方法主要聚焦在基于图像的虚拟试穿领域。然而仅仅依靠静态图像进行虚拟试穿存在一定的局限性静态试衣图不够生动活泼并且也无法充分展现服饰所具有的更多物理特性。当直接把基于图像的试穿方法逐帧应用到视频级别的输入时所生成的换衣视频常常会因为帧与帧之间的不一致性从而导致时间上出现不连续的情况。从更细节的维度来看我们对图像换衣和视频换衣的价值进行了系统性的对比具体内容可参见下方表格。 图像换衣视频换衣评价动态展示❌✅视频虚拟换衣可以展示服装在不同角度和动作下的效果更加立体和真实。物理特性❌✅视频虚拟换衣可以在动态展示中让用户对衣物的质感、剪裁和摆动等物理特性有更全面的了解。吸引力❌✅视频能够吸引用户的眼球增强用户参与感和体验感提高他们对产品的兴趣。信息价值⭐️️⭐️️️️⭐️️⭐️️⭐️️⭐️️⭐️️在视频中服装的移动、光影变化等细节都更容易展示让用户对服装材质和款式有更详细的认识。商业价值⭐️️⭐️️️️⭐️️⭐️️⭐️️⭐️️⭐️️视频可以更好展示商品特性吸引用户注意力提升点击率促进成交视频更容易融入丰富的营销内容比如广告、动态展示等。难度⭐️️⭐️️⭐️️⭐️️⭐️️⭐️️⭐️️⭐️️不论是数据收集还是建模训练视频虚拟试衣模型研发难度要远高于图像换衣。成本⭐️️⭐️️️️⭐️️⭐️️⭐️️⭐️️⭐️️视频换衣模型的参数量和计算的FLOPs都高于图像换衣模型这导致视频换衣的训练和推理的成本更高。成熟度⭐️️⭐️️⭐⭐️️⭐️️图像换衣因为起步早、难度成本较低相较于视频换衣技术成熟度更高一些不过视频换衣也达到了业务可用水平 图像换衣和视频换衣的价值对比 根据我们之前的研究我们假设视频虚拟试穿的任务从技术的层面可以分解为两个关键方面。 我们关注的是单帧结果的真实性和自然性同时还要确保服装与人物形象的一致性。这意味着我们需要在每一帧中精确地呈现出人物的皮肤颜色、纹理和形状以及服装的颜色、纹理和款式使其看起来就像真实的人物在试穿一样。我们还关注人的动作和服装在整个视频中的连贯性。这意味着我们需要在视频中平滑地过渡不同帧之间的动作并确保服装的颜色和款式与前一帧保持一致。 针对这两个方面我们提出了一个流畅换衣视频生成方案实现了高清、高帧率、连贯、一致性的换衣视频。 服饰图像换衣视频换衣 直观对比图像和视频换衣效果 我们依托视频换衣生成方案针对不同业务场景进行了一系列的建设工作打造出了三种类型的产品级能力。具体内容呈现在如下表所示当中。 产品级能力应用场景营销视频自动投放面向平台自动圈选缺乏营销视频的品类并生成相应的含有卖点信息的营销视频以供投放模特试穿素材生成面向商家帮助商家便捷的产出高质量试穿视频丰富其店铺营销素材买家试穿效果生成面向买家帮助买家直观的看到自己心仪的服饰上身后的效果 产品级能力和应用场景对应关系 算法能力建设 早期的方案对视频换衣技术的可行性进行了验证。在早期的方案中成功地初步实现了将一件衣服移植到视频中的模特身上这一功能并且很好地保留了服饰的款式、纹理等重要特性。然而早期方案存在一些局限性导致其无法达到业务可用的水准。具体来说有以下几个方面的问题其一训练数据集的规模较小这使得模型的泛化能力相对较弱。其二由于受到基础模型能力的限制无法生成非常精细的视频细节。其三受限于传统的 2D VAE 和双 UNet 结构模型无法有效地使用高清且长时序的训练数据。其四受限于重建损失很多服饰的 logo 细节无法得到准确还原。以上这些局限性使得视频换衣的产出结果常常出现模糊、畸形、伪影、logo 损失等问题。针对上述这些问题我们对视频换衣的整体框架进行了系统性的升级具体涵盖以下几个方面 持续迭代DiT方案的人物垂领图生视频img2video基础模型作为视频换衣模型的预训练提升模型对服饰电商领域的泛化性DiT 结构在参数量和数据集的规模扩展方面更加容易。运用 3D vae对视频的空间时序进行压缩处理这显著地提升了输入数据的分辨率以及帧率。建立了高质量视频级换衣数据收集链路持续扩增优质、多样的视频换衣数据。以及精心设计的视频换衣模型训练以及推理方案。 产品能力建设 ▐ 模版库建设 为了提升用户与换衣产品的交互门槛我们建设了一个具备高质量且多样化的模版库以及一个能够做到精确匹配商品与模版的机制。使得用户得以在仅仅输入一个服饰图或者商品ID的前提下就能一键生成完整的试穿视频。 真实风格模版生成 首先我们精心收集了一批授权的服饰类营销视频并且安排专业人员进行了细致的人工标注。在众多视频中挑选出一批适用于淘宝服饰展示的原始视频。接着运用视频级重绘video2video方法以标注的授权视频为蓝本模仿其风格成功生成一段全新的视频极大地丰富了平台自有版权的模版视频的数量和多样性。 左参考视频中生成模版右生成模版换衣 基于真实风格模版所生成的完整换衣视频内容具体如下。这个视频是依据输入的商品成功匹配到了多个真实风格的模版片段。随后通过一系列自动化的后期处理步骤包括智能剪辑、讲解文案生成、智能配乐以及语音生成技术TTS等最终为 C 端用户完整地展示了一个有关“风衣”类服饰的营销广告视频。 左原始视频片段手工拼接右基于真实风格模版所生成的完整换衣视频 模版与服饰匹配能力 考虑到服饰的调性和算法生成的局限性在自动化生产基于视频换衣的营销视频时将服饰和模版做随机匹配是不合常理的例如无衣兜服饰配插兜动作男性模版配吊带女装等。 左插兜动作输入视频。右换上无衣兜服饰后效果 左男性视频模版。右换上女装后的效果 为了系统性解决服饰与候选模版不搭调的问题我们提出了一个对输入服饰和候选模版进行精确匹配的方法首先我们对服饰和视频模版定义了最多30种标签我们通过大规模图文模型对模版库离线提取出相应标签对于每一个输入的服饰我们通过图文大模型判断其合法性并实时提取出对应的标签最终通过一套匹配规则将两者关联起来。 模版和服饰的打标与匹配 ▐ 产品形态建设 为了帮助商品更好的被展示我们设计了一套成品模特试穿视频生成链路。这套链路可以仅仅根据输入的服饰itemid或者商品图自动生成符合商品特性的、时长约1分钟的多分镜、多姿态模特换衣视频。这意味着用户可以轻松地通过我们的平台选择他们想要展示的服饰并生成一系列精美的试穿视频。除了生成视频之外我们的系统还串联了配乐、tts、文案生成等功能可以进一步提升视频的展示效果。通过这些能力1平台可以批量产出帮助商家成交导流的视频内容2商家可以制作出更加吸引人的服饰展示广告视频吸引更多的潜在客户。3买家可以上传自己视频来身临其境的感受心仪服饰的上身效果。 通过我们的产品用户可以轻松地制作出高质量的服饰展示广告视频并展示商品卖点和特性。我们的目标是通过展示服饰在人体上的逼真效果来促成交易提升销售额。 For平台-批量化营销视频生成 产品介绍 此产品支持根据圈选的一系列服饰商品的ID自动化的选择商品展示图并匹配合适的视频模版。对于常见的男女老少的初夏秋冬季服饰都能支持。目前该能力已经落地。 批量化营销视频生成链路 效果展示 其中我们的营销视频自动投放能力目前已经应用在一些场景。以下为该算法的实际输出效果。 输入服饰图和对应商品ID生成视频输入服饰图和对应商品ID生成视频 服饰搭配生成的营销视频效果 For商家-模特试穿素材生成 产品介绍 除了能够依据自动圈选的商品池来自动生成完整的营销视频之外我们同时也是面向商家端的创意工具。我们拥有帮助商家利用商品图制作出模特试穿短片以及混剪视频的能力。详细而言在商家端当商家上传一张服饰图或者是一组服饰图的组合品时系统会为商家自动推荐适宜的换衣模版。商家既可以在候选模版集中进行挑选也可以自行上传多个换衣模版。最终我们将会产出与之对应的视频换衣结果。目前该产品在推进落地中。 面向商家的模特试穿素材生成产品示意图 商家与系统的一轮交互流程 效果展示 服饰模版生成结果 模特试穿展示 For买家-个性化试穿效果生成 产品介绍 我们的产品能力上还设计了支持C端买家的功能根据用户选择的服饰和用户自己的视频生成对应的服饰换衣视频。帮助买家身临其境的感受试穿后的形象。目前该产品还在设计筹备中。 真实买家视频 由于视频换衣对输入视频形式要求较高我们设计了基于模版-服饰匹配系统的匹配度评价方法对用户上传视频提取模版标签参见【模版与服饰匹配能力】章节同时提取输入服饰的标签并计算出视频与服饰之间的匹配度对低分模版返回模版改进建议如上半身模版不适合换下装、性别不符、背景季节不合适、场景人物过多等。 虚拟买家视频 为了降低用户与系统交互成本我们还建设了根据用户人脸形象生成合适模版具体来说首先根据用户人脸以及用户提供的外形信息如身高、体重、年龄等生成一个全身形象再通过pose driven的Image-to-Video模型生成一个符合标准的模版视频。 效果展示 服饰用户视频生成视频 买家试穿展示 总结 我们在过去一段时间对视频级虚拟换衣的基础模型和产品能力建设做了一系列的迭代更新在部分业务场景上已经初步取得了一定的正向效果未来我们还为继续提升基础模型能力继续完善产品化能力帮助平台、商家、买家更好的服务。 团队介绍 我们是淘宝业务技术内容AI团队-视频生成组专注于服饰时尚领域持续迭代服饰上身视频生成基础模型和下游服饰应用模型效果并持续完善 FashionVideoGen 服饰视频产品化解决方案面向商家和内容场域做更灵活可控和多样化的视频生成产品化能力让AIGC技术充分发挥业务价值。欢迎关注。 ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法