我把AI童装带货做成了一个Skill,一句话就能出视频

作者花 4 天打磨出 xfc-sell-goods Skill,基于阿里 wan2.7-videoedit 模型,将童装带货视频的多步制作流程压缩为一句自然语言指令

基本信息

核心观点

  1. 童装带货是流量与转化兼备的优质赛道:抖音上童装带货博主数据表现良好,可爱小女孩跳舞视频左下角挂商品链接的形式,流量不错且转化率高。一句话总结就是”很不错的赛道”。
  2. RunningHub 主体替换工作流速度不可用:作者最初尝试 RunningHub 上的主体替换工作流,13 秒视频跑了 20 分钟,从时长上直接 pass。技术选型时速度是关键决策因素。
  3. wan2.7-videoedit 是最终技术选型:阿里推出的视频编辑模型,支持以自然语言指令编辑视频,可参考图像替换视频元素。作者的 skill 围绕这个模型的调用来做。
  4. 高内聚低耦合的 Skill 架构设计:一个代码文件无法涵盖 skill 技术需求,作者让 CodeBuddy 将 skill 做成分层调用链——判断地址类型 → 上传 OSS → 异步调用 wan2.7-videoedit,两步完成视频编辑。
  5. Skill 编写能力比框架选择更重要:AI 智能体的重心应该在 skill 编写上,而不是框架(Claude Code、OpenClaw、hermes)的使用。好的 skill 能让效率翻倍,框架选择看个人使用习惯。

实操内容保留

操作步骤

  1. 基于豆包生成可爱模特照片
  2. 进行换装操作——将要带货的童装衣服替换给 AI 模特,提示词就是白话:“把图1的小女孩换上图2的套装和裙子”
  3. 获取热门童装带货原视频(.mp4 格式)
  4. 向已集成带货 skill 的工具发送人物替换指令——上传原视频和 AI 模特图,发送指令:替换小女孩
  5. 向已集成带货 skill 的工具发送动作模仿指令——基于自己的图片生成跳舞视频,规避同质化问题

技术架构

上图为 skill 的架构全景图,核心是一套分层调用链。当用户传入视频和图片,发送视频编辑指令(如”把视频里面的的女生换成图片里面的女生,背景不变,只变动人物,背景音乐也不准变”),skill 接收到用户请求会做以下 2 件事:

  1. 判断用户传入的图和视频是在线地址还是本地地址,如果是本地地址,就把图片和视频先用 oss_uploader.py 上传到 OSS 对象存储桶中(前置操作:提前买好 OSS 以及把桶设置为公共读)
  2. 调用 wan2.7-videoedit 进行视频编辑操作,这是一个异步操作流程——发送视频编辑请求和获取成品视频分两步进行

Prompt 模板

把视频里面的的女生换成图片里面的女生,背景不变,只变动人物,背景音乐也不准变

把图1的小女孩换上图2的套装和裙子

关键概念

  • wan2.7-videoedit — 阿里视频编辑模型,支持自然语言指令编辑视频和图像参考替换
  • VTON 虚拟试衣 — 相关技术方向,服装合成到人物照片上
  • 豆包 — 用于生成可爱模特照片
  • 阿里云百炼平台 — MCP 服务部署平台,源代码可自行部署
  • Running Hub — 工作流平台,作者尝试其主体替换工作流但速度不达标
  • xfc-sell-goods — 作者制作的 AI 童装带货 Skill 名称

与其他素材的关联

原文精彩摘录

我为什么这么跳脱开始研究AI童装带货了,起因是我朋友,她做的线下实体童装店,有一天她给我发了一个链接,是一个可爱小女孩跳舞的视频,视频左下角挂了商品链接。我点进博主了主页,数据不错,我又点进了几个做同赛道的博主橱窗。可以看出来,这类赛道流量不错,转化也好。

其实常看我文章的读者应该能总结出来,AI智能体,我们要学的重心应该在skill编写上,而不是框架(claude code、Openclaw、hermes)的使用,好的skill能让你效率翻倍,框架如何选看你自己的使用习惯,写好skill也很简单,在AI编程工具如此易上手的今天,我们完全可以用大白话来搭建自己的skill。

相关页面