基础模型:Wan2.1-T2V-14B
架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。
性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。
多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。
LoRA微调机制
原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。
Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。
训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。
基础模型:Wan2.1-T2V-14B
架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。
性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。
多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。
LoRA微调机制
原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。
Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。
训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。