Wan21 CausVid 14B T2V lora rank32
Back

Wan21 CausVid 14B T2V lora rank32
0 0 12

Photography

Wan21 CausVid 14B T2V lora rank32
  1. 基础模型:Wan2.1-T2V-14B

    • 架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。

    • 性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。

    • 多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。

  2. LoRA微调机制

    • 原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。

    • Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。

    • 训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。

This model is sourced from an external transfer (transfer address: https://github.com/Wan-Video/Wan2.1 ),if the original author has objections to this transfer, you can click,
Appeal
We will, within 24 hours, edit, delete, or transfer the model to the original author according to the original author's request

user_m0f4opea

user_m0f4opea

Photography

Model Information

Original author:
阿里巴巴
Model Type:
LoRA
Basic Model:
WAN2.1
  1. 基础模型:Wan2.1-T2V-14B

    • 架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。

    • 性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。

    • 多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。

  2. LoRA微调机制

    • 原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。

    • Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。

    • 训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。

This model is sourced from an external transfer (transfer address: https://github.com/Wan-Video/Wan2.1 ),if the original author has objections to this transfer, you can click,
Appeal
We will, within 24 hours, edit, delete, or transfer the model to the original author according to the original author's request