ltxv-2b
基于DiT(Diffusion Transformer)架构开发,参数规模为20亿(2B):
- 实时生成速度:可短时间内生成5秒的24FPS视频(分辨率768x512或832x480),生成速度超越播放速度;
- 显存需求:采用bfloat16精度优化显存占用,适配NVIDIA RTX4090等主流显卡,支持文本/图像/视频多模态输入;
- 高质量动态效果:消除闪烁、抖动和物体变形,提供卓越的运动一致性;
- 多场景支持:原生兼容ComfyUI,支持文生视频(t2v)、图生视频(i2v)和视频转绘工作流。
- 开源说明:基于开源协议发布,默认仅限非商业用途(如研究、个人创作)
ltx-video-2b-v0.9.5(量化版本)
核心升级:引入int8量化技术,显著降低显存占用至10GB以下,适配中端显卡(如RTX 3080)。
新增功能:集成Gradio交互界面,支持用户通过WebUI直接操作,简化部署流程。
新增视频扩展功能(前后帧预测),支持生成更长视频片段。
ltx-video-2b-v0.9.1(优化版本)
改进重点:针对v0.9的稳定性与兼容性优化,提升与ComfyUI的集成体验。
更新内容:修复部分显存溢出问题,优化多GPU并行支持。增强提示词解析能力,支持更复杂的时序描述(如分镜脚本)。
默认推理步骤调整至25步,平衡速度与画面细节。
用户反馈:生成效率提升约15%,但仍需较高硬件配置
ltx-video-2b-v0.9(初始版本)
核心功能:首个公开发布的稳定版本,支持基础文本到视频(T2V)、图像到视频(I2V)生成,生成逻辑基于20步扩散过程,默认输出5秒(121帧)视频。
技术特点:依赖T5-XXL文本编码器,需搭配t5xxl_fp16模型文件。显存占用约16-18GB,需高性能显卡支持。
局限性:早期版本可能存在运动连贯性不足或复杂场景下的物体变形问题。
This model is sourced from an external transfer (transfer address:
https://huggingface.co/Lightricks/LTX-Video ),if the original author has objections to this transfer, you can click,
Appeal
We will, within 24 hours, edit, delete, or transfer the model to the original author according to the original author's request