真实感光影z-image-turbo-flow-dpo
Back

真实感光影z-image-turbo-flow-dpo
1928 13 70

Photography

Realistic

Girl

Boy

Space scene

Landscape

Stylization

Characterization

真实感光影z-image-turbo-flow-dpo
真实感光影z-image-turbo-flow-dpo

Z-Image-Turbo 真实感光影 LoRA(Flow-DPO)

这是一个专为 Alibaba-Tongyi/Z-Image-Turbo 设计的 LoRA 适配器,采用 Flow-DPO(流匹配的直接偏好优化)进行微调,显著增强了真实感光影、电影级阴影和整体图像质量。

通过在空间严格对齐的图像对上应用 Flow-DPO,该 LoRA 有效解决了超快蒸馏模型中常见的“扁平”、“过曝”或“塑料感”等伪影问题,仅需 8 步推理 即可生成惊艳且物理准确的光照效果。

训练细节与方法论

该模型使用 Flow-DPO 的自定义实现进行训练(Improving Video Generation with Human Feedback, arXiv:2501.13918)。

1. 数据集(严格空间对齐)

为防止模型产生幻觉或改变图像结构(灾难性遗忘),偏好数据集采用了严格的空间对齐构建方式:

胜出样本(Chosen): 具有完美光影和纹理的高质量专业摄影作品。

失败样本(Rejected): 对完全相同的图像进行程序化降质处理(高斯模糊、降低对比度、极端曝光偏移、高斯噪声以及严重的 JPEG 压缩伪影)。

对齐方式: 未进行任何裁剪或扭曲操作,确保流匹配轨迹仅学习修正光影和纹理。

2. 离散时间步蒸馏保留

与标准扩散模型中连续采样时间步 t∈[0,1]t \in [0, 1]t∈[0,1] 不同,Z-Image-Turbo 是一个专门针对 8 个固定时间步 优化的 蒸馏模型。

在 Flow-DPO 训练过程中,我们动态提取了 FlowMatchEulerDiscreteScheduler 中精确的离散 ttt 分布,并将随机采样严格限制在这 8 个节点上。这确保了 LoRA 在保持 Turbo 模型极致速度的同时,不会导致输出模糊。

3. 超参数

基础模型: Alibaba-Tongyi/Z-Image-Turbo(6B 单流 DiT)

学习率: 1e-4

KL 惩罚项(β\betaβ): 1.0

有效批次大小: 1

局限性

非图像到图像修复器: 该 LoRA 修改的是文本到图像生成的 先验分布。其设计目标是从文本提示生成更优质的原始图像,而非作为 img2img 滤镜来修复用户上传的劣质照片(除非结合 RF-Inversion 技术,但该技术在 8 步模型中极不稳定)。

色彩饱和度

若 LoRA 强度过高(例如 > 1.5),由于 DPO 边界最大化特性,可能导致图像过度锐化或饱和度过高。为获得最佳真实感效果,请将强度保持在 0.6 - 1.0 范围内。

This model is sourced from an external transfer (transfer address: https://modelscope.cn/models/F16/z-image-turbo-flow-dpo ),if the original author has objections to this transfer, you can click,
Appeal
We will, within 24 hours, edit, delete, or transfer the model to the original author according to the original author's request

Dream2046

Dream2046

Photography

Realistic

Girl

Boy

Space scene

Landscape

Stylization

Characterization

Model Information

Active
Original author:
F16
Model Type:
LoRA
Basic Model:
Z-image-turbo
Resource Name:
models/loras/ZIT-flow-dpo-lora.safetensors
MD5:
41c63a50cf73fd94f632e1c9128e713d

Z-Image-Turbo 真实感光影 LoRA(Flow-DPO)

这是一个专为 Alibaba-Tongyi/Z-Image-Turbo 设计的 LoRA 适配器,采用 Flow-DPO(流匹配的直接偏好优化)进行微调,显著增强了真实感光影、电影级阴影和整体图像质量。

通过在空间严格对齐的图像对上应用 Flow-DPO,该 LoRA 有效解决了超快蒸馏模型中常见的“扁平”、“过曝”或“塑料感”等伪影问题,仅需 8 步推理 即可生成惊艳且物理准确的光照效果。

训练细节与方法论

该模型使用 Flow-DPO 的自定义实现进行训练(Improving Video Generation with Human Feedback, arXiv:2501.13918)。

1. 数据集(严格空间对齐)

为防止模型产生幻觉或改变图像结构(灾难性遗忘),偏好数据集采用了严格的空间对齐构建方式:

胜出样本(Chosen): 具有完美光影和纹理的高质量专业摄影作品。

失败样本(Rejected): 对完全相同的图像进行程序化降质处理(高斯模糊、降低对比度、极端曝光偏移、高斯噪声以及严重的 JPEG 压缩伪影)。

对齐方式: 未进行任何裁剪或扭曲操作,确保流匹配轨迹仅学习修正光影和纹理。

2. 离散时间步蒸馏保留

与标准扩散模型中连续采样时间步 t∈[0,1]t \in [0, 1]t∈[0,1] 不同,Z-Image-Turbo 是一个专门针对 8 个固定时间步 优化的 蒸馏模型。

在 Flow-DPO 训练过程中,我们动态提取了 FlowMatchEulerDiscreteScheduler 中精确的离散 ttt 分布,并将随机采样严格限制在这 8 个节点上。这确保了 LoRA 在保持 Turbo 模型极致速度的同时,不会导致输出模糊。

3. 超参数

基础模型: Alibaba-Tongyi/Z-Image-Turbo(6B 单流 DiT)

学习率: 1e-4

KL 惩罚项(β\betaβ): 1.0

有效批次大小: 1

局限性

非图像到图像修复器: 该 LoRA 修改的是文本到图像生成的 先验分布。其设计目标是从文本提示生成更优质的原始图像,而非作为 img2img 滤镜来修复用户上传的劣质照片(除非结合 RF-Inversion 技术,但该技术在 8 步模型中极不稳定)。

色彩饱和度

若 LoRA 强度过高(例如 > 1.5),由于 DPO 边界最大化特性,可能导致图像过度锐化或饱和度过高。为获得最佳真实感效果,请将强度保持在 0.6 - 1.0 范围内。

This model is sourced from an external transfer (transfer address: https://modelscope.cn/models/F16/z-image-turbo-flow-dpo ),if the original author has objections to this transfer, you can click,
Appeal
We will, within 24 hours, edit, delete, or transfer the model to the original author according to the original author's request