DMD2 模型
社区模型集合 中有一部分 NPU 模型融合了 DMD2 LoRA。它们以少量画质损失,换来大幅的速度提升与显著更低的设备发热。
如何识别 DMD2 模型
文件名中带有 _dmd2 字样的模型,已将 DMD2 LoRA 融合进 checkpoint。例如:
anythingxl_dmd2_qnn2.28_8gen3.zip没有这个后缀的模型按照普通的 SDXL/SD1.5 处理,使用原模型推荐的参数即可。
推荐参数
DMD2 模型针对极低步数与 CFG 1 进行了调优,使用:
| 参数 | 值 |
|---|---|
| 采样器 | LCM |
| CFG | 1 |
| 步数 | 8 |
DMD2 在更高的 CFG 或使用 DPM++ / Euler 等采样器时表现不正常 —— 请使用上面这组组合。
为什么这么快
两个效果叠加:
- 步数更少 —— 8 步而非常见的 20–30 步,UNet 推理次数显著减少。
- CFG = 1 优化 —— 在 NPU 路径下,CFG 恰好为 1 时跳过无条件 UNet 推理,每一步的计算量大约减半(详见 CFG 说明)。
实测中,DMD2 模型端到端通常比同一基底模型的常规设置快约 4 倍。具体倍数取决于对比基准(步数、CFG、以及基底模型是否也用 CFG 1)。
实测数据(SDXL)
- 在 16GB 及以上的设备上,关闭 低内存模式 运行 SDXL DMD2 模型,单张生成通常只需要 6–7 秒。
- 由于单次生成时间很短,设备始终保持低温 —— 你可以连续创建多张图像而不触发降频。
画质权衡
在默认设置下,DMD2 出图质量大约为原始模型的 80–90%。差异通常更多体现在细微纹理与小细节上,整体构图差距较小。
如果你既想要速度也想要画质,可以这样做:
- 用 DMD2 模型快速生成多张候选。
- 挑出一张满意的。
- 用 原始(非 DMD2)模型 + img2img,以中等去噪强度对其进行细化,保留构图的同时补回细节。
思路与 SD1.5 Highres.fix 类似 —— DMD2 负责出结构,完整模型负责补细节。
何时优先选择 DMD2
- 你想快速尝试不同提示词和随机种子。
- 你想在一次会话中连续生成很多图,又不希望设备发热。
- 你的设备勉强能跑 SDXL,但完整模型实在偏慢。
如果你只是想把单张图的画质做到最好,则可以直接使用非 DMD2 模型,或先用 DMD2 出图再用上面的 img2img 工作流进一步精修。