AI绘画基础-模型分类

在AI绘画中,模型分为大模型、vae、lora、embedding、hypernetwork等类型,不同类型的模型发挥着不同的作用。

一、大模型

大模型又称基础模型、底模或者主模型,模型文件的后缀格式为.ckpt或者.safetensors。

ckpt是checkpoint的简称,翻译成中文意思是“检查点”,.ckpt是‌TensorFlow 1.x中使用的文件格式,用于保存模型参数和优化器状态的文件格式,在使用场景上主要用于训练过程中的进度保存,它通常与.meta文件一起使用,以便恢复训练过程。而.safetensors是TensorFlow 2.x中新增的文件格式,用于保存模型参数和优化器状态,专门设计用来增强安全性,提供比传统.ckpt文件更高级别的保护,适用于需要高安全性的场景。

大模型决定了 AI 绘画的主要风格,主要的画风可简单分为三大类:写实系、二次元、2.5D。

大模型选择切换在stable diffusion webui界面左上角位置,如图:

二、VAE

VAE的全称是Variational Autoencoder,中文叫变分自编码器,模型文件后缀格式通常是 .pt 或 .safetensors ,它在AI绘画中的作用主要是滤镜和微调。VAE 模型要搭配大模型一起使用,但并非所有大模型都需要 VAE, 因为一些稳定的大模型已经将 VAE融合到自身模型中,可以直接生成色彩正常的图像,再额外使用 VAE 可能会适得其反。

VAE选择切换在stable diffusion webui界面左上角位置,如图:

三、LORA

LoRA,英文全称是Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,Lora 模型是一种微调模型,用于生成特定的人物、物品或画风。

在stable diffusion webui界面上的位置如下:

四、Embedding

Embedding 模型是一种微调模型,可以理解为一堆提示词的集合,它将很多的提示词汇总到一个文件里,我们需要的时候,只需要调用这个Embedding文件,就等同于输入了很多的提示词。通常我们用在负面提示词场景下比较多,因为在人物绘图时,我们都会对身体某些部位编写相同的关键词,比如描述手指,经常要写坏的手指、多余的手指、缺失的手指等多个关键词,导致人物绘图时每次都需要这么多的关键词,使得有时候反向提示词经常比正向提示词多得多。

在stable diffusion webui界面上的位置如下:

五、Hypernetwork

‌Hypernetwork‌在AI绘画中是一个小型神经网络,它附加到Stable Diffusion模型以修改其样式,它的功能与Embeddings及LORA类似,都是对图片进行针对性的调整,但Hypernetwork模型现在已经不常用了,逐渐被 Lora 模型替代。