Instruct-Imagen

371 词

Instruct-Imagen

谷歌这个多模态图像生成模型Instruct-Imagen强啊,真正的将 LLM 和现在的 SD 生态进行了整合。

它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。
相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。

具体的研究内容:

引入多模态指令,任务表示普遍表示来自多种模态的指令,例如文本、边缘、掩码、样式、主题等。

建议执行检索增强训练和多模态指令调整,以适应预先训练的文本到图像模型以遵循多模态指令。

构建了Instruct-Imagen,这是一个处理异构图像生成任务的统一模型,超越了各自领域的多项最先进技术。

Instruct-Imagen 可以推广到看不见的复杂任务,无需任何临时设计。

https://browse.arxiv.org/html/2401.01952v1