小红书与复旦大学联合发布InstanceAssemble图像生成框架

作者:互联网

2026-03-25

⼤语⾔模型脚本

小红书与复旦大学联合研发的InstanceAssemble框架,以创新的实例组装技术实现了从布局到图像的精准生成,为AI视觉创作带来全新突破。

InstanceAssemble是什么

该框架采用先进的"实例组装注意力"机制,能够根据用户提供的边界框位置和内容描述,在指定区域生成符合语义的图像内容。基于扩散变换器架构的轻量级设计,仅需少量额外参数即可适配主流模型,显著降低了技术使用门槛。

InstanceAssemble的主要功能

  1. 精准布局控制:通过定义物体位置和内容描述,确保AI在目标区域生成语义匹配的视觉元素。
  2. 布局复杂度适应:无论是简单物体组合还是密集场景布局,都能保持高精度的对齐效果和语义连贯性。
  3. 多模态内容定义:支持文本描述、参考图像、深度图等多种输入方式,提升生成结果的准确性和细节表现。
  4. 轻量级模型适配:仅需约3.46%额外参数即可适配Stable Diffusion等主流模型,大幅减少计算资源需求。
  5. 卓越的泛化性能:使用稀疏布局训练却能稳定处理密集布局场景,适应不同复杂度的创作需求。

InstanceAssemble的技术原理

  1. 扩散模型架构:基于MMDiT等扩散变换器架构,通过渐进式去噪过程生成高质量图像。
  2. 实例组装机制
    1. 布局编码器:将边界框和内容描述转换为实例令牌,通过DenseSample增强位置信息编码。
    2. 组装注意力模块:在图像生成过程中,使图像令牌与实例令牌交互,确保每个实例区域的语义一致性。
    3. 级联处理结构:先由基础模型处理全局特征,再通过专用模块处理布局条件,兼顾整体质量与局部精度。
  3. 高效适配方案:采用LoRA技术仅在注意力模块添加可训练参数,实现布局控制功能而不影响基础模型性能。
  4. 评估体系创新:提出LGS评估指标并建立DenseLayout测试集,包含5000张图像和90000个实例用于性能验证。

InstanceAssemble的项目地址

  1. GitHub仓库:https://github.com/FireRedTeam/InstanceAssemble
  2. arXiv技术论文:https://arxiv.org/pdf/2509.16691

InstanceAssemble的应用场景

  1. 创意设计领域:快速生成符合特定布局的设计草图和广告画面,精确控制视觉元素。
  2. 数字内容生产:为社交媒体和视频制作提供高质量的图像生成解决方案。
  3. 游戏开发支持:高效生成游戏场景和装备布局,加速开发流程。
  4. 教学辅助工具:创建直观的教学材料和虚拟实验场景,提升知识传递效果。
  5. 建筑方案设计:生成室内外空间布局效果图,优化设计方案呈现。

InstanceAssemble通过创新的技术架构和实用的功能设计,为多领域的视觉内容创作提供了高效精准的AI解决方案。

相关标签:

Diffusion