LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型
LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编码器,能实现文生图和多轮图像编辑功能。在图像编辑方面,支持对象添加、风格迁移等15类任务,保持图像风格和光照一致性。具备强大的中文文本渲染能力,可处理标准汉字、生僻字和部分书法字体,能根据场景自动调整字体和排版。通过轻量化结构和优化训练策略,LongCat-Image可在消费级GPU上高效推理,生成“摄影棚级”细节图像。在性能上,在多个图像编辑基准测试中达到开源SOTA水平,在中文文字生成和文生图任务中表现优异。资源已开源至Hugging Face和GitHub,供开发者使用。