LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编码器,能实现文生图和多轮图像编辑功能。在图像编辑方面,支持对象添加、风格迁移等15类任务,保持图像风格和光照一致性。具备强大的中文文本渲染能力,可处理标准汉字、生僻字和部分书法字体,能根据场景自动调整字体和排版。通过轻量化结构和优化训练策略,LongCat-Image可在消费级GPU上高效推理,生成“摄影棚级”细节图像。在性能上,在多个图像编辑基准测试中达到开源SOTA水平,在中文文字生成和文生图任务中表现优异。资源已开源至Hugging Face和GitHub,供开发者使用。LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

>>展开阅读

FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。模型基于Mistral-3 24B视觉语言模型和Rectified Flow Transformer架构,能处理复杂排版、信息图和UI文字渲染,支持高达4MP分辨率的编辑。开源版本可在Hugging Face获取,商业授权需访问官网。FLUX.2 - 黑森林开源的图像生成与编辑模型

>>展开阅读