LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

作者:Jam 发布时间: December 8, 2025 分类:技术 No Comments

LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构（MM-DiT+Single-DiT），结合视觉语言模型（VLM）条件编码器，能实现文生图和多轮图像编辑功能。在图像编辑方面，支持对象添加、风格迁移等15类任务，保持图像风格和光照一致性。具备强大的中文文本渲染能力，可处理标准汉字、生僻字和部分书法字体，能根据场景自动调整字体和排版。通过轻量化结构和优化训练策略，LongCat-Image可在消费级GPU上高效推理，生成“摄影棚级”细节图像。在性能上，在多个图像编辑基准测试中达到开源SOTA水平，在中文文字生成和文生图任务中表现优异。资源已开源至Hugging Face和GitHub，供开发者使用。 LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

>>展开阅读

FLUX.2 - 黑森林开源的图像生成与编辑模型

作者:Jam 发布时间: November 26, 2025 分类:技术 No Comments

FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型，支持文生图、多图参考和图像编辑，具备更丰富的细节、清晰纹理和稳定光线。分为四个版本：FLUX.2 [pro]（媲美顶级闭源模型）、FLUX.2 [flex]（可调节参数）、FLUX.2 [dev]（开源32B权重模型）和FLUX.2 [klein]（即将推出的轻量化模型）。模型基于Mistral-3 24B视觉语言模型和Rectified Flow Transformer架构，能处理复杂排版、信息图和UI文字渲染，支持高达4MP分辨率的编辑。开源版本可在Hugging Face获取，商业授权需访问官网。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

FLUX.2 - 黑森林开源的图像生成与编辑模型