MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 是面壁智能开源的 8B 参数多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 180 万像素图像仅需 640 个视觉 Token,大大减少了计算资源消耗。模型在高刷视频理解方面表现突出,可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。MiniCPM-V 4.5 支持多语言交互,可处理 30 多种语言,适用于多语言客服和翻译场景。文档处理能力也非常出色,能处理复杂图表和票据,支持手写体 OCR 和多语言文档解析。模型支持长思考和短思考的可控混合推理,可根据实际需求灵活调整推理速度和深度。MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

>>展开阅读