UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及PixelQA任务。UniPixel的核心优势在于其强大的像素级推理能力,能根据语言描述生成精确的像素级掩码,实现语言与视觉的深度融合。在多个基准测试中,UniPixel表现出色,例如在ReVOS推理分割基准上,UniPixel-3B达到了62.1 J&F的高分,超越了现有所有模型。UniPixel提供了丰富的模型权重和数据集,支持灵活的硬件设置和高效的训练技术,为研究和应用提供了极大的便利。在智能监控、内容创作、教育、医疗影像分析和自动驾驶等领域的广泛应用前景。UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

>>展开阅读