V-JEPA 2 - Meta AI 推出的最强世界大模型
V-JEPA 2是什么
V-JEPA 2 是 Meta AI 推出的基于视频数据的世界大模型,拥有 12 亿参数。模型基于自监督学习从超过 100 万小时的视频和 100 万张图像中训练而成,能理解物理世界中的物体、动作和运动,预测未来状态。模型用编码器-预测器架构,结合动作条件预测,支持零样本机器人规划,让机器人在新环境中完成任务。模型具备视频问答能力,支持结合语言模型回答与视频内容相关的问题。V-JEPA 2 在动作识别、预测和视频问答等任务上表现出色,为机器人控制、智能监控、教育和医疗等领域提供强大的技术支持,是迈向高级机器智能的重要一步。