rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到60.9%的准确率。模型通过智能体强化学习进行训练,具备高效工具调用能力,支持根据问题需求自动调用合适工具,如代码执行工具,提升问题解决效率。模型训练过程采用多阶段强化学习,结合GRPO-RoC算法,优化工具使用,大幅降低成本。rStar2-Agent - 微软开源的高效AI推理模型

>>展开阅读

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了来自 200 多个来源的数据,具有多模态和多轮对话的特点,支持视觉和语言的结合。每张图像都配有文本标题,有助于模型理解和生成自然语言。FineVision 在 10 项基准测试中帮助模型平均提升了超过 20% 的性能。使用 Hugging Face 的 datasets 库可以轻松加载和使用数据集。FineVision - Hugging Face推出的开源视觉语言数据集

>>展开阅读

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成,可生成对齐的深度和RGB视频,用于高效直接的3D重建。模型包含两个关键组件:世界一致视频扩散和长距离世界探索,通过高效的点剔除和自回归推理实现迭代场景扩展。提出了一个可扩展的数据引擎,用于生成RGB-D视频训练的可扩展数据。HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

>>展开阅读

AI真正的天花板不是芯片

这期对话把火力对准了一个不体面的真相:更聪明的“路由”和更苛刻的“成本”正重写 AI 商业化的脚本。嘉宾阵容极具冲突感——半导体观察者 Dylan Patel,前谷歌云/企业家 Guido Appenzeller,风投人 Erin Price-Wright,与主持人 Erik Torenberg 一起,从 GPT-5 的“没加大算力却更会分配算力”谈起,直指 OpenAI 把免费用户与重度用户放在同一条计价胶带上滚动切割的现实逻辑。

>>展开阅读

FastVLM - 苹果公司推出的视觉语言模型

FastVLM(Fast Vision Language Model)是苹果公司推出的高效视觉语言模型。以FastViTHD混合视觉编码器为核心,融合了卷积和Transformer架构,可显著减少视觉token数量,降低编码时间和延迟。在处理高分辨率图像时,编码速度比同类模型快85倍,首次token生成时间(TTFT)提升了3.2倍,且视觉编码器尺寸更小,便于在移动设备上部署。FastVLM - 苹果公司推出的视觉语言模型

>>展开阅读

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2是苹果公司研究人员推出的高效端侧多模态模型,是MobileCLIP的升级版本。在多模态强化训练方面进行了优化,通过在DFN数据集上训练性能更优的CLIP教师模型集成和改进的图文生成器教师模型,进一步提升了模型性能。MobileCLIP2在零样本分类任务上表现出色,例如在ImageNet-1k零样本分类任务中,准确率较MobileCLIP-B提升了2.2%。MobileCLIP2-S4在保持与SigLIP-SO400M/14相当的性能的同时,模型规模更小,推理延迟更低。在多种下游任务中也展现了良好的性能,包括视觉语言模型评估和密集预测任务等。MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

>>展开阅读

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime 是 OpenAI 推出的先进语音模型,支持直接处理音频,生成自然流畅的语音。模型支持多种语言和风格,能理解非语言线索,如笑声,能在不同语言间切换。模型在指令遵循和功能调用方面表现出色,准确率显著提升。模型支持图像输入,借助 Realtime API,可基于图像内容展开对话。gpt-realtime 适用客服、教育、个人助理等多个领域,能有效提升效率和用户体验。gpt-realtime - OpenAI最新推出的AI语音模型

>>展开阅读