DeepSearchQA - 谷歌开源的AI研究Agent测试基准

作者:Jam 发布时间: December 16, 2025 分类:技术 No Comments

DeepSearchQA是谷歌开源的AI研究Agent测试基准，专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务，覆盖17个领域，要求AI像人类研究员一样通过多步骤推理生成完整答案。基准强调全面性而非单纯准确性，能衡量AI的记忆能力和思考效率。目前DeepSearchQA已应用于Gemini Deep Research Agent的性能评测，最新版本在该基准上得分46.4%，优于GPT-5 Pro。开发者可通过Kaggle平台获取开源代码参与竞赛。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

DeepSearchQA - 谷歌开源的AI研究Agent测试基准