DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA是谷歌开源的AI研究Agent测试基准,专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务,覆盖17个领域,要求AI像人类研究员一样通过多步骤推理生成完整答案。基准强调全面性而非单纯准确性,能衡量AI的记忆能力和思考效率。目前DeepSearchQA已应用于Gemini Deep Research Agent的性能评测,最新版本在该基准上得分46.4%,优于GPT-5 Pro。开发者可通过Kaggle平台获取开源代码参与竞赛。DeepSearchQA - 谷歌开源的AI研究Agent测试基准

>>展开阅读