与以往侧重于检验模型记忆能力或执行固定流程能力的基准测试不同,GeneBench-Pro 旨在评估 AI 模型在模拟真实科研情境下的应用潜力。它要求模型处理模糊、不完整甚至带有噪声的数据,并从中进行判断和分析以得出结论。
GeneBench-Pro 涵盖了基因组学、定量生物学和转化医学等多个领域,共设计了 129 道测试题。这些题目被划分为 10 个主要领域和 21 个子领域,涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等多个方向。每道题都为模型提供了一份贴近实际科研环境的数据集、简要的实验背景介绍以及一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择分析方法,并根据需要调整策略,最终给出答案。
为规避传统长流程基准测试中评分可能出现的偏差,OpenAI 在构建 GeneBench-Pro 时主要采用了合成数据。这是因为若直接使用历史真实数据出题,可能存在多条有效的分析路径,导致模型即使使用了错误的方法也可能偶然得出正确答案。
通过使用合成数据,OpenAI 能够完全掌握底层因果关系和数据生成过程,从而更精确地评估模型是否真正理解了问题,而不是仅仅找到了“取巧”的方法。
目前,OpenAI 已在 Hugging Face 上公开了 10 道 GeneBench-Pro 的示例题目,并提供了交互式界面供外部研究人员进行体验。未来,将有 50 道题目被开放给 Artificial Analysis 进行第三方独立评估,以检验不同模型在该基准测试上的表现。


