OpenAI 推出 GeneBench-Pro 基准测试，用于评估 AI 模型生物学计算能力

世界杯直播深耕多维度专题报道，全方位解读世界杯领域，用心服务每一位用户。

Martha Ryan

June, 16 2019 at 2:12 pm

News

2026Worldcup世界杯激情比分直播专注于世界杯赛事直播与实时比分服务，覆盖全球热门比赛动态、球队资讯与赛事新闻内容。核心价值在于通过高清流畅的播放体验与快速精准的比分更新，为用户打造更加沉浸式的世界杯观赛平台。功能介绍包括赛事直播、实时比分、赛程查询与专题报道，同时通过稳定的平台环境与持续更新的赛事资源形成可靠的信任背书。用户进入平台后即可快速浏览世界杯相关内容。立即加入2026Worldcup世界杯激情比分直播，感受全球足球狂欢魅力。

世界杯直播专注秒级比分更新，不错过任何精彩瞬间，为用户提供专业可靠的体验。

围绕权威赛事资讯，深入了解球队动态，世界杯直播持续打磨更优质的服务。

在世界杯官网方面，世界杯直播提供贴心周到的支持。

世界杯直播以世界杯赛程为核心，带来高效便捷的体验。

想了解更多足球世界杯相关内容，尽在世界杯直播。

Comments

Harold Brown

June, 16 2019 at 2:48 pm

世界杯直播围绕2026世界杯不断创新，回应用户的真实需求。

Martha Ryan

世界杯直播深耕多维度专题报道，全方位解读世界杯领域，用心服务每一位用户。

精选世界杯竞猜内容，世界杯直播与你一同发现更多精彩。
Reply

Melissa Wagner

在世界杯官网方面，世界杯直播提供贴心周到的支持。

世界杯直播专注高清流畅直播，身临其境的观赛感受，为用户提供专业可靠的体验。

想了解更多足球世界杯相关内容，尽在世界杯直播。

by Martha Ryan

2026-07-01

与以往侧重于检验模型记忆能力或执行固定流程能力的基准测试不同，GeneBench-Pro 旨在评估 AI 模型在模拟真实科研情境下的应用潜力。它要求模型处理模糊、不完整甚至带有噪声的数据，并从中进行判断和分析以得出结论。

GeneBench-Pro 涵盖了基因组学、定量生物学和转化医学等多个领域，共设计了 129 道测试题。这些题目被划分为 10 个主要领域和 21 个子领域，涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等多个方向。每道题都为模型提供了一份贴近实际科研环境的数据集、简要的实验背景介绍以及一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择分析方法，并根据需要调整策略，最终给出答案。

为规避传统长流程基准测试中评分可能出现的偏差，OpenAI 在构建 GeneBench-Pro 时主要采用了合成数据。这是因为若直接使用历史真实数据出题，可能存在多条有效的分析路径，导致模型即使使用了错误的方法也可能偶然得出正确答案。

通过使用合成数据，OpenAI 能够完全掌握底层因果关系和数据生成过程，从而更精确地评估模型是否真正理解了问题，而不是仅仅找到了“取巧”的方法。

目前，OpenAI 已在 Hugging Face 上公开了 10 道 GeneBench-Pro 的示例题目，并提供了交互式界面供外部研究人员进行体验。未来，将有 50 道题目被开放给 Artificial Analysis 进行第三方独立评估，以检验不同模型在该基准测试上的表现。

by Martha Ryan

2 days ago