OpenAI 推出 GeneBench-Pro 基准测试，用于评估 AI 模型生物学计算能力 - 世界币下注

2026-07-01 来源：上海唯星浏览量：666

OpenAI 近期发布了名为 GeneBench-Pro 的新基准测试，旨在评估人工智能模型在生物学计算领域的实际应用能力。与以往侧重于模型记忆能力或固定流程执行能力的测试不同，GeneBench-Pro 更注重模型在模拟真实科研场景下的表现，要求模型在面对复杂、不完整甚至包含干扰信息的数据时，能够进行有效的判断和分析。

该基准测试的题目设计涵盖了基因组学、定量生物学以及转化医学等多个研究方向，总计包含 129 道题目，这些题目被归类于 10 个主要领域和 21 个子领域。具体研究内容包括统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。每道题目都会为模型提供一份贴近真实科研环境的数据集，并附带简要的实验背景说明以及一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择合适的分析方法，并在过程中不断调整策略，最终得出答案。

为规避传统长流程基准测试中常见的评分偏差问题，OpenAI 在设计 GeneBench-Pro 时采用了合成数据作为核心构建方式。这是因为使用历史真实数据出题时，可能存在多条有效的分析路径，导致模型即使采用错误的方法也可能意外获得正确答案。通过合成数据，OpenAI 可以精确控制底层因果结构和数据生成过程，从而更准确地评估模型是否真正理解了问题，而非仅仅通过“技巧”过关，就像在世界杯竞猜中，准确的预测需要对数据的深入理解，而非猜测。

目前，OpenAI 已在 Hugging Face 平台上开源了 10 道代表性的 GeneBench-Pro 示例题目，并提供了一个可交互的界面供外部研究人员进行体验。未来，官方计划开放其中的 50 道题目给 Artificial Analysis 进行独立的第三方评测，以客观验证不同模型在这一基准测试中的实际性能。

返回列表