OpenAI 近期发布了名为 GeneBench-Pro 的新基准测试,旨在评估人工智能模型在生物学计算领域的实际应用能力。与以往侧重于模型记忆能力或固定流程执行能力的测试不同,GeneBench-Pro 更注重模型在模拟真实科研场景下的表现,要求模型在面对复杂、不完整甚至包含干扰信息的 数据时,能够进行有效的判断和分析。
该基准测试的题目设计涵盖了基因组学、定量生物学以及转化医学等多个研究方向,总计包含 129 道题目,这些题目被归类于 10 个主要领域和 21 个子领域。具体研究内容包括统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。每道题目都会为模型提供一份贴近真实科研环境的数据集,并附带简要的实验背景说明以及一个与后续决策相关的目标问题。模型需要自主完成数据探索、选择合适的分析方法,并在过程中不断调整策略,最终得出答案。
为规避传统长流程基准测试中常见的评分偏差问题,OpenAI 在设计 GeneBench-Pro 时采用了合成数据作为核心构建方式。这是因为使用历史真实数据出题时,可能存在多条有效的分析路径,导致模型即使采用错误的方法也可能意外获得正确答案。通过合成数据,OpenAI 可以精确控制底层因果结构和数据生成过程,从而更准确地评估模型是否真正理解了问题,而非仅仅通过“技巧”过关,就像在世界杯竞猜中,准确的预测需要对数据的深入理解,而非猜测。
目前,OpenAI 已在 Hugging Face 平台上开源了 10 道代表性的 GeneBench-Pro 示例题目,并提供了一个可交互的界面供外部研究人员进行体验。未来,官方计划开放其中的 50 道题目给 Artificial Analysis 进行独立的第三方评测,以客观验证不同模型在这一基准测试中的实际性能。

