对话OpenAI科学事业部负责人:AI for Science的竞争才刚开始
DeepTech深科技,2026-01-29 14:10:49
![]()
(来源:麻省理工科技评论)
ChatGPT 问世后的三年里,OpenAI 的技术颠覆了人们在居家、工作、校园等各类场景的日常活动。ChatGPT 的影响力无处不在,遍及人们能打开浏览器、拿出手机的地方。
如今,OpenAI 正式宣布着手布局科研领域。2025 年 10 月,OpenAI 宣布成立全新的"科学事业部",核心职责是探索其大语言模型为科研人员提供助力的方式,同时优化旗下工具以适配科研工作的需求。
过去数月,社交媒体和学术期刊上接连出现相关内容,数学家、物理学家、生物学家等不同领域的科研人员,纷纷谈论大语言模型(尤其是 OpenAI 的 GPT-5)如何助力他们取得新发现,或是引导他们找到原本可能忽略的问题解决方案。OpenAI 科学事业部的成立,在一定程度上也是为了与这一科研群体建立深度联结。
然而,OpenAI 在这一领域的布局实际上已经落后了。竞争对手 Google DeepMind 早在数年前便成立了人工智能科研团队,该公司研发的 AlphaFold、AlphaEvolve 等科学模型也取得了开创性突破。(《麻省理工科技评论》曾就该团队的相关情况采访 Google DeepMind 首席执行官兼联合创始人德米斯・哈萨比斯(Demis Hassabis),他表示:“这是我创立 DeepMind 的初衷…… 事实上,这也是我毕生深耕人工智能领域的原因。”)
那么,OpenAI 为何选择此时布局科研领域?进军科研领域与公司的整体使命如何契合?OpenAI 究竟希望通过这一布局实现怎样的目标?
上周,我在独家专访中向 OpenAI 副总裁、新任 OpenAI 科学事业部负责人凯文・韦尔(Kevin Weil)提出了这些问题。
![]()
核心使命
凯文・韦尔是一位资深的产品领域从业者。他曾担任 Twitter 和 Instagram 的产品负责人,数年前加入 OpenAI,出任首席产品官。但他的职业起点是科研领域:在斯坦福大学攻读粒子物理博士学位期间,他完成了三分之二的学业,随后放弃学术道路,追寻硅谷的创业梦想。韦尔总乐于提及自己的科研背景,他说:“我曾以为自己会一辈子当一名物理教授,即便现在,我度假时也会读数学相关的书籍。”
当被问及 OpenAI 科学事业部与公司现有的白领生产力工具、爆火的视频生成应用 Sora 如何协同发展时,韦尔道出了 OpenAI 的核心宗旨:“OpenAI 的使命是研发人工通用智能,并让这项技术为全人类带来福祉。”
他表示,不妨想象这项技术未来对科学领域的影响:新药物的研发、新材料的诞生、新设备的创造。“试想一下,它能帮助我们探索现实的本质,梳理那些尚未解决的科学难题。人工通用智能能为人类带来的最重大、最积极的影响,或许正是其推动科学发展的能力。”
他补充道:“GPT-5 的出现,让我们看到了这一可能性的实现。”
在韦尔看来,如今大语言模型的能力已足够成为科研人员的得力合作伙伴。它们能与科研人员头脑风暴提出想法,为研究提供全新的探索方向,还能从数十年前冷门期刊或外文期刊记载的旧解决方案中,找到与新问题相契合的关联点,为研究提供有效参考。
而大约一年前,大语言模型还不具备这样的能力。2024 年 12 月,OpenAI 发布首款推理模型——这类大语言模型能将问题拆解为多个步骤并逐步求解,此后公司便不断突破这项技术的应用极限。推理模型的出现,让大语言模型解决数学和逻辑问题的能力得到了大幅提升。韦尔说:“就在几年前,当我们发现这些模型能在学术能力评估测试(SAT)中取得满分 800 分时,所有人都大为震惊。”
但很快,大语言模型便能在数学竞赛中斩获佳绩,还能求解研究生阶段的物理难题。去年,OpenAI 和 Google DeepMind 均宣布,其研发的大语言模型在国际数学奥林匹克竞赛中取得了金牌级别的成绩,该竞赛是全球难度最高的数学赛事之一。韦尔表示:“这些模型的能力如今已不只是超越 90% 的研究生,而是真正跻身人类能力的前沿领域。”
这一说法言之甚重,也存在诸多需要注意的地方。但毋庸置疑的是,搭载推理模型的 GPT-5,在解决复杂问题的能力上较 GPT-4 有了大幅提升。全球人工智能领域有一项名为 GPQA 的行业基准测试,包含 400 多道选择题,专门考察考生在生物、物理、化学领域的博士阶段知识。GPT-4 在该测试中的得分率仅为 39%,远低于人类专家约 70% 的基准线。而据 OpenAI 数据,2024 年 12 月发布的 GPT-5 最新版本 GPT-5.2,在该测试中的得分率达到了 92%。
![]()
过度炒作
行业内对 GPT-5 的期待显而易见,甚至可能已趋于过度。今年 10 月,韦尔等 OpenAI 高管在 X 平台发文称,GPT-5 已找到数个数学未解难题的解决方案。但数学家们很快指出,GPT-5 实际只是从过往的研究论文中挖掘出了已有的答案,其中至少有一篇论文为德文撰写。尽管这一能力仍有实际价值,却并非 OpenAI 宣称的重大突破。随后,韦尔及其同事删除了相关推文。
如今韦尔的表述变得更为谨慎。他认为,找到那些已存在却被遗忘的答案,本身就具备重要价值。他说:“人类的科研进步始终站在巨人的肩膀上,若大语言模型能整合这些被遗忘的知识,让我们不必在已有答案的问题上浪费时间,这本身就是对科学发展的一种推动。”
他也淡化了大语言模型即将实现颠覆性科学发现的说法。他说:“我认为目前的模型还不具备这样的能力,或许未来它们能做到,我对此持乐观态度。”
但他强调,这并非 OpenAI 科学事业部的使命:“我们的使命是推动科学发展,而推动科学发展的标准,并非一定要实现爱因斯坦式的、颠覆整个学科领域的创新。”在韦尔看来,核心问题在于:“科研人员与大语言模型协作,能否比科研人员独自研究完成更多工作、且效率更高?科学发展是否因此真正提速?我认为,我们已经看到了答案。”
2024 年 11 月,OpenAI 发布了一系列由公司内外科研人员提供的实际案例研究,详细讲述了他们使用 GPT-5 的方式及该模型为其研究带来的帮助。韦尔说:“这些案例的研究者大多早已在科研中直接使用 GPT-5,他们通过各种方式联系到我们,告诉我们‘看看这些工具能让我完成怎样的研究’。”
GPT-5 的核心优势体现在三个方面:为科研人员找到其未曾了解的现有研究成果及关联点,有时还能由此激发新的研究思路;协助科研人员草拟数学证明;为科研人员在实验室验证假说提供方法建议。
韦尔说:“GPT-5.2 几乎研读了过去 30 年发表的所有学术论文,它不仅能理解科研人员所处领域的知识,还能从其他不相关的学科中找到可类比的内容。”
他接着说:“这项能力的价值难以估量。你总能在相邻学科找到一位人类合作者,却很难在所有可能相关的上千个相邻学科中,各找到一位合作者。除此之外,我还能在深夜与模型协作,它无需休息,我还能同时向它提出 10 个问题,而这样的行为对人类合作者而言,会显得十分突兀。”
![]()
实际案例
OpenAI 走访的大部分科研人员,都印证了韦尔的观点。
范德堡大学物理与天文学教授罗伯特・谢勒(Robert Scherrer)此前仅将 ChatGPT 当作娱乐工具使用,他告诉我:“我曾让它以《贝奥武夫》的文风改写《吉利根岛》的主题曲,它完成得非常好。” 直到他的同事、现任职于 OpenAI 的物理学家亚历克斯・卢普萨斯科(Alex Lupsasca)告诉他,GPT-5 助力解决了一个他钻研许久的研究难题,他才开始将其用于科研。
卢普萨斯科为谢勒开通了 GPT-5 Pro 的使用权限,这是 OpenAI 每月 200 美元的高级订阅服务。谢勒说:“我和我的研究生为一个难题钻研了数月仍无头绪,而 GPT-5 却成功解决了它。”
但他也表示,GPT-5 并非完美:“它仍会犯一些低级错误,当然我自己也会犯错,但 GPT-5 的错误往往更为离谱。” 不过他认为,这款模型的能力仍在持续提升:“前提是,GPT-5 能够以当前的发展趋势保持下去,我相信不久后,所有科研人员都会使用大语言模型。”
非营利性研究机构杰克逊实验室的生物学教授德里亚・乌努尔马兹(Derya Unutmaz),在免疫系统相关研究中,会使用 GPT-5 进行头脑风暴、总结论文和规划实验。在他向 OpenAI 分享的案例中,其团队曾对一组旧数据集进行过分析,而 GPT-5 为这组数据带来了全新的分析视角和解读结论。
他说:“大语言模型如今已成为科研人员的必备工具。当你能借助它在短时间内完成原本需要数月的数据集分析时,不使用这项技术就意味着落后。”
加州大学伯克利分校的统计学家尼基塔・日沃托夫斯基(Nikita Zhivotovskiy)表示,自初代 ChatGPT 发布以来,他便在研究中使用大语言模型。和谢勒一样,他认为大语言模型最大的价值,是能发现其研究工作与一些未知现有研究成果之间的意外关联。他说:“我相信,大语言模型正成为科研人员的核心技术工具,就像曾经的计算机和互联网一样。那些不使用这项技术的科研人员,未来可能会陷入长期的发展劣势。”
但他认为,大语言模型短期内无法实现原创性的科学发现。他说:“我几乎没见过这类模型能提出足以单独发表的全新观点或论证,截至目前,它们似乎主要是整合现有研究成果,有时还会出现整合错误,而非提出真正的全新研究方法。”
为了呈现更全面、客观的观点,我还联系了几位与 OpenAI 无任何关联的科研人员。
利物浦大学化学教授、利弗休姆功能材料设计研究中心主任安迪・库珀(Andy Cooper)的态度则更为谨慎。他说:“截至目前,我们尚未发现大语言模型能从根本上改变科学研究的方式,但我们近期的研究成果表明,这项技术在科研领域仍有其应用价值。”
库珀目前正牵头研发一款 “人工智能科学家” 系统,该系统能实现部分科研流程的全自动化。他表示,其团队不会使用大语言模型进行科研构思,但在更广泛的自动化系统中,这项技术的应用价值正逐步显现,比如大语言模型能协助操控实验室机器人。
库珀说:“我猜测,至少在初期,大语言模型会更多应用于机器人相关的科研流程。因为我不确定,人们是否愿意听从大语言模型的指令开展研究,至少我自己是不愿意的。”
![]()
错误隐患
大语言模型的实用性虽在不断提升,但使用时保持谨慎仍至关重要。2024 年 12 月,量子力学科学家乔纳森・奥本海姆(Jonathan Oppenheim)指出,某本科学期刊发表的一篇论文中存在由 GPT-5 引发的错误。他在 X 平台发文称:“OpenAI 高管正在推广《物理快报 B》的一篇论文,该论文的核心思路由 GPT-5 提出,这或许是首篇由大语言模型贡献核心观点并通过同行评审的论文。但有一个小问题:GPT-5 提出的思路,验证的对象完全错误。”
他接着说:“研究人员原本让 GPT-5 设计一个验证非线性理论的实验方案,它却给出了一个验证非定域性理论的方案。这两个概念看似相关,实则完全不同。就像你想要一个新冠病毒检测试剂盒,大语言模型却欣然递给你一个水痘检测试剂盒。”
显然,众多科研人员正探索出与大语言模型协作的创新且贴合科研需求的方式,但同样显而易见的是,这项技术仍会犯一些极其隐蔽的错误,甚至连领域内的专家都难以察觉。
这一问题的部分原因,在于 ChatGPT 的回答方式会让使用者产生认同感,从而放松警惕。正如奥本海姆所言:“核心问题在于,大语言模型的训练目标是迎合使用者的需求,而科学研究需要的是能提出质疑、推动我们思考的工具。” 曾有一个极端案例,一位非科研领域的人士因 ChatGPT 的误导,数月来一直认为自己开创了数学的一个新分支。
当然,韦尔十分清楚大语言模型的幻觉问题,但他强调,新一代模型的幻觉现象已大幅减少。即便如此,他认为过度关注幻觉问题,反而可能忽略核心。
韦尔说:“我的一位同事曾是数学教授,他说过的一句话让我印象深刻。他说:‘我做研究时,和同事头脑风暴交流想法,90% 的表述都是错误的,但这正是交流的意义所在。我们一起大胆提出想法,就是为了在试错中找到可行的解决方案。
韦尔说:“这种试错的过程,其实正是科研中所需要的。当你提出足够多的错误想法后,总会有人从中发现一丝正确的线索,另一个人再抓住这一线索继续思考:‘你说的这点并不完全正确,但如果我们换一种思路 ——’就这样,我们能在探索中慢慢找到解决问题的方向。”
这正是韦尔为 OpenAI 科学事业部设定的核心发展愿景。他说,GPT-5 的能力固然出色,但并非能给出终极答案的神谕,这项技术的价值在于为科研人员指引新的探索方向,而非直接给出确定的答案。
事实上,OpenAI 目前正着手优化 GPT-5 的回答方式,让其在给出答案时降低语气的确定性。比如,它不会直接说 “这就是答案”,而是会向科研人员表述为 “这一思路可供你参考”。
韦尔说:“这正是我们目前投入大量精力研究的方向,我们希望让模型具备一定的认知谦逊。”
![]()
自我核查
OpenAI 探索的另一方向,是让 GPT-5 实现自我事实核查。研究发现,若将 GPT-5 给出的答案重新输入模型,它能对自身答案进行分析,并指出其中的错误。
韦尔说:“我们可以将模型设置为自身的校验者,打造一套这样的工作流程:模型先独立思考并给出答案,再将答案传递给另一款同类型模型,若校验模型发现答案中存在可优化的地方,便会将其反馈给原模型,并标注‘注意,这部分内容存在错误,但这一思路颇具价值,可保留’。这就像两个智能体协同工作,只有通过校验的答案,才会最终呈现给使用者。”
韦尔所描述的这一机制,与 Google DeepMind 为 AlphaEvolve 设计的工作模式高度相似。AlphaEvolve 将该公司的大语言模型 Gemini 嵌入一套更完善的系统,这套系统会筛选出模型回答中的合理内容,将不合理内容剔除后,再把合理内容反馈给模型进行优化。Google DeepMind 已借助 AlphaEvolve 解决了多个现实中的科研难题。
OpenAI 在这一领域面临着激烈的竞争,竞争对手研发的大语言模型,即便不能实现 GPT-5 的所有功能,也能完成其中的大部分。既然如此,科研人员为何要选择 GPT-5,而非同样在持续升级的 Gemini 或 Anthropic 的 Claude 系列模型?归根结底,OpenAI 成立科学事业部,很大程度上也是为了在科研这一新领域抢占先机,而真正的技术创新,仍在未来。
韦尔说:“我认为 2026 年将成为人工智能赋能科学研究的关键一年,就像 2025 年对软件工程领域的意义一样。2025 年初,若你能借助人工智能完成大部分代码编写,你属于行业早期使用者;而 12 个月后的现在,如果你还没有借助人工智能编写代码,你大概率已经落后。如今,我们在科学研究领域,也看到了类似软件工程领域的早期变革迹象。”
他接着说:“我相信,一年后,若科研人员还未深度使用人工智能工具,便会错失提升自身思考质量和科研效率的机会。”
https://www.technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/