斯坦福人均≈0.1张GPU!学术界算力遭「屠杀」,LeCun急了
新智元,2025-12-08 20:42:58
![]()
新智元报道
编辑:好困 桃子
【新智元导读】在工业界动辄十万卡的暴力美学面前,学术界正沦为算力的「贫民窟」。当高校人均不足0.1张卡时,AI科研的主导权之争或许已经没有了悬念。
学术界的GPU荒,比想象中还要严重百倍!
NeurIPS 2025期间,两位YC大佬组了个饭局,邀请14位美国顶尖高校实验室的教授。
没想到,席间很多人都在吐槽:学术界算力资源简直「惨不忍睹」!
![]()
出于好奇,Francois Chaubard就去扒了一下数据,得到的结果离谱到家.....
![]()
以下是美国顶尖大学实验室的情况——
· 普林斯顿:人均0.8张GPU
· 斯坦福:人均0.14张GPU(超算集群Marlowe仅有248张H100可用)
· 哈佛、UW、CMU:均在0.2-0.4张GPU之间
· 加州理工、MIT、UC伯克利:连0.1张GPU也达不到
如今,想要做点像样的AI研究,人均至少得有1张GPU。实话说,真正要做起来,起码8张才够用。
![]()
没有对比,就没有伤害。
此时此刻,全球顶尖大厂的前沿实验室动辄就是十万张GPU起步。
就拿微软的Fairwater Atlanta数据中心来说,它目前的算力每个月能跑23次GPT-4规模的训练。
换句话说,当年训练初代GPT-4花了90到100天,同样的时间放在这里,大概能把这个过程跑上70次。
有了这种巨型数据中心,实验室就能大幅提升前期实验和最终模型训练的规模与频次。
![]()
到2026年底,马斯克的Colossus 2很可能会把这些数字翻上一番都不止。
而到了2027年底,微软的Fairwater Wisconsin预计单月就能完成超过225次GPT-4规模的训练任务。
![]()
马斯克xAI正在百万张GPU串联的超级巨兽「Colossus 2」训练Grok 5
学术GPU太缺了
2024年李飞飞在一场炉边谈话中坦言,「斯坦福NLP实验室仅有64张GPU」。
学术界在AI计算资源方面,正面临断崖式下跌。
与此同时,Nature一篇调查提出了「AI算力差距」,揭示了同样令人扎心的现实:
想要训练AI模型,学术界科学家能用的计算资源,跟工业界完全不是一个量级。
![]()
如上开篇一些数据,恰恰从侧面印证了,高校GPU根本不足以开展大规模的AI实验。
这种现象,不管在美国,还是国内,基本大差不差。
在Reddit上一篇热帖中,一位博士生自曝没有H100,算力成为了项目展开的主要瓶颈。
![]()
不仅如此,在Uvation调研中,GPU在高校课程和教学中也越来越重要,正在重塑学生学习计算机科学、工程学的方式。
如下表所示,斯坦福、MIT、牛津大学需要使用GPU相关的课程。
![]()
学术界GPU荒可不是小事,它的影响会像多米诺骨牌一样扩散开来。
杜克大学陈怡然教授曾提到一点,因为工业界和学术界计算、数据资源差距拉大,AI科研人员不再把高校教职当做目标。
这也就意味着,顶尖人才未来会加速流向工业界,全因GPU不够。
![]()
另一方面,学术界因GPU有限难以验证big idea,正逐渐失去了定义前沿的能力。
2025年斯坦福AI指数报告中,一张图清晰地呈现了这一趋势。
谷歌、Meta、微软、OpenAI等科技巨头产出有影响力的AI模型数量远超学术界。
![]()
AI大牛Sebastian Raschka表示,资源少只是问题之一。
另一个问题是,这些资源通常只能通过 SLURM(或类似的调度系统)访问,根本没有交互模式。
除非你已经完全清楚要跑什么实验以及要跑多久,否则这一套流程走下来简直折磨人。 这种条件下做研究真是太难了。
![]()
此外,学校里的那些GPU不是随时能用的。
网友Lucas Roberts表示,自己上个月曾跟德州的一位教授聊过,他说学校的 GPU 一次最多只能跑24小时,时间一到就得保存进度(checkpoint),然后重新排队跑下一个任务。
后来他好不容易给实验室搞到经费买了几张卡,这才实现了跑任务「不断连」。
据他所知,这种24小时强制中断的规定在其他高校也挺普遍的。
![]()
然而,LeCun当场反驳这一观点,透露NYU是全美所有学术机构中,拥有最大规模的GPU集群。
具体数字——500张H200,比普林斯顿还要大。
![]()
有的高校,自建AI工厂
不过,也有一些高校条件会好一些。
微软研究院前高级研究员,威廉与玛丽学院助理教授Jindong Wang表示,实验里每位学生配备6张GPU,还有云集群可用。
![]()
Vector研究所研究总监,多伦多大学统计与计算机系教授Dan Roy表示,他们会给每位学生都配备1张GPU。
![]()
更豪气的学校,比如得克萨斯大学奥斯汀分校,直接为自家的AI基础设施购买了超过4000张Blackwell GPU。
加上原有的设备,UT Austin总共将拥有超过5000张英伟达GPU。
而且,据称还是由他们自己的发电站来提供加持。
![]()
这些英伟达GB200系统和Vera CPU服务器,将加入全美最大的学术超算「Horizon」,为UT Austin提供学术界最强悍的AI算力。
这种级别的算力意味着,UT Austin完全有能力从零构建开源的大语言模型。
![]()
无独有偶,加州州立理工大学也在启动一个由英伟达DGX加持的「AI工厂」——
它配备了4套NVIDIA DGX B200系统,并整合了高性能存储、网络设施以及NVIDIA的全套AI软件栈。
![]()
有了这套系统,那些以前在标准硬件上需要数月才能完成的研究任务,例如分析数十万个视频文件,现在只需几天即可完成。
![]()
反观国内,GPU在高校的分布情况也不均衡。
知乎上一个话题下,硕博生纷纷讨论做实验用的显卡。
![]()
北京某高校计算机硕士称,已申请到研究院公用服务器。
![]()
还有更可怜的,某985学生自曝全组只有一张3080,还得自费租GPU。
![]()
参考资料:
https://x.com/FrancoisChauba1/status/1997095264923078856?s=20
https://news.utexas.edu/2025/11/17/ut-eclipses-5000-gpus-to-increase-dominance-in-open-source-ai-strengthen-nations-computing-power/
https://x.com/EpochAIResearch/status/1997040687561449710
https://epoch.ai/data-insights/gpt-4s-trainable
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!