GDC上DeepSeek引发热议:大模型技术上限远没有看到
本次全球开发者先锋大会上,关于大模型的讨论成为焦点。当前大模型技术面临尺度定律的瓶颈,以及落地应用的挑战。DeepSeek作为体系化的创新,带来大模型技术的新启发,通过优化模型架构、训练方式和框架,实现了效率与成本的显著提升。大模型领域仍面临诸多挑战,如数据语料的质量提升和计算成本的降低等。行业对多模态智能和AI助力科学发现等领域充满期待。期待未来两到三年大模型的快速发展,技术上限远未触及。 以上为您提供的关于新闻资讯的关键词和描述,您可以根据具体情况进行调整和修改。
第一财经资讯,2025-02-24 21:19:04
2024年年底以来,围绕大模型有非常多讨论,其中一个声音是,技术上Scalling law(尺度定律)面临“撞墙”,大模型迭代放缓。另一方面,大模型在落地应用上也有诸多掣肘。这些话题也是刚刚过去的GDC(全球开发者先锋大会)讨论的一个焦点。
“行业非常关注产业落地,但和很多企业聊的时候,大家经常说的是,大模型适合做演示,在真正落地的时候存在着成本、效率、可靠性、稳定性和安全性等很多挑战。”上海人工智能实验室主任助理、领军科学家乔宇在大会上表示。
乔宇认为,这些讨论预示着,大模型虽然目前已经取得一定成果,但还有很多“乌云”。他判断,从2025年开始,大模型进入下一个阶段时,破解这些瓶颈的关键是创新和应用,在这方面DeepSeek带来了一些启发。
DeepSeek做的是体系化的创新,乔宇提到,“DeepSeek不仅技术系统做得好,而且将模型的架构、训练的方式和训练的框架高速并行,做体系化的优化,带来了非常大的效率提升与成本降低,语言大模型V3的训练,(成本)相当于Llama3的1/10。”
在这一基础上,乔宇补充表示,在大模型产业链上,DeepSeek所做的也只是中间模型和系统,“如果我们能将芯片、互联、框架、数据、模型、评测、应用做更好的体系创新,这里面会有更大的空间,一方面将模型做得更强,一方面也可以将效率做得更高”。
在接受采访时,上海人工智能实验室青年科学家何聪辉认为,DeepSeek所做的事情一定程度上打开了大模型当前的一些瓶颈。“它让整个训练成本降下来了,会让更多的研究者能参与进来,另一方面,将强化学习直接引入到后训练的这个阶段,也会促进很多科学方面的探索,且它本身很强的推理模型,也可以作为一个研究科学发现很好的起点。”
此前,数据语料的缺乏,被认为是Scalling law“撞墙”、迭代放缓的核心原因。“互联网上的人类语料是基本原料,已经耗尽了,虽然模型变大了,但是输入没有变得更多,无法学习新知识。”一位从业者对记者表示。
何聪辉长期研究大模型的数据语料方面,他对记者表示,“现在说的数据用完了,更多是说已知的一些公开数据模型都见过了,但其实并没有充分利用起来,质量还有持续提升的空间,还没有到头。”
何聪辉表示,质量的提升能够让数据的效率更高,模型可能不需要那么多数据,这样会带来进一步的计算成本降低,并进一步带动越来越多人进来优化它。
在另一场论坛上,MiniMax副总裁刘华也在演讲时提及大模型“撞墙”这一话题,他更多认为,现在的大模型处于快速的发展阶段,原因在于,2024年底Open AI推出了o1,这意味着在推理阶段大模型还在“scaling Law”,随着DeepSeek 1月的开源,大家又更熟悉了什么是强化学习。
“这一切的一切都没有结束,未来两到三年,类似GPT3.5到GPT4这样的技术再发生两次是高度可预期的。”刘华的判断是,未来两到三年大模型会飞快地发展,技术上限远没有看到。
对于未来,业界目前相对较为乐观。乔宇认为,2025年有三方面值得关注的事情,包括更多的多模态智能涌现,以及AI助力科学发现等。
在过去一两年中,多模态在语言上取得突破之后,对图像、视频、音频等的多模态引入,行业期待非常高,但现在很多的模态只是在对齐理解有进展,真正像语言一样的涌现能力,将生成理解相结合,能够从多模态中间发现知识的能力还非常有限。乔宇认为,2025年这方面或许会有值得期待的进展。
其次,在“AI4S”相关的科学智能方面,是未来人工智能的高价值区域,人工智能不应该简简单单陪我们聊聊天、画画,更多的是帮人类进行知识发现。
“我们有了AlphaFold这样单点的巨大成功,但是人工智能的潜力绝对不在于专项智能,而是如何能够实现从科学假设的提出,到实验的设计,甚至包括实验的自动化完成,以及科学知识发现的全流程。”乔宇提到,期待的是,2025年AI会不会在某一个重要的科学问题突破上体现作用。