继小红书风靡全球后,国产大语言模型 DeepSeek 又在全球范围内引起轰动。这个周末简直被 DeepSeek 刷屏了,距离去年底发布 DeepSeek—V3 模型还没过去多久,他们又推出了一款新的推理模型 DeepSeek—R1。直接引爆外网,不少网友称它为“神秘的东方力量”。
截止目前,DeepSeek 在美区苹果 App Store 免费榜上力压此前霸榜的?ChatGPT,排在了第一位。
我们在 DeepSeek 的官网可以看到,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。超赞的性能让外国人直接炸锅了。
DeepSeek与其他大模型的性能对比
而另一个让外国人炸锅的原因是 DeepSeek 的开发成本很低,模型训练只用了 550 万美元,相当于 Meta 高管一年的工资,而且还开源。
在使用成本上,DeepSeek 也是性价比拉满,例如 R1 模型,100 万 tokens 的输入,OpenAI 需要 55 块,而 DeepSeek 只要 1 块。100 万 tokens 的输出,OpenAI 需要 438 块,而 DeepSeek 只要 16 块。
DeepSeek-R1 API 价格
另外,在开源了 DeepSeek-R1-Zero、DeepSeek-R1 同时,他们基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏得到的六个密集模型(1.5B、7B、8B、14B、32B、70B),也全部开源。用户可以直接部署在自己的电脑上。其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
这下,全球 AI 爱好者和开发者都沸腾了,大家纷纷在社交平台上讨论这款模型。有人发帖说要跟 200 刀的 ChatGPT 彻底说再见。许多人开始转向这个性价比极高的选择。这也让一众小型公司和独立开发者看到了新的机会。
最近在匿名平台 Teamblind 上疯传的一条帖子中,一名 Meta 员工透露:“现在 Meta 内部已经进入了恐慌模式。工程师们正忙着抢时间,全面分析 DeepSeek 的模型,力求复制其所有可能的技术。”
看来科技巨头们的压力也在蹭蹭上涨!Sam Altman 更是放出了 GPT-o3 mini 要来的消息,被下面的网友称之为“DeepSeek 效应”。
Altman 是公认的营销鬼才,而 DeepSeek 团队则展现出了截然不同的低调风格。
创始人梁文峰在组建团队时,没有选择经验丰富的资深工程师,而是专注于招募清华、北大等高校的应届博士生。虽然这些年轻人缺乏行业经验,但他们充满好奇心和专注。梁文峰希望员工能自由使用计算资源,进行不拘一格的创新研究,这与硅谷那些依赖资深专家、注重快速商业化的大型 AI 公司形成鲜明对比。
没有聘请资深的 AI 专家,没有依赖顶级的 GPU,也没有投入巨额的运行成本,DeepSeek 依然能够取得优秀的成果。
毕竟,在传统的 AI 研发模式中,重金砸在硬件和专家团队上早已成为常态,而 DeepSeek 却用灵活的资源调配打破了这一常规。它不仅证明了 AI 的创新和效率并非只能通过“烧钱”来实现,还为整个行业带来了新的思考:或许,真正的技术突破并不一定依赖昂贵的资源,而是如何在有限的条件下做到极致的发挥。