2025年春节,科技界的焦点无疑被DeepSeek抢占。这家中国的大模型创业公司,在春节期间以其V3和R1模型的发布,引发了全球科技圈的震动。
回顾过去三年,每年的春节都伴随着一次重大的AI话题讨论。2023年,ChatGPT横空出世;2024年,Sora接力引领潮流。这两股浪潮均由OpenAI掀起,而到了2025年,DeepSeek的V3与R1则成为了新的主角。
这一数据对比,让包括meta在内的多家硅谷企业深感震撼,并对OpenAI过去“大力出奇迹”的成功方法论产生了质疑。这一连串的震撼甚至引发了硅谷多家科技巨头的市值暴跌,其中英伟达一夜之间市值蒸发了4.3万亿,这相当于腾讯与美团两家中国互联网巨头市值的总和。
DeepSeek的崛起,让业界不禁联想到美国可能会出台的一系列制裁政策。然而,就在DeepSeek引发硅谷地震前不久,1月15日,美国刚刚将中国最早的大模型创业公司“智谱AI”列入了实体清单。在AI 1.0时代,商汤、旷视等企业也曾遭遇过类似的待遇。被列入实体清单意味着难以购买海外生产的GPU,这在短期内仍是大模型训练升级的重要条件。然而,DeepSeek的成功却证明了,无论美国采取何种“卡脖子”措施,都无法阻挡中国AI技术的持续创新。
事实上,在DeepSeek之前,中国的大模型已经在默默耕耘。2024年被称为“中国大模型元年”,多家创业公司发布了众多模型,其中不乏开源的。例如,智谱AI在一年内就发布了超过10款基座模型,覆盖了文本、图像、语音、视频、代码生成等多个领域。而阶跃星辰也发布了多款模型,包括多模态大模型、图像生成大模型等。这些模型的发布,不仅数量众多,而且在模态、尺寸、性能上也实现了全面覆盖。
DeepSeek的震撼之处在于,它不仅在技术上实现了突破,而且其开源的做法也打破了OpenAI等公司的闭源模式。这使得更多的中国团队能够参与到大模型的研发中来,推动了中国AI技术的快速发展。据不完全统计,从2024年到2025年1月,中国的大模型创业公司就发布了超过50个模型。
DeepSeek的崛起,也引发了业界对于中美AI较量的重新思考。过去,中国的大模型在技术上一直跟随美国的步伐。然而,DeepSeek的成功却证明了中国在大模型上的AI能力已经与美国的时间差距越来越小。这不仅体现在技术上,更体现在创新能力和市场应用上。
DeepSeek的V3和R1模型不仅在算力上实现了突破,而且在技术上也有诸多创新。例如,R1模型采用了混合专家模型(MoE)、多头潜注意力(MLA)等设计,并进行了只采用强化学习(RL)而不进行监督微调(SFT)的训练尝试。这些创新使得R1在数学、代码、自然语言推理等任务上的性能比肩OpenAI的o1正式版。
DeepSeek的成功也为中国的大模型创业公司带来了新的机遇和挑战。一方面,DeepSeek的开源做法使得更多的中国团队能够参与到大模型的研发中来,推动了中国AI技术的快速发展。另一方面,DeepSeek的崛起也引发了其他大模型公司的竞争和反思。许多公司开始重新审视自己的技术路线和商业模式,并寻求在技术和产品上的创新。
在DeepSeek的带动下,中国的大模型创业公司纷纷加大了在技术和产品上的投入。例如,智谱AI在发布多款基座模型的同时,还开源了多款模型供业界使用。而阶跃星辰也在不断更新和升级自己的模型产品。
一些专注于C端产品应用的创业公司也开始发力大模型市场。例如,月之暗面和MiniMax都发布了多款针对C端用户的产品。这些产品的发布不仅丰富了市场选择,也推动了中国AI技术的普及和应用。
DeepSeek的崛起不仅是中国AI技术的胜利,更是全球AI技术发展的一个重要里程碑。它证明了开源和创新的力量是无穷的,也为中国的大模型创业公司带来了新的机遇和挑战。在未来的发展中,中国的大模型创业公司将继续发挥自己在技术和产品上的优势,推动全球AI技术的快速发展。