尽管缺乏顶尖芯片 中国人工智能正快速追赶上来

Source
12月25日消息,尽管中国在获取尖端芯片方面面临限制,但中国初创企业在追赶美国前沿人工智能模型方面的速度却超出了业界许多人的预期。今年11月,总部位于北京的DeepSeek公司发布了其最新大语言模型的预览版本,并声称该模型的能力可媲美OpenAI于9月发布的推理模型o1预览版。

1732885674-deepseek.jpg

近期,其他中国公司也提出了类似的声明。由阿里巴巴和腾讯支持的初创企业月之暗面表示,其开发的一款专注数学的模型在性能上已接近o1模型。而阿里巴巴则进一步声称,其实验性研究模型在数学领域的表现甚至优于o1的预览版。

这些公司尚未发布详细阐述其模型性能的论文,同时,目前对人工智能模型能力也缺乏统一的测试标准,因此很难对这些声明的准确性进行验证。不过,一些美国专家对中国模型的表现表示认可。

OpenAI前研究员、现人工智能企业家安德鲁·卡尔(Andrew Carr)指出,中国人工智能领域正在“快速追赶”。他提到,DeepSeek的研究团队在短短数月内成功复制了OpenAI的推理模型,这一成就“让许多同行感到惊讶”。

用于比较模型性能的一个测试是美国数学邀请赛(AIME),该赛事旨在挑战全球最聪慧的高中数学人才。

DeepSeek声称,其模型在AIME测试中的表现优于OpenAI。但美国媒体针对今年AIME的15道试题进行的实验发现,尽管OpenAI的o1预览模型在解题速度上领先于DeepSeek、月之暗面及阿里巴巴的实验模型,但所有模型在首次尝试中便得出正确答案,这本身已是一项显著成就。例如,在解答一个关于双人游戏策略的字谜问题时,OpenAI程序仅用10秒便得出答案,而DeepSeek则耗时两分多钟。

自2022年以来,中国人工智能开发人员受到美国尖端AI芯片出口限制的影响,其中包括英伟达的高性能芯片。今年12月,拜登政府进一步收紧了出口管制政策。

尽管如此,中国开发人员通过创新技术找到了解决办法。例如,在阿里巴巴和腾讯支持的月之暗面,创始人杨植麟表示,公司正专注于强化学习,通过模仿人类的试错过程提高模型性能。这种方法不仅提升了模型能力,还降低了对计算资源的需求。

此外,自去年年底以来,人工智能开发人员越来越多地采用“混合专家”(MoE)技术。这种技术通过一个初始路由机制,将特定问题分配给最擅长处理该类问题的专家模型,就像餐厅厨师长根据订单将菜品分配给合适的厨师一样。这种方法有效降低了对高性能芯片的依赖。

腾讯在今年11月宣布,其最新发布的MoE模型在性能上已可媲美Meta于今年7月推出的Llama 3.1模型。然而,美国研究人员通过审阅两家公司发表的论文指出,腾讯的模型可能仅使用了Meta模型十分之一的计算资源完成训练。

DeepSeek最初是High-Flyer旗下的人工智能研究部门,High-Flyer是一家管理着80亿美元资产的量化对冲基金管理公司,以利用人工智能技术进行交易而闻名。2021年,DeepSeek将大约1万颗英伟达A100芯片连接起来,构建了一个名为Fire-Flyer 2的AI训练集群。

在今年8月发表的一篇论文中,DeepSeek表示,Fire-Flyer 2的性能已接近英伟达相似芯片构成的系统,但其成本和能耗均显著降低。此外,DeepSeek于5月发布的关于其“混合专家”(MoE)模型的论文,也因采用更高效的数据处理技术而在业界引发广泛关注。

Anthropic联合创始人杰克·克拉克(Jack Clark)在其博客中提到,DeepSeek的Fire-Flyer 2集群是中国应对出口管制的一个典型策略。他写道:“中国通过利用现有硬件资源构建卓越的软件与硬件堆栈,绕过了出口管制。正如在电动汽车、无人机等领域的表现,中国制造也将在人工智能模型领域占据重要地位。”

尽管如此,许多中国AI开发者通过中间商交易和海外数据中心,找到了获取受限制英伟达芯片的方法。然而,中国公司高管指出,尖端芯片的短缺依然是限制初创企业发展的主要瓶颈,而这一差距可能进一步扩大。目前,英伟达的客户正在准备大规模部署其最新的AI数据中心芯片Blackwell。

在国际竞争中,美国企业持续加码。埃隆·马斯克(Elon Musk)旗下的xAI已建成一个由10万颗英伟达芯片组成的数据中心,并筹集了50亿美元用于进一步扩展。亚马逊AWS也计划使用数十万颗自主研发的芯片,打造一台规模空前的人工智能超级计算机。

DeepSeek专注于开源模型研究,特别侧重数学和编程能力。而另一家初创企业月之暗面则凭借其类似ChatGPT的聊天机器人Kimi,成功吸引了中国消费者的青睐,并因其出色的长文本处理能力而声名鹊起。

然而,与OpenAI等美国公司相比,中国AI初创企业的估值仍相对较低。OpenAI最近的估值已高达1570亿美元,而中国初创企业则面临融资挑战。在这种激烈的市场竞争中,价格战在AI模型供应商之间已然爆发。

以北京为基地的智谱AI为例,据知情人士透露,该公司已推迟最早在2025年下半年上市的计划。投资银行家认为,其可能难以获得预期估值。在最新一轮融资中,智谱AI的估值约为30亿美元。值得注意的是,智谱AI于11月底展示了其AI智能体,并于7月推出了一款与OpenAI Sora相似的视频生成模型。

霍华德·黄(Howard Huang),一位曾在北京一家人工智能公司负责基础设施的高管,将中国的人工智能行业形容为“戴着镣铐跳舞”。他表示:“专注于我们擅长的领域是唯一的生存机会,也可能是我们在全球竞争中取胜的关键。”(小小)