DeekSeek靠“蒸馏”火出圈:创新还是剽窃?

中国新创公司深度求索(DeepSeek)研发的DeepSeek大型语言模型最近“出圈”爆火。不过有评论指出,DeepSeek是依靠 “蒸馏” OpenAI 模型的数据来帮助开发自家技术。这其中是否涉及窃取或者抄袭?中国的AI产业是否真的实现了“ 弯道大超车”,还是靠宣传自嗨了一把?以下请听本台记者凯迪的报道。

本周,科技和外交政策圈都在关注一则消息,即中国开源推理大型语言模型DeepSeek-R1 被发现在多项核心任务测试中的表现与 OpenAI 的模型相当,而其开发成本仅为560 万美元,不到竞争对手的十分之一,并且使用的是英伟达相对低端的H800芯片。

依靠 “蒸馏”开发自家技术?

不过,美国总统特朗普的人工智能沙皇萨克斯1月28日对美国福克斯新闻(Fox News)表示,DeepSeek使用了一种名为“蒸馏”的人工智能训练方法,即一个新的人工智能模型透过向一个现有模型提出数百万个问题,从中吸取其知识及模仿其推理过程。

当被问及 DeepSeek 是否窃取了美国的知识产权时,萨克斯说这是“可能的”。他指出:“有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此不太高兴。” 他认为,美国的人工智能公司将采取措施,以保护他们的模型不被“蒸馏”,而这肯定会减缓山寨模型的发展速度。

美国《华尔街日报》报道指出,“蒸馏”技术已经被人工智能开发者使用多年,但从未取得像DeepSeek这样的成功。测试显示,DeepSeek创建的模型与OpenAI和谷歌的模型得分几乎一样高,而成本却远比竞争对手低。

窃取技术还是创新?

DeepSeek真的是靠“蒸馏” OpenAI 的数据来实现“弯道超车”的吗?据美国彭博社周二(28日)引述知情人士报道,OpenAI和微软正在调查DeepSeek 是否以未经授权的方式, 获取了源自OpenAI技术的数据输出。去年秋季, 微软的安全研究人员观察到可能与DeepSeek有关联的个人,使用OpenAI应用程序编程接口(API)窃取了大量数据。

OpenAI 还对英国《金融时报》表示,他们已经看到了“蒸馏”的证据,尽管他们并未公开这些证据。

据日本媒体《日经亚洲》周四(30日)报道,蒸馏并非新技术,也不一定都具有争议性。自 2024 年以来,随着企业对于使用大型语言模型 (LLM) 的需求增加,蒸馏变得越来越受欢迎。日本一家 AI 初创公司的工程师表示,大型语言模型难以处理,这需要大量昂贵的图形处理单元 (GPU)。而蒸馏可大大缩短开发时间与成本,开发出比大型模型运行速度更快的模型。

报道指出,DeepSeek 的问题在于其低成本模型是否“更多地基于蒸馏而不是创新”。对此,Astris Advisory Japan 分析师 Kirk Boodry 说:“他们是否能够使用现有的大型语言模型来提炼他们的结果是一个问题。这似乎在讨论中出现了很多次。人们说,‘我不知道这其中有多少是真正前沿的。’”

Omdia 咨询总监 Kazuhiro Sugiyama 则指出,DeepSeek的影响只是“暂时且有限的”,业界仍需验证其持久性。分析师也怀疑DeepSeek的开发预算是否真的那么小。Boodry 说,当人们谈论 DeepSeek的开发时间和费用时,他们谈论的是这个非常具体的模型:“人们随意给出的数字可能太低了。”

DeepSeek是依靠 “蒸馏” OpenAI 模型的数据来帮助开发自家技术。
有评论指DeepSeek是依靠 “蒸馏” OpenAI 模型的数据来帮助开发自家技术。 (Dado Ruvic/路透社)

不过,美国信息技术与创新基金会的人工智能问题专家霍丹·奥马尔(Hodan Omarr)以书面方式告诉自由亚洲电台,DeepSeek 的确取得了一些值得认可的创新成就:“DeepSeek 的效率和性能源自多项创新的结合。其关键策略之一是混合专家 (MoE),即通过允许模型的不同部分专注于特定任务来降低训练成本。它还应用数据量化来显著缩小 AI参数,同时保持准确性。为了优化硬件性能,DeepSeek 将 GPU 工作负载划分到多个处理器上以加快计算速度,并采用 CPU 协调技术来高效管理大数据流。”

展望未来,《日经亚洲》引用专家Sugiyama的预测说,人工智能模型未来将逐渐“两极分化”,微软和谷歌等大公司将继续投资于更大、更强的模型用于其服务,而较小的公司则开发更小、更便宜而高效的模型,以适合有针对性市场。 另一位人工智能工程师也表示,缩小人工智能模型的规模是个大趋势:“随着时间的推移,将会有很多方法来实现这一点。”

DeepSeek实现“弯道超车”是媒体炒作?

过去一周,DeepSeek的出现被形容为中国向硅谷投下的一枚震撼弹,令美国在人工智能领域的主导地位受到空前质疑。投资者一度抛售了一万亿美元的科技股,纳斯达克指数一度下跌超过3%。同时,在中国社交媒体上,DeepSeek引发热议,被视为中国AI能力超越美国的证据,之前美国遏制中国半导体与AI硬件设备的努力似乎付之东流。

其实,中国媒体去年就曾关注到DeepSeek以超低成本开发大型语言模型DeepSeek V2,并说“今天开始,GPT4级大模型进入白菜价时代”。

去年7月, DeepSeek创建人梁文锋在接受中国科技新闻门户网站36氪采访时,对于为何DeepSeek V2会让硅谷的很多人惊讶的问题回应说:“他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow(跟着走),而不是创新。”

他谈到,中国和美国在AI领域“真实的gap(差距)是原创和模仿之差”。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。他还指出,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。中国必然需要有人站到技术的前沿。

DeepSeek真的已经“弯道超车”、站到技术的前沿了吗?据全国广播公司商业频道(CNBC) 报道,微软CEO萨蒂亚・纳德拉日前在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高……我们必须非常、非常认真地对待中国的这些进展。”

不过,美国国防科技公司Anduril Industries创办人拉奇(Palmer Luckey)29日在福克斯财经(FOX Business)节目专访中指出,媒体铺天盖地引述DeepSeek说法,称其如何以超低成本训练出一个可与美国数十亿美元开发的聊天机器人匹敌的AI模型。但这些消息的炒作成分居多,外界不必过度相信,也不要“上了中共宣传的当”。

拉奇指出,DeepSeek并未完整公布他们开发两种模型的成本,媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。他表示:“症结在于,他们公布这个数字的目的,就是为了重挫美国公司。”

据最新消息,DeepSeek 应用已从意大利的谷歌和苹果 App 商店中下架。虽然官方未解释确切原因,但路透社等媒体注意到,意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据存储地点及隐私问题。白宫新闻秘书日前也提到,官员们正在调查该应用程序对国家安全的影响。

截至发稿,DeepSeek尚未回复本台相关置评请求。

责编:安克;网编:伍檫愙

发布者:凯迪

纵览中国网刊编辑/专栏作家。

留下评论