IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    我是如何看待 DeepSeek R1 的

    Wincer发表于 2025-02-01 13:28:33
    love 0
    cover

    最近 DeepSeek 可谓是出尽了风头。从 1 月 20 日发布了 R1 开始,DeepSeek 这家公司就逐步迈上了舆论的「风口浪尖」,几天时间冲上 App Store 与 Play Store 多地区榜单第一,各大平台热搜也是不断。加上最近正好属于过年放假期间,大家都有时间去体验、探讨这样一款国产的 AI 大语言模型。

    我使用 AI 了多久

    自从 OpenAI 在 22 年底的时候发布了 ChatGPT 3.5 开始,我便一直在使用。后面出了 Plus 之后,我也一直在续费使用到现在。

    中间我也尝试过 Anthropic 出品的 Claude 以及 Google 出品的 Gemini,其中 Claude 在写代码层面应该是最好的,但是在产品等方面并不如 ChatGPT,因此我在好好体验了几个月的 Claude Pro 之后,还是放弃了续费 Claude。

    24 年 11 月,我也在本地跑过 qwen,phi,DeepSeek v2 等模型,因为电脑是笔记本加上我本来也只想用它来当个 LLM 翻译后端,所以参数选择的 7b 的也够用。整体测试来看,DeepSeek v2 算还不错的(V3,R1 那时候还没发布)。

    自 ChatGPT 3.5 → GPT 4(更智能) → GPT 4o(多模态) → ChatGPT o1(强化推理能力),每一个新版本的发布都意味着 ChatGPT 更加聪明、好用,但是在技术圈内造成的影响却一次比一次小。这很容易理解,毕竟什么事情都是从 0 到 1 是最难的。

    R1 到底是什么水平?

    从本次 DeepSeek R1 官方 Readme 发布的 benchmark 可以看到,R1 严格上其实并不算一个划时代的产品,因为他的问答准确性与 o1 模型处于伯仲之间。不过需要说明的是,这个基准测试虽然涵盖了 AIME 2024, CODEFORCES, MATH 500, MMLU 等,但本质上其实测试的方面还是逻辑推理能力。这也是可以理解的,毕竟诸如表达与理解能力的评判实际上并不具有唯一标准。

    而表达与理解能力才是普通人感受最直接的方面。毕竟不是每个人都会整天问 DeepSeek 数学题或者写代码。

    我个人感觉体验来看,DeepSeek 在中文的表达与理解能力是要比 o1 强的。因为 DeepSeek 并未公开模型训练的具体细节,只能猜测是因为 R1 的训练语料里中文方面涵盖的更广,或者针对中文专门做了优化。

    为什么突然就火了

    不论是国内,国外,圈内,圈外,为什么 DeepSeek R1 全方位都火了起来呢?

    我仔细思考了一下,它火起来应该是有以下原因:

    1. DeepSeek 官方声称其训练成本很低,但是性能却是业界顶尖水平——让国外的很多花了几千万研发费用的公司感到恐慌;
    2. 它是开源的,用其蒸馏其他的小模型相比原模型极大提升了推理能力——推特上有不少人上传了在手机本地运行 DeepSeek R1 的视频;
    3. 它是中国的一家 23 年才成立的小公司开发的——以弱胜强,自古以来都是很有话题性,大家都爱看;
    4. 与 OpenAI o1 的对比:
      • 免费使用,而 OpenAI Plus 用户每周也仅可使用 50 次 o1 对话——非常大气;
      • 不需要科学上网——使用门槛比较低;
      • 中文方面的表达理解能力要更强——网上有许多DeepSeek R1 饱含人文关怀、富含情感以及生命力,当然也有富含攻击性的回答。

    前两点决定了它在技术圈的影响力。而后面几点导致在非技术圈也非常易于传播、使用,让每个使用过它的人都自觉成为了「水军」帮忙宣传。

    另外还有一些优点比如 API 收费相比 o1 价格只有几十分之一,R1 相比 o1 还具备网络搜索功能。不过这些我觉得只算是锦上添花而已。

    谁急了?

    Anthropic 的 CEO 在 1 月 29 日在 其博客上 提倡加强限制显卡出口禁令、以维护美国 AI 霸权地位。其文中对于 R1 的技术创新点一笔带过,反倒是花更多的笔墨来展示他的傲慢:声称 DeepSeek R1 的模型性能只是美国 AI 公司 7 - 10 个月前的水平。

    无独有偶,金融时报在 29 日发表的 一篇报道 :OpenAI 声称已经有证据证明 DeepSeek 使用了 OpenAI 的模型进行训练。有趣的是,Microsoft 拒绝对此事发表评论,并在当日迅速将 DeepSeek R1 上架 Azure 和 GitHub copilot。

    毕竟二者是商业公司,必要时候需要给投资人信心,我们观察商业公司的真实想法不能看他说了什么,而是要看他做了什么。25 日,AMD 在 社交平台宣布 整合 DeepSeek-V3 到旗下最新款 MI300X GPU;NVIDIA 也在 30 日 宣布 R1 可在 NVIDIA NIM 使用 。

    我们自然无从得知 Anthropic 和 OpenAI 的真实心理,但显然有人比他更坐不住:正如黑神话悟空发售时,steam 平台被僵尸网络进行 DDoS 攻击导致无法统计在线人数一样,DeepSeek 同样在最近被僵尸网络进行 DDoS 攻击:从一开始新用户注册报错,随后演变成了数次对话只有一次能成功,到 30 日的深度思考已经完全用不了。

    这一场由 DeepSeek 掀起的 AI 飓风,已经慢慢让美国的科技霸权裂开第一道缝隙——他们越急,我们越该笑。

    我的想法

    自从 20 年美国对华为芯片断供之后,中国许多科技产业就开始走上了国产化之路。我其实不太擅长站在国家或者民族这种大的层面去说一些话,尤其是我之前工作接触过一些所谓的国产化项目,其不过是一些领导要求的面子工程。加上这几年国产 CPU、显卡不断更新迭代,我其实没什么感觉——龙芯、摩尔线程毕竟性能相比旗舰产品差距太远,我们普通消费者并不会因为国产化标签就去买。

    当然,他们都需要时间,正因如此,DeepSeek 才显得与众不同。因为 R1 就是业界目前顶尖的 LLM 能达到的水准,其中文的表达、理解能力特别适合国内用户使用。作为一家成立不过一年半的公司,有这样的成熟度的产品,更是令人惊叹:它也意味着中国已经能自主完成科技创新,并走在世界的领先水平。

    我个人非常期待后续 DeepSeek 能加入图片识别、语音助手、代码实时预览等功能,让更多人感受到 AI 带来的价值。



沪ICP备19023445号-2号
友情链接