突发！DeepSeek开源新版V3，再次震惊国外 -pc6资讯

您的位置：首页 → 资讯 → 软件新闻 → 突发！DeepSeek开源新版V3，再次震惊国外

突发！DeepSeek开源新版V3，再次震惊国外 时间：2025/3/25 12:04:10来源：www.pc6.com作者：路西蓝我要评论(0)

昨晚，国内著名大模型平台DeepSeek开源了V3模型的最新版本0324。

不过DeepSeek相当低调，国内的公众号、国外的社交平台没有做任何宣传，就是“悄悄”地把模型上传到huggingface。

根据国外网友测试显示，V3-0324最大亮点之一就是代码能力，只需要简单的文本提示就能快速开发各种网站、App，可以比肩目前全球最强的闭源代码模型Claude3.7Sonnet思维链版本。

但V3-0324是开源且免费的，推理效率更快。

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

有网友表示，新版V3在不到60秒的时间内解开了一道密码谜题。Sonnet3.7花了大约5分钟却未能解开。

这就是为什么我不介意中国领先。他们有人力资源，这个巨人已经觉醒，我们将从中获得更好的科技成果。

有网友分析，认为这很可能是去年年底发布的 DeepSeek V3的一次迭代更新，就像 OpenAI 一直在更新他们的模型一样，而没有真正增加模型的编号（我不知道我们已经见过多少个 gpt-4的迭代版本）。

DeepSeek V3实际上比 R1更适合许多创意写作任务，因为它更快。速度很重要，因为你可以更快速地进行多次迭代。幻觉和准确性不足并不是大问题，因为人类应该编辑和批准文本。

DeepSeek的影响凸显了一个重要的技术转变。

还有人立刻对V3-0324进行了评测，一次性开发了一个网站写了800多行代码且没有出现任何错误。这是免费的、开源的、超级快的。很高兴看到这些开源模型如何给大公司施加压力，促使它们以更低的成本构建更好的模型。

新版V3模型仅用一个提示就完成了这个登陆页面的编码。这个新的 DeepSeek-V3模型在编程能力上已经达到了和 Claude3.7Sonnet 相同的水平，同时还是无限制且免费的。

提示词:用 HTML/CSS/JS 编写一个现代化的登陆页面，并将所有内容放到一个文件中!

我让新的 DeepSeek V3模型构建最美丽且复杂的动画脚本。只用一个 HTML/JS 脚本!

该网友还补充道“我们正在与未来对话”，相当满意V3的代码能力。

V3简单介绍

V3是一个拥有6710亿参数的专家混合模型（Moe），其中370亿参数处于激活状态。

在传统的大模型中，通常会采用密集的神经网络结构，模型需要对每一个输入token都会被激活并参与计算，会耗费大量算力。

此外，传统的混合专家模型中，不平衡的专家负载是一个很大难题。当负载不均衡时，会引发路由崩溃现象，这就好比交通拥堵时道路瘫痪一样，数据在模型中的传递受到阻碍，导致计算效率大幅下降。

为了解决这个问题，常规的做法是依赖辅助损失来平衡负载。然而，这种方法存在一个弊端，那就是辅助损失一旦设置过大，就会对模型性能产生负面影响，就像为了疏通交通而设置过多限制，却影响了整体的通行效率。

DeepSeek对V3进行了大胆创新，提出了辅助损失免费的负载均衡策略，引入“偏差项”。在模型训练过程中，每个专家都被赋予了一个偏差项，它会被添加到相应的亲和力分数上，以此来决定top-K路由。

模型会持续监测每一批训练数据中专家的负载情况。如果某个专家负载过重，就像一座桥梁承受了过多的车辆，此时就减小其偏差项;反之，如果负载过轻，就增加偏差项。

通过这种动态调整， V3能够在训练过程中有效平衡专家负载，而且相比那些仅依靠纯辅助损失来平衡负载的模型，它的性能得到了显著提升。

此外，V3还采用了节点受限的路由机制，以限制通信成本。在大规模分布式训练中，跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上，V3能够显著减少跨节点通信的流量，从而提高训练效率。

这种路由机制不仅减少了通信开销，还使得模型能够在保持高效的计算-通信重叠的同时，扩展到更多的节点和专家。

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示，其代码能力达到了328.3分，超过了普通版的Claude3.7Sonnet（322.3），可以比肩334.8分的思维链版本。

相关视频

没有数据

文章评论

查看所有0条评论>>