您的位置:首页资讯软件新闻 → 突发!DeepSeek开源新版V3,再次震惊国外

突发!DeepSeek开源新版V3,再次震惊国外

时间:2025/3/25 12:04:10来源:www.pc6.com作者:路西蓝我要评论(0)

昨晚,国内著名大模型平台DeepSeek开源了V3模型最新版本0324。

不过DeepSeek相当低调,国内的公众号、国外的社交平台没有做任何宣传,就是“悄悄”地把模型上传到huggingface。

根据国外网友测试显示,V3-0324最大亮点之一就是代码能力,只需要简单的文本提示就能快速开发各种网站、App,可以比肩目前全球最强的闭源代码模型Claude3.7Sonnet思维链版本

但V3-0324是开源且免费的,推理效率更快。

图片

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

有网友表示,新版V3在不到60秒的时间内解开了一道密码谜题。Sonnet3.7花了大约5分钟却未能解开。

图片

这就是为什么我不介意中国领先。他们有人力资源,这个巨人已经觉醒,我们将从中获得更好的科技成果。

图片

有网友分析,认为这很可能是去年年底发布的 DeepSeek V3的一次迭代更新,就像 OpenAI 一直在更新他们的模型一样,而没有真正增加模型的编号(我不知道我们已经见过多少个 gpt-4的迭代版本)。

DeepSeek V3实际上比 R1更适合许多创意写作任务,因为它更快。速度很重要,因为你可以更快速地进行多次迭代。幻觉和准确性不足并不是大问题,因为人类应该编辑和批准文本。

图片

DeepSeek的影响凸显了一个重要的技术转变。

图片

还有人立刻对V3-0324进行了评测,一次性开发了一个网站写了800多行代码且没有出现任何错误。这是免费的、开源的、超级快的。很高兴看到这些开源模型如何给大公司施加压力,促使它们以更低的成本构建更好的模型。

图片

新版V3模型仅用一个提示就完成了这个登陆页面的编码。这个新的 DeepSeek-V3模型在编程能力上已经达到了和 Claude3.7Sonnet 相同的水平,同时还是无限制且免费的。

提示词:用 HTML/CSS/JS 编写一个现代化的登陆页面,并将所有内容放到一个文件中!

图片

我让新的 DeepSeek V3模型构建最美丽且复杂的动画脚本。只用一个 HTML/JS 脚本!

图片

该网友还补充道“我们正在与未来对话”,相当满意V3的代码能力。

图片

V3简单介绍

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。

在传统的大模型中,通常会采用密集的神经网络结构,模型需要对每一个输入token都会被激活并参与计算,会耗费大量算力。

此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题。当负载不均衡时,会引发路由崩溃现象,这就好比交通拥堵时道路瘫痪一样,数据在模型中的传递受到阻碍,导致计算效率大幅下降。

图片

为了解决这个问题,常规的做法是依赖辅助损失来平衡负载。然而,这种方法存在一个弊端,那就是辅助损失一旦设置过大,就会对模型性能产生负面影响,就像为了疏通交通而设置过多限制,却影响了整体的通行效率。

DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。

模型会持续监测每一批训练数据中专家的负载情况。如果某个专家负载过重,就像一座桥梁承受了过多的车辆,此时就减小其偏差项;反之,如果负载过轻,就增加偏差项。

通过这种动态调整, V3能够在训练过程中有效平衡专家负载,而且相比那些仅依靠纯辅助损失来平衡负载的模型,它的性能得到了显著提升。

此外,V3还采用了节点受限的路由机制,以限制通信成本。在大规模分布式训练中,跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,从而提高训练效率。

这种路由机制不仅减少了通信开销,还使得模型能够在保持高效的计算-通信重叠的同时,扩展到更多的节点和专家。

图片

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude3.7Sonnet(322.3),可以比肩334.8分的思维链版本。


相关视频

    没有数据

相关阅读 DeepSeek V3模型升级震撼海外用户:2分钟即可完成超400行代码高通总裁谈DeepSeek:AI模型正在变得更小、更有能力苹果CEO库克称赞DeepSeek:当然用过 很棒DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点对话90后教授尤洋:放弃DeepSeek泼天流量,潞晨早就想好怎么活DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡可灵AI上线DeepSeek灵感版:用户能轻松生成专业化提示词鸿蒙版百度地图大升级:融合DeepSeek-R1满血版

文章评论
发表评论

热门文章 DeepSeek V3模型升级震30天进账百万美元,这OpenAI吃惊,美图秀秀AI领域的全面战争,从

最新文章 突发!DeepSeek开源新DeepSeek V3模型升级震 30天进账百万美元,这家中国团队靠AI盘活沉OpenAI吃惊,美图秀秀流泪!谷歌这个神器真AI帮卖成为战略级项目,闲鱼或意在一箭双雕京东外卖:上线40天 日订单量破100万

人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐微信朋友圈三天可见怎么破解 朋友圈仅展示三snmp协议在windows下的安装与配置2016猴年邮票多少钱一套 2016猴年邮票价格表