时间:2025/2/16 12:54:21来源:www.pc6.com作者:佚名我要评论(0)
快科技2月15日消息,清华团队突破大模型算力难题,这让英伟达情何以堪。
据国内媒体报道称,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。
此次KTransformers项目更新带来重大突破,支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。
KTransformers项目的核心在于异构计算策略:稀疏性利用:MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,结合高速算子处理,显存占用压缩至24GB。
量化与算子优化:采用4bit量化技术,配合Marlin GPU算子,效率提升3.87倍;CPU端通过llamafile实现多线程并行,预处理速度高达286 tokens/s。
CUDA Graph加速:减少CPU/GPU通信开销,单次解码仅需一次完整的CUDA Graph调用,生成速度达14 tokens/s。
这带来了怎样的后果呢?传统方案:8卡A100服务器成本超百万,按需计费每小时数千元。
现在,单卡RTX 4090方案:整机成本约2万元,功耗80W,适合中小团队与个人开发者。
NVIDIA RTX 4090运行DeepSeek-R1满血版的案例,不仅是技术奇迹,更是开源精神与硬件潜能结合的典范。它证明:在AI狂飙的时代,创新往往源于对不可能”的挑战。
相关视频
相关阅读 华为鸿蒙智行尊界技术发布会定档2月20日:S800预计上半年上市日本AI专家评DeepSeek:中国AI新星崛起,技术实力接近OpenAI阿里通义实验室开源音乐生成技术InspireMusic沙特宣布149亿美元AI投资计划,巩固全球技术领导地位PromptLayer:为非技术用户打造的AI应用开发新工具《哪吒2》影史最佳,奇迹还是必然?亚马逊 CEO:AI 成本因 DeepSeek 技术大幅降低SB OpenAI Japan正式成立!专向日本大型企业推广技术
热门文章
技术奇迹!清华突破大
字节CEO全员会反思Dee
获英伟达买入 中国自动
让6万公务员离职!马斯
最新文章
技术奇迹!清华突破大
字节CEO全员会反思Dee
获英伟达买入 中国自动驾驶公司文远知行股价让6万公务员离职!马斯克:美国政府效率改革系列最强机预定!郭明錤预估iPhone SE 4今年顺丰接收全球第100架波音767-300BCF:3月正
人气排行 2014年双11淘宝销售额及排行榜扫描文件怎么转换成word 扫描文件转换成wor如何将pdf转换成jpg pdf转jpg图文教程360粉碎文件如何恢复win7回收站清空了怎么恢复 win7回收站清空恢pdf怎么转换成excel pdf文件转Excel格式方法设备管理器有叉号、问号、感叹号?驱动人生迅捷pdf转换成word转换器怎么用
查看所有0条评论>>