blog
2026-05-09

Redis之父给DeepSeek V4造推理引擎 专为Mac优化

Redis之父给DeepSeek V4造推理引擎 专为Mac优化。DeepSeek V4发布仅两周,开源社区便涌现出首批专为其打造的原生基础设施。其中最引人注目的项目是由Redis创始人Salvatore Sanfilippo(业内称antirez)开发的ds4.c——一个专为Mac平台优化的DeepSeek V4 Flash本地推理引擎。这个项目打破了传统通用框架的路径,选择为特定模型与硬件组合打造极致优化方案。

ds4.c的独特性在于其"专属高速公路"定位。该引擎完全基于苹果metal API开发,仅支持Apple Silicon芯片设备,彻底摒弃了对Nvidia或AMD显卡的兼容性。项目代码库异常精简,核心文件由C、Objective-C和metal构成,没有运行时依赖或抽象层。这种设计哲学与antirez此前开发的Redis数据库一脉相承,追求极致的轻量化与性能专注。

性能测试数据印证了这种设计思路的成功。在128GB内存的MacBook Pro M3 Max上,2-bit量化模型配合32K上下文窗口,短提示预填充速度达到58.52 token/s,生成速度26.68 token/s。当升级到512GB内存的Mac Studio M3 Ultra时,长提示(11709 token)预填充速度飙升至468.03 token/s。对于拥有2840亿参数的混合专家(MoE)模型而言,这样的本地运行效率已达到实用门槛。

实现这种突破依赖三大核心技术创新。非对称量化策略仅对路由专家层进行2-bit量化,而共享专家层、投影层等关键组件保持Q8精度,这在保持模型推理质量的同时将内存占用压缩至极限。KV缓存磁盘化技术通过将对话状态持久化存储,使Claude Code等需要发送长初始提示的AI代理,在后续对话中可直接跳过预填充阶段。双协议兼容层同时支持OpenAI和Anthropic的API标准,并针对工具调用场景进行专项优化。

开发者社区对ds4.c的反应超出预期。项目发布后迅速有开发者在128GB Mac上完成部署,实测显示其能稳定驱动coding agent执行复杂任务。这种成功引发了关于技术发展路径的深层讨论:在GPU成本持续攀升的背景下,针对特定硬件-模型组合进行深度优化的"超专用引擎",是否将成为未来主流?Hacker News上的热门评论指出,这种路径虽然可能面临模型迭代时的重构风险,但能通过消除抽象层获得显著性能提升。

来源于:https://news.china.com/socialgd/10000169/20260509/49483136.html    如有侵权请联系我们