AI 评分 8.0/10
NVIDIA 发布了 Qwen3.6-27B-NVFP4,这是一个使用自定义 NVFP4 格式量化到 4 位浮点数的 270 亿参数语言模型。这使得在兼容的 NVIDIA 硬件(尤其是 Blackwell GPU)上进行高效推理成为可能。 此次发布对本地 LLM 部署意义重大,因为它提供了一个强力的 270 亿参数模型,同时降低了内存占用和带宽需求。这展示了 NVIDIA 通过先进的量化技术,在消费级硬件上实现高质量推理的努力。 该模型基于 Qwen3.6,并使用 NVFP4——一种随 NVIDIA Blackwell 架构引入的 4 位浮点格式。NVFP4 采用两级缩放策略,包括细粒度的 E4M3 指数和二级 FP32 标量,以在超低精度下保持准确性。
reddit · r/LocalLLaMA · /u/vanbukin · 6月30日 10:39
背景: 量化通过降低模型权重和激活值的精度来减少内存占用并加速推理。传统的 4 位量化通常使用整数格式,但像 NVFP4 这样的浮点格式在相同位宽下能提供更好的准确性。NVIDIA Blackwell GPU 原生支持 NVFP4,使得该模型针对其最新硬件进行了优化。
参考链接
原文: https://www.reddit.com/r/LocalLLaMA/comments/1ujlltn/nvidiaqwen3627bnvfp4_just_dropped/
Horizon 日报 · 2026-07-02