参数减至80亿个！英伟达推出缩小版语言模型

Andy 2024-08-22 17:42

英伟达宣布推出Mistral-NeMo-Minitron 8B模型，这是此前发表的Mistral NeMo 12B模型的缩小版，除了精确度高，也具备在GPU加速的数据中心、云端与工作站上运行模型的运算效率。

Mistral-NeMo-Minitron 8B模型关键点：

模型规模：Mistral-NeMo-Minitron 8B 模型拥有80亿个参数，比原始的 Mistral NeMo 12B 模型减少了40亿个参数。

运行环境：这个模型可以在 NVIDIA RTX 驱动的工作站上运行，这使得它更加易于部署和使用。

性能：尽管模型规模缩小，但在 AI 支持的聊天机器人、虚拟助理、内容生成器和教育工具等多个基准测试中，其表现依然出色。

技术手段：英伟达采用了剪枝技术来减少模型的参数数量，同时通过蒸馏技术来保持或提高模型的精确度。

成本与效率：Mistral-NeMo-Minitron 8B 模型的运算成本较低，同时提供了与原始模型相媲美的精确度，这使得它在成本、运作效率和能源使用方面具有优势。

安全性：由于可以在边缘设备上以本机端的方式运行，减少了数据传输的需要，从而提高了安全性。

灵活性：英伟达提供了模型下载，允许开发人员针对特定应用使用 AI Foundry 进行剪枝和蒸馏，以创建更小且更优的神经网络。

应用场景：这个模型适用于资源有限的组织，以及需要在智能手机或机器人等嵌入式设备上运行的场景。

总的来说，Mistral-NeMo-Minitron 8B 模型的推出，为生成式 AI 功能在各种设备和环境中的部署提供了更多可能性，同时也推动了 AI 技术的普及和应用。

更多资讯

周边资讯