得益于苹果的MLX框架 Ollama在Mac上运行得更快

Source

Ollama 近日发布更新，将苹果自家机器学习框架 MLX 引入其本地大模型运行方案，在搭载 Apple 芯片的 Mac 上实现显著性能提升。官方介绍称，新版本在提示预填阶段（prefill）的处理速度提升约 1.6 倍，在生成回复阶段（decode）的速度几乎提升一倍，使本地大模型推理整体响应更为迅速。尤其是配备 M5 系列芯片的机型受益最大，这得益于苹果在新一代芯片中加入的 GPU Neural Accelerator（神经加速器）。

本次更新还改进了内存管理策略，在长时间使用场景下能够更高效地利用系统统一内存，从而让依托 Ollama 的本地 AI 编码工具和聊天助手在持续会话中保持更流畅的交互体验。 Ollama 表示，此次性能增强将特别有利于在 macOS 上运行个人助理类模型（如 OpenClaw）以及代码助手类代理（如 Claude Code、OpenCode、Codex 等）的用户，使这类工具更接近“即时响应”的使用感受。

目前，这一基于 MLX 的加速版本以 Ollama 0.19 预览版形式提供下载：

https://ollama.com/blog/mlx

官方建议用户在配备超过 32GB 统一内存的 Mac 上运行，以获得更理想的性能表现。预览阶段仅支持阿里旗下的 Qwen3.5 模型，但 Ollama 已明确表示，后续会逐步为更多 AI 模型加入支持。