本次更新还改进了内存管理策略,在长时间使用场景下能够更高效地利用系统统一内存,从而让依托 Ollama 的本地 AI 编码工具和聊天助手在持续会话中保持更流畅的交互体验。 Ollama 表示,此次性能增强将特别有利于在 macOS 上运行个人助理类模型(如 OpenClaw)以及代码助手类代理(如 Claude Code、OpenCode、Codex 等)的用户,使这类工具更接近“即时响应”的使用感受。
目前,这一基于 MLX 的加速版本以 Ollama 0.19 预览版形式提供下载:
官方建议用户在配备超过 32GB 统一内存的 Mac 上运行,以获得更理想的性能表现。 预览阶段仅支持阿里旗下的 Qwen3.5 模型,但 Ollama 已明确表示,后续会逐步为更多 AI 模型加入支持。