MLXを利用したMac上でのローカルのエージェントAIの実行

プライバシーを確保する、オフラインアクセスに対応した低レイテンシーのAIエージェントをローカルで実行しましょう。すべてをデバイス上で処理するパワフルなエージェントワークフローを、進歩したMLXの機能とMacハードウェアを使用して実現する方法を詳しく解説します。OpenCodeなどのコードエージェントの概要とXcodeへの統合の仕組み、複数のMacにわたるスケーリングのための手法、マシンから離れることなくツールをシームレスに統合する方法についても確認します。

リソース

関連ビデオ

WWDC26

WWDC25

こんにちは Angelosです MLXチームのエンジニアです。

今日はエージェンティックAIワークフローを Mac上でMLXを使って構築・実行する方法を紹介します。クラウドもAPIキーも不要でハードウェアが処理します。この1年でAIエージェントは研究プロトタイプから日常の生産性ツールへと進化しました。エージェントの話の前に以前の状況を振り返りましょう。

おなじみのチャット体験です。言語モデルにプロンプトを送ります。モデルが返答を返します。その返答に基づいて行動が必要ならコマンドを実行したり、ファイルを確認したりエラーを修正するのはあなた自身です。今はエージェントと対話しています。エージェントはモデルと連携して次の行動を決定します。そして実際にツールを呼び出してタスクを実行します。コマンドの実行ファイルの読み取り、APIの呼び出し結果を観察し次のステップを決めるためにモデルに戻ります。ユーザーからエージェントへ。エージェントからモデルへ。エージェントからツールへ。これがエージェンティックループです。タスクが完了するまでこのサイクルが繰り返されます。 Appleシリコンで特に魅力的なのはこのループ全体がローカルで実行できる点です。

データはデバイス上に留まり AIはいつでもどこでも利用可能で使用コストもかかりません。実際にどのような動きをするかお見せしましょう。

Mac上でローカル実行しているエージェントをご覧ください。画面にはセットアップが表示されています左側にモデルを実行するMLX、右側には操作中の OpenCodeエージェントがあります。

MLXリポジトリの最近のプルリクエストを取得するよう変更点を要約して注意点を特定するよう指示しました。モデルはリクエストを分析して GitHub CLIでPRデータを取得し、差分を確認して簡潔な要約を作成します。これはすべてローカルで実行されており、モデルはハードウェア上で動き gitコマンドだけがネットワークに接続します。このビデオを終えた後やることがたくさんありそうです。可能性をご確認いただいたところで、今日どのように進めるかを説明します。まずローカルエージェンティックAIスタックを紹介します。これをすべて動作させる 4つのレイヤーです。基盤となるMLXからエージェントまでの全レイヤーです。次に独自のローカルエージェントを段階的に設定する方法を説明します。その後MLXがハードウェアを最大限に活用する方法をご覧いただきます。

最後にさらにライブデモを行います。 SwiftUIアプリをゼロから構築して Xcodeでバグを修正するデモです。スタックから始めましょう。

MacでのローカルエージェンティックAIを支えるスタックには4つのレイヤーがあります。各レイヤーを下から順に説明していきます。最下層にはMLXがあります。 Appleシリコン向けに設計されたオープンソースのアレイフレームワークです。低レベルの計算処理、Metalアクセレレーションメモリ管理を担います。これがすべての基盤です。その一つ上には言語モデルレイヤーがあります。 MLX-LMはロード・実行・量子化・大規模言語モデルのファインチューニングを提供します。 HuggingFaceの何千ものモデルをサポートしており、 CLIツールとPython APIの両方を提供します。昨年のセッションをご覧の方はこれを詳しくご説明しました。しかしエージェントに対応するにはさらに必要なものがあります。標準APIを持つ永続的なサーバーです。そこでMLX-LM Serverの出番です。これはOpenAI互換のHTTPサーバーで、標準APIを通じてローカルモデルを公開します。構造化ツール呼び出しをサポートしモデルが確実に関数を呼び出せます。また複雑な問題を分析できるリーズニングモデルも応答前にステップごとに処理できます。クラウドLLM APIのドロップイン置き換えとして使えます。スタックの最上位にエージェント本体があります。これは任意のフレームワークや OpenAIのchat completion プロトコルに対応したツールです。 Xcode、OpenCode、Pi agent、カスタムスクリプトなど何でも使えます。 MLX-LM Serverが標準インターフェースを提供するため、どのエージェントフレームワークもすぐに動作します。このスタックを使っているのは私たちだけではありません。多くの人気アプリやツールが MLXとMLX-LMで構築されています。 Ollama、LM Studio、vLLMは最も人気のあるものの一部です。エコシステムは広く成長しており、これらのツールを使っているならすでにMLX上で動いている可能性があります。

以上がスタックです。自分でセットアップする方法をご説明します。

ゼロから完全なローカルエージェンティックワークフローへの移行は3ステップです。ステップ1: MLX-LMをインストールします。 pip installひとつで必要なものがすべて揃います。ステップ2: サーバーを起動します。ツール呼び出し対応のモデルで mlx_lm.serverを実行します。小さなモデルから始めてセットアップをテストするのが良いでしょう。サーバーが起動してモデルをロードし、ローカルホストでリクエストを受け付ける準備ができます。ステップ3: エージェントをローカルサーバーに向けます。ほとんどのエージェントフレームワークでは、 base URLをローカルサーバーのアドレスに設定するだけで完了です。エージェントは知ることも気にすることもありません。モデルがクラウドではなく Macで動いていることを。

具体的な例をご覧ください。これはOpenCodeの設定です。ローカルプロバイダーを定義します。特にURLをローカルホストに設定してサーバーが期待するモデル名を設定します。このローカルモデルをすべてに使うよう OpenCodeに指示します。以上です。これですべての操作がローカルモデル経由で動きます。

エージェントがMLXと通信できたので、 MLXがハードウェアを最大限に活用する方法とローカルでエージェントを実行する際の主要な課題への対応を見ましょう。

最初の課題はプロンプト処理です。エージェンティックワークフローではモデルがツール出力を受け取るたびに、新しいコンテキストをすべて処理してから次のステップについて推論します。

これはエージェンティックループ全体で繰り返されすぐに積み重なります。エージェンティックセッションは通常数十万トークンで構成されており、そのほとんどは生成されたものではありません。

M5チップには専用の Neural Acceleratorが搭載されており、 MLXはこの種の処理にそれを活用できます。具体的にはNeural Acceleratorが行列乗算を M4比でM5において 4倍高速化します。 MLXの特化した乗算とアテンションカーネルにより、これがプロンプト処理の高速化にほぼそのまま反映されます。

プロンプト処理時間の短縮によりエージェントはコードベースを読み込んだりツール結果を処理したりするのがほぼ4倍速くなります。一番うれしいのは、 Neural Acceleratorを活用するのに特別な引数は不要でコードの変更も必要ないことです。 MLXが利用可能なハードウェアに最適なカーネルを自動選択してくれます。

次に2番目の課題並行処理についてです。実際にはエージェントが単独で動くことはほとんどありません。よくあるパターンはエージェントが複数のサブエージェントを生成し、それぞれが問題の異なる部分を並行して処理します。 1つはドキュメントを読み別の1つはコードを検索し、 3つ目はテストを書くといった具合に同時進行します。複数のリクエストがローカルモデルに同時に届きます。 MLX-LM Serverはこれを継続的バッチ処理で対応します。

リクエストを1件ずつ処理する代わりに、受信したリクエストを動的にバッチにグループ化して GPU上でまとめて処理します。新しいリクエストは処理中のバッチに加わることができ、現在の処理が終わるのを待つ必要がありません。その結果、サブエージェントはキューで待機して止まることがありません。すべてが並行してサービスを受けられ、エージェンティックワークフロー全体がスムーズに進みます。最後に3番目の課題はモデルサイズです。場合によっては512GBのRAMを搭載した1台のマシンでもモデルがメモリに収まらないほど大きすぎることがあります。例えば最新のDeepSeekモデルは 1兆6,000億ものパラメータを持ち、重みだけで800GB以上のメモリが必要です。 MLXの分散サポートにより ThunderboltやEthernet経由で接続した複数のMacにモデルを分散できます。エージェントにとってこれは 2つの点で有効です。 1つ目は、1台のマシンでは動かせないほど大きく高性能なモデルを実行できること。 2つ目は、デバイスをまたいでプロンプト処理を並列化できること。これによりエージェンティックループが直接高速化されます。モデルがツール結果をより速く処理できるためです。

MLX-LM Serverでの分散推論のセットアップは比較的シンプルです。 mlx.launchを使ってサーバーを起動し、ノードと接続の種類の情報を含むホストファイルを指定します。モデルは利用可能な全デバイスに自動的にシャードされ、あとはすべて自動的に動作します。 macOS 26.2からThunderbolt RDMA のサポートが追加されました。 Thunderbolt経由で低遅延・高帯域幅通信を実現します。その結果、MLXを使った分散推論は大幅な高速化を実現しました。 4ノードで最大3倍の速度向上です。 MLXを使った分散推論のために Macをセットアップする方法については、セッション「Explore distributed inference and training with MLX」をご確認ください。先ほどのPR要約デモを覚えていますか？あれはシンプルな読み取り・報告タスクでした。

もう一歩進んで何が起きるか見てみましょうエージェントにプロジェクト全体をゼロから書くよう依頼したり既存のバグを修正するようお願いします。

このデモではエージェントに依頼します小さなSwiftUIアプリケーションをゼロから構築するよう。

空のXcodeプロジェクトから始めて iPadの描画アプリを構築するようエージェントに依頼しています。

さっそく始まります。エージェントはまず現在のディレクトリを確認して既存のプロジェクト構造を把握します。実装を導くための計画を立て、コードの作成に取り掛かります。エージェントを使えば何もコピーせずプロジェクトをビルドする必要もありません。エージェントはファイルを書いてからアプリをビルドし、途中で発生するエラーを修正していきます。

さあ完成ですモデルが終了しましたアプリの最初のバージョンを作成するのに数分しかかかりませんでした。同時にXcodeでプロジェクトを開いていましたシミュレータでアプリを起動しています。

エージェントが作成したものを確認してみましょう。

完全に機能する描画アプリが出来上がっています。 2分で構築されたにしては素晴らしい仕上がりです。エージェンティックコーディングでは反復を続けられます満足のいく結果になるまで。例えば私は丸みを帯びたend capが好みです。見た目がずっと良いと思います。エージェントに追加するよう依頼しましょう。

エージェントはコードを編集してアプリを再コンパイルしますエラーなくコンパイルできるまで。

新しいバージョンをテストしましょう。

丸みを帯びたend capができました。これは素晴らしいですね。これがすべてローカルで行われたことがさらに印象的です。このMac上のMLX-LM serverを通じてモデルが実行されましたエージェントは標準的な開発ツールを使用しました xcodebuildなどを使って作業を確認・ビルドしました。

最後のデモです。開発環境に直接統合されたものをご覧いただきましょう。

同じ描画アプリのプロジェクトを Xcodeで開いています。 Xcodeを起動中のMLX serverに接続しましょう。設定を開いて Intelligenceタブに移動します。をクリックしてプロバイダーを選択します。 PortをMLX serverの起動時に指定した8080などのポートに設定し、完了です。これでXcodeがローカルモデルと通信できます。

以前動作していたアプリにバグを仕込みましたモデルに修正を依頼できます。

数秒以内にバグを特定して周辺のコードを調べます。最後に修正を書いてアプリをビルドして実行できます。

これはローカルで実行されているエージェントが Xcodeの既存の開発ワークフローに統合できることを示していますプロジェクトファイルを読み込みビルドエラーを理解して、的を絞った修正を行います。ローカルAIなら、コードが Macから出ることはありません。

今日はMac上でローカルにエージェンティックAIを動かすための MLXからエージェントまでのフルスタックをご紹介しましたそしてNeural Accelerator、継続的バッチ処理、分散推論が高速化を実現する方法も紹介しました。始めるには、MLX-LMをインストールしサーバーを起動してお気に入りのエージェントを向けましょう。今日ご紹介したすべてのものはオープンソースで今すぐ利用可能です。ご視聴ありがとうございます MacのローカルエージェンティックAIで皆さんが何を作るかを楽しみにしています。

4:40 - Set up MLX-LM and start the local server

# Step 1: Install MLX-LM
pip install mlx-lm

# Step 2: Start the server
mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit

# Step 3: Point your agent to the server
curl -X POST \
  http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default_model","messages":[{"role":"user","content":"Hello!"}]}'

5:18 - Configure an agent to use your local MLX server

{
  "$schema": "https://opencode.ai/config.json",
  "model": "mlx/default_model",
  "small_model": "mlx/default_model",
  "provider": {
    "mlx": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "MLX (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "default_model": {
          "name": "Default MLX Model"
        }
      }
    }
  }
}

8:33 - Launch distributed inference with MLX

mlx.launch --hostfile hosts.json \
  --backend jaccl \
  /remote/path/to/mlx_lm.server \
  --model mlx-community/Qwen-3.5-122B-A3B-8bit

0:00 - Introduction
Overview of building and running agentic AI workflows entirely on Mac using MLX — no cloud, no API keys, just your hardware.
0:32 - The chat and agentic loop
How traditional chat differs from the agentic loop: the model decides what to do, calls tools to run commands, read files, and hit APIs, observes the results, and iterates — all running locally for privacy and offline availability.
2:42 - Local agentic AI stack
A walkthrough of the four-layer stack powering local agentic AI on the Mac: MLX (array framework for Apple Silicon), MLX-LM (model loading, quantization, and fine-tuning), MLX-LM Server (OpenAI-compatible HTTP server), and the agent layer — including popular tools like Ollama, LM Studio, and vLLM.
4:36 - Setting up your own agent
Three steps to go from zero to a fully local agentic workflow: install MLX-LM with pip, start the server with a tool-calling model, and configure your agent to point at the local endpoint.
5:39 - Making agents fast
How MLX tackles the first challenge of agentic workloads — efficiently processing large contexts with hundreds of thousands of tokens — including how M5 Neural Accelerators accelerate prompt processing speed.
6:53 - Concurrency and distributed inference
How MLX handles continuous batching for concurrent multi-agent requests, and distributed inference to spread large models across multiple Macs over Thunderbolt.
9:20 - More examples
Two-part live demo building SwiftUI apps entirely on-device. First, using OpenCode with MLX to generate a complete SwiftUI project from a description; then, using Xcode's agentic coding capabilities to build and fix a SwiftUI app — all running locally.
13:01 - Next steps
Summary of the full local AI stack and practical steps to get started: install MLX-LM, launch the server, and connect your agent. All shown tools are open-source and available now.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

MLXを利用したMac上でのローカルのエージェントAIの実行

関連する章

リソース

関連ビデオ

WWDC26

WWDC25