Core AIについて

Core AIについて

Appleが新たに提供する、オンデバイスでのAIモデルのデプロイのためのフレームワークである、Core AIを紹介します。Pythonライブラリによるモデルの変換、オーサリング、最適化や、シンプルなプラグ＆プレイの推論とレイテンシおよびメモリに関する厳しい要件を持つ高度なユースケースへの対応を可能にするSwift APIなど、エコシステムの概要を確認しましょう。新しいCore AIモデルリポジトリでは、人気のアーキテクチャに対応したすぐに実行できるサンプルをお見せします。ワークフローを効率化してよりスマートで応答性に優れたアプリ体験を実現する、モデルの事前コンパイルなどのXcodeとの高度な統合機能についても解説します。

関連する章
- 0:00 - Introduction
- 0:33 - What is Core AI
- 4:57 - Model conversion
- 6:16 - App integration
- 10:48 - Profiling with Instruments
- 11:15 - Optimizing performance
- 14:13 - Additional features
- 15:34 - Specialization
- 20:07 - Next steps
リソース
関連ビデオ

WWDC26
こんにちは BenといいますCore AIチームのエンジニアです。
本日はCore AIの概要とアプリにインテリジェントな機能を追加する方法をご紹介します。 AIはかつてないスピードで進化しています。以前は実現不可能と思われていた新しいモデルや機能が次々と登場しています。 Core AIはその勢いを活かしさらに発展させるために構築されました。
Core AIはAppleプラットフォームにおけるオンデバイスAI実行の次世代の進化です。最新のワークロードに向けてゼロから構築されており高度なAI機能を構築するために必要な高性能な推論を提供します。 Core AIはオンデバイスの Apple Intelligenceを動かす推論フレームワークです。そして今皆さんも利用できるようになりました。アプリ独自のインテリジェンスに同じ力をもたらします。 Core AIは単なるフレームワークではありません。モデルデプロイのライフサイクル全体をカバーする完全なテクノロジーセットです。モデルの最適化とコンバージョンからデバッグおよびアプリへの統合まで対応します。優れたAI機能の構築に欠かせない高速で反復的なサイクルをサポートするよう設計されています。 Core AIはApple Siliconを最大限に活用できます。 CPU GPU Neural Engine全体で超高速の推論を実現します。このフレームワークにはモダンな Swift APIが付属しています。アプリが求めるパフォーマンスを提供する表現力豊かなAPIでメモリ安全性も犠牲にしません。
より広範なテクノロジーセットは一般的なML エンジニアリングワークフローに自然に溶け込みます。使い慣れたPythonとPyTorchの基盤を活用してモデルのオーサリング最適化そしてコンバージョンを行います。 Core AIはきめ細かな推論管理やモデルの特化からカスタムGPUカーネルまで広範なカスタマイズもサポートします。これらすべてが新しいデベロッパツールチェーンと緊密に統合されており事前コンパイル専用のCore AI Instruments そして強力なビジュアルデバッガがテンソル値を元のPythonソースコードまで直接トレースできます。 Core AIはニーズと利用可能なコンピューティングに合わせてスケールします。小規模な話者分離モデルでライブ会議中の発言者を識別したい場合もスピーカー分離モデルで対応できます。ユーザーがカメラを任意のものに向けて質問を投げかけ大規模なビジョン言語モデルで即座に回答を得たい場合もまたは複雑なマルチステップタスクを 700億パラメータのLLMが動かす強力なエージェントアシスタントに任せる場合も Core AIが対応します。すべてAppleデバイス上でローカルに動作しサーバー不要でトークンコストもかかりません。このセッションではまずモデルを Core AI形式に変換する方法を解説します。次に変換したモデルをアプリに統合する方法を説明します。その後少し深掘りしてモデルとアプリのパフォーマンス最適化を取り上げます。最後にCore AIの追加機能と関連ツールの中で役立つものをご紹介します。では始めましょう。素晴らしいアプリ体験はすべてアイデアから始まります。少し魔法のような感覚を提供するものを作りたいとかインテリジェントに反応するものとか人間の判断やハードコードされたルールを必要とする意思決定を行うものとか。そういった体験を可能にするのが機械学習とAIです。そのアイデアが決まったら次のステップはそれを実現できるモデルを見つけるか作ることです。アイデア自体が時間とともに進化していくように適切なモデルを見つけることも反復的なプロセスです。試して要件に照らして評価し改善していきます。 Core AIはその反復をサポートしできる限り高速でスムーズに進めるよう設計されています。具体的な例として私が思いついたゲームのアイデアを実装します。 2人用のスネークゲームができるアプリで一方のスネークはCore AIを通じて実行されるAIモデルが操作します。アプリは従来のスネークのルールに従いスネークは食べ物を食べることで成長でき壁や自分自身そしてもう一方のスネークに当たらないようにします。最後まで生き残ったスネークの勝ちです。各タイムステップでAIモデルは現在のボード状態を表す一連の特徴量を受け取りそれらが蓄積されてモデルに入力されるゲーム全体の履歴になります。そしてモデルは最適な進行方向を予測します。スネークはシンプルなゲームですがこの体験を作るために使うツールとAPIは同じ基盤の上に成り立っておりより大規模で複雑なユースケースまでスケールします。このプロジェクトで PyTorchを使って何が作れるか試してみました。 AIコーディングアシスタントの少しの助けを借りてシンプルなスネークの行動予測モデルをかなり素早くスケッチできました。訓練には単純なシミュレーションを使ってトレーニングデータを生成しました。ゲームを実行して状態とアクションを記録するだけです。まずシンプルに始めてアプリでモデルを動かすことが目標でした。
次のステップはこのPyTorchモデルを Core AIに変換することです。新しいCore AI Torch Pythonパッケージを使って簡単に変換を行います。
まずSnakeTransformerモジュールの学習済みチェックポイントを読み込みサンプル入力を準備します。次にtorch.exportを使って torchプログラムをエクスポートし dynamic_shapes引数を使って特徴量のシーケンス長が動的であることを指定します。これにより静的なサンプル長5でトレースされるのを防ぎます。また変換されたプログラムに Core AIの分解テーブルを使って分解を実行します。次にCore AIのTorchConverterを実行し入力と出力の名前を指定して最後に変換されたCore AIモデルをディスクに保存します。 Python環境を離れる前にもう一つやっておくこととして変換されたCore AIモデルが元のPyTorchモデルの数値と一致するかテストします。 Core AIフレームワークのPythonバインディングを使えば簡単に実行できます。まずPyTorchとCore AIのモデルを読み込みます。次にスネークゲームのサンプル入力を準備します。同じ入力をPyTorchモジュールと Core AIの推論関数の両方で実行します。最後にユースケースにとって十分に小さい差分を PyTorchとCore AIの出力間で確認します。
変換したAIモデルが用意できたので次はXcodeに移ってモデルをアプリに統合します。まずXcodeでAIモデルファイルを開くとモデルに関する情報が表示されます。モデルサイズや演算の分布その他の便利なメタデータが含まれます。またタブではモデル内の各ユニーク関数の正確な関数シグネチャが確認できます。この場合モデルには関数が1つだけありゲームボードの特徴量を入力として受け取りロジットを出力として生成します。そのロジットはモデルが最適と判断する移動方向を示します。 NDArrayの値にあるクエスチョンマークはその次元が動的な形状を持つことを示しており動的なシーケンス長で変換したモデルと一致しています。 AIモデルファイルをXcodeプロジェクトに追加して構造を確認したので次のステップは Core AIフレームワークを使ってモデルを実行することです。 Core AIフレームワークはCore AIモデルを読み込んで実行するための新しいSwift APIサーフェスです。段階的に開示されるAPIセットを提供しておりシンプルに始められるとともにパフォーマンスクリティカルなアプリケーションをサポートするためのより深い柔軟性の層も備えています。また非エスケープ型などのモダンなSwift言語機能を活用しパフォーマンスを犠牲にせずにメモリ安全なAPIを提供します。フレームワーク内の主要な型について説明します。 AIModelは.aimodelファイルへの URLから初期化され主に1つ以上の推論関数を検査・読み込むために使用されます。 InferenceFunctionは実行可能なオブジェクトで読み込まれた単一のコンピュートグラフを表します。一般的なケースでは AIModelには単一のメインInferenceFunctionのみがありますが複数の関数を持つ単一のモデルに変換することもできます。 AIModelとInferenceFunctionは通常アプリのAI機能を準備する際に構築するオブジェクトです。たとえばアプリの初期化時に行うことができます。 NDArrayは多次元の入出力データを保持する型で InferenceFunctionのrunメソッドを使ってそのデータで推論を実行します。最後に推論の出力を読み取って処理できます。スネークゲームの実装ではまずModelPlayerという型を作ります。アプリ初期化時に使用するAIモデルファイルへのURLで初期化されます。次にAIModelを初期化しそこからメインの推論関数を読み込みます。次はモデルプレイヤーが意思決定するロジックです。アプリで定義したSnakePlayerプロトコルに準拠します。プロトコルの主な要件は chooseAction関数でゲームの履歴が渡されスネークが次に取るべきアクションを返します。最初にすることは入力特徴量を格納するためのNDArrayを作ることです。この推論関数に対して NDArrayの期待される構造は float32データを持つ2次元配列で形状の第1次元が現在のシーケンス長第2次元が固定された隠れ次元サイズです。次にwriteFeatures補助関数を使ってそのNDArrayに特徴量を書き込みます。この関数はゲームとNDArrayのミュータブルビューを受け取ります。 NDArray.MutableView型は非エスケープ型で NDArrayのバッキングストレージへの安全で効率的なアクセスを提供します。入力を準備したらそれで推論を実行し期待される出力ロジットの ndarrayを取り出します。最後のステップは出力ロジットをサンプリングしてスネークが次に移動する方向を選びます。 ndarray viewを補助関数に渡すことで値を読み取り最も大きいロジットに対応する方向を選択します。 writeFeatures関数は入力特徴量を格納するものです。これらの特徴量に含まれるものを簡単に説明します。
AIスネークの頭から全壁までの正規化された距離最も近い食べ物までの正規化された相対X・Y距離
現在の方向をエンコードする 4つの要素もう一方のスネークまでの正規化された距離そして最後に相手の向きです。これが整ったのでテスト実行を試みます。両方のスネークをAIモデルで動かして性能を確認します。
実行するとモデルが正常に動作しています。ただしゲームが進むにつれて遅くなっているのがわかります。
Core AIフレームワークと並んで Xcodeに新しいInstrumentが追加されておりアプリで実行されるCore AIモデルをプロファイルできます。この場合 Instrumentsでアプリを実行すると推論の間隔が時間とともに顕著に大きくなっているのがわかり推論呼び出しのレイテンシが増加していることを示しています。これはTransformerモデルがシーケンス長に対して二乗の時間計算量を持つためです。このゲームではシーケンス長がモデルの手を打つたびに増加します。次のステップはモデル使用のパフォーマンスを最適化することです。
入力シーケンスが増えるたびに Transformerモデルはシーケンス内の各要素に対して内部的なキーとバリューの埋め込みを再計算します。 Transformerを使った際のデコードループのパフォーマンスを改善するためによく使われる戦略はシーケンスの各要素に対して計算されたキーとバリューをキャッシュすることです。推論のたびにゼロからすべてを再計算するのではなく計算済みのものを使い回します。これはCore AIの状態を使うことで実現できます。
状態はモデルへの入力で読み取られると同時に推論中にインプレースで更新されます。キーとバリューのキャッシュをモデルの状態として導入することで各推論でそれらを再計算することを避けゲームの全履歴を入力として提供する必要もなくなります。過去のステップに必要なデータは状態に格納されているためです。最初の入力の後は後続の各ステップで履歴にキャッシュを使用し最新のボード状態の新しい特徴量のみを受け取ります。キー/バリューキャッシュを実装するために元のオーサリングコードに戻ってキーとバリューのキャッシュを追加するいくつかの変更を加えます。まずtorchのregister_buffer APIを使ってキーとバリューのキャッシュテンソルを Transformerモジュール内のバッファとして torchモジュールに追加します。これにより後でこれらのテンソルがエクスポートされたtorchプログラム内のミュータブルバッファになり Core AIが状態に変換します。次にモジュールのforward関数でキャッシュを実際に使うロジックを追加します。これにはキャッシュから以前の特徴量のキーとバリューを読み出すことが含まれます。次に新しい特徴量に対して計算されたキーとバリューをキャッシュに書き戻します。最後にモデルを再変換するために以前と同じコードを再実行しますが今度はconvert呼び出しに state_names引数を追加して新しい状態引数の名前を指定します。新しい関数シグネチャでモデルを再変換したのでアプリのコードを更新して対応します。まずModelPlayerを更新してキーとバリューのキャッシュNDArrayを保持するようにします。これが各推論に渡される状態引数になります。 Transformerに期待される形状で初期化します。この場合キーとバリューのキャッシュが常に固定サイズになるようにモデルを変換しました。最大コンテキスト長に対応した固定サイズです。推論を実行するときは MutableViewsのコレクションを構築してキーとバリューの両キャッシュのビューを含めます。そしてInferenceFunction.runメソッドの states引数としてそれらを渡します。これでキャッシュは各推論で読み取られインプレースで更新されます。更新されたモデルでアプリを再実行します。今度は一定の速度を維持しているのがわかり時間とともに遅くなることはなくなりました。 Instrumentsで更新されたアプリをトレースすると推論レイテンシの増加速度がはるかに遅くなっていることが確認できます。
まとめに入る前にスネークゲームの開発では使わなかったいくつかの機能を紹介します。独自のアプリを開発する際に役立つかもしれません。スネークゲームのモデルを変換する際は coreai-torchパッケージを使って PyTorchモジュールを直接変換しました。このフローはシンプルで多くのユースケースに有効ですがモデルのオーサリング方法をより細かく制御したい場合やモデル内の演算の実行方法まで制御したい場合もあります。 Core AI Pythonパッケージの機能はまだ表面に触れたにすぎません。 Core AI APIを使ってモデルを直接オーサリングする機能や Apple Silicon向けのモデル最適化 Metal 4を使ったカスタムカーネル実装の定義もサポートしています。これらの高度なモデルオーサリングフローの詳細については「Dive into Core AI model authoring and optimization」をご覧ください。パフォーマンスのデバッグに加えて変換されたモデルの数値をデバッグできることも重要です。そのためにCore AI Debuggerを使えます。変換されたモデルを視覚化し中間テンソル値を簡単に確認でき変換されたモデルの演算をそれらを生成したPythonソースコードまでトレースできます。また便利なCore AIデバッグゲージもあり Xcodeでアプリを実行中に Core AIのアクティビティをストリーミング表示します。 Instrumentsに移る前にパフォーマンスの問題を見つけるのに最適な場所です。
スネークゲームの実装でさらっと流してしまったことの1つにモデルの特化プロセスがあります。
AIモデルをアプリに同梱する場合それはモデルのソース表現であり任意のAppleデバイスで実行できます。ただしアプリ内でモデルを実際に読み込んで実行するにはアプリが動作するデバイス向けに特化する必要があります。モデルが読み込まれるとすでに特化されてキャッシュされているかどうかが確認されます。特化プロセスは非常に大きなモデルの場合かなりの時間がかかる場合があります。 2回目以降はキャッシュから高速に読み込まれますが初回は計画を立てる必要があるかもしれません。ユーザーがインタラクティブなフロー内でモデルの特化が発生しないようにすることをお勧めします。 Core AIがその点をサポートします。まずCore AIはアプリのデフォルトモデルキャッシュへのプログラムによるアクセスを提供します。そこから直接モデルを読み込むように要求できます。 nilが返された場合は存在せず特化が必要です。これを使って機能にゲートを設けたりユーザーにアプリがモデルを準備中であるため少し待つ必要があることを伝えられます。次にアプリ内でモデルの読み込みとは独立してモデルの特化を明示的にリクエストできます。アセットのダウンロード後やユーザーが機能をオプトインした際に行うことでモデルをあらかじめ準備しておけます。さらに多くの制御オプションがあります。 SpecializationOptionsはモデルを推論向けにどのように最適化するかを設定するのに役立ちます。 AIModelCacheでは不要になったエントリを削除したりエントリの保持期間のポリシーを制御できます。同じアプリグループ内の複数のアプリでキャッシュを共有することもできます。詳細はdeveloper.apple.comの「Managing model specialization and caching」の記事をご覧ください。
特化がいつ行われるかに関わらず時間はかかります。少し詳しく見てみましょう。特化の際にモデルは主に2段階の変換を経ます。まずコアとなるコンパイルステップ群を経てコンピューティングを分割し計画し最適化します。次に使用するコンピュートユニット向けの実行可能なアーティファクトが生成されます。これらのアーティファクトは生成されたデバイスとOSバージョンに紐付けられます。この2つのステップのうちコンパイルがレイテンシのほとんどを占めます。 Core AIツールチェーンを使えばその時間を短縮できます。開発マシン上で事前にコンパイルを一部行うことができコンパイル済みのモデルが生成されます。そのコンパイル済みモデルは特定のユーザーのデバイス向けに特化する必要がありますが残りの作業量がはるかに少なくなり大幅に高速に完了します。このオプションの詳細については developer.apple.comの「Compiling Core AI models ahead of time」の記事をご覧ください。特化がいつどこでどのように行われるかを制御することはユーザー体験を最適化する方法の1つです。最適化したいもう1つの領域はモデルを使った密な推論ループでのオーバーヘッドの除去です。 Core AIフレームワークにはこれをサポートするいくつかのAPIがあります。 NDArray引数の最適なメモリレイアウトを動的に確認しその構造で割り当てることで推論時のレイアウト変換を回避できます。
フレームワークが書き込むための出力値を事前に割り当てることもでき推論中に新しい出力値を割り当てることを避けられます。
また非同期値を使って複数の推論関数の実行を効率的にパイプライン化できます。ほとんどのユースケースでは高レベルの推論APIで必要なところに到達できます。ただし密な推論ループを最適化したりモデルを複雑なコンピュートパイプラインに統合する場合はこれらの低レベルAPIが必要なときに利用できます。始めたばかりであっても深く掘り下げる場合でも Core AI Modelsリポジトリは必要なものを見つけるのに最適な場所です。人気のモデルのコレクションがありそれぞれわずか1つのコマンドでアプリ向けに変換・最適化できます。 Core AIモデルのオーサリングに精通したAIスキル最適化とコンバージョンもあります。
また特定のモデルファミリ向けのライブラリを含むSwiftパッケージもあり多くの低レベル推論最適化がすでに組み込まれた高レベルAPIを提供します。 Core AI言語モデルを作成するAPIも提供しており Foundation Modelsフレームワークに直接プラグインでき独自のカスタムモデルとトークンサンプリング戦略を持ち込めます。
まとめると Core AIはすべての Apple Silicon上で利用できすべてのAppleプラットフォームで最先端のAI体験を構築するのに役立ちます。すでに使い慣れている既存のPythonツールと緊密に統合されておりアプリ内でモデルを効率的に実行するためのモダンなSwiftフレームワークそして最先端のデバッグツールも備えモデルがAppleデバイス上でどのように動作しているかを把握するのに役立ちます。皆さんがどのような体験を作り上げるか楽しみにしています。

5:08 - Convert a PyTorch model to Core AI

import torch
import coreai_torch
# Load trained snake model and sample input for tracing
pt_model = SnakeTransformer().load_checkpoint("snake.pt")
example  = torch.randn(1, 5, 16)

# Export the torch program including dynamic shape for input sequence
seq_len  = torch.export.Dim("seq_len", min=1, max=256)
exported = torch.export.export(
    pt_model, args=(example,), 
    dynamic_shapes={"features": {1: seq_len}},
)
exported = exported.run_decompositions(coreai_torch.get_decomp_table())

# Convert torch graph → Core AI graph
ai_program = coreai_torch.TorchConverter().add_exported_program(
    exported, input_names=["features"], output_names=["logits"],
).to_coreai()

# Save as a .aimodel asset the runtime can load
ai_program.save_asset("SnakeTransformer.aimodel")

5:44 - Verify converted model numerics

import torch
import numpy as np
from coreai. runtime import AIModel, NDArray
# Load models
pt_model = SnakeTransformer().load_checkpoint("snake.pt")
ai_model = await AIModel.load("SnakeTransformer.aimodel")
function = ai_model.load_function("main")
# Assemble input sample - 10 frames of 16-dim game features, shape (1, 10, 16)
features = np.array(lextract_features(game) for - in range (10)],
dtype=np.float32)[np.newaxis]
# PyTorch reference
with torch.no_grad():
	pytorch_logits = pt_model(torch.from_numpy(features)) . numpy )[0, -1]
# Core AI inference
result = await function({ "features": NDArray(data=features)} )
coreai_logits = result["logits"]. numpy()[0, -1]
# Validate
max_diff = np.max(np.abs(pytorch_logits - coreai_logits))
	assert max_diff < 0.01

7:41 - Core AI framework core types

// Core types within Core AI
import CoreAI

// Load the '.aimodel' file
let model = try await AIModel(contentsOf: modelURL)

// Load the main inference function
let mainFunction: InferenceFunction = try model.loadFunction(named: "main")!

// Construct the n-dimensional input data
let inputNDArray: NDArray = nextInput()

// Run inference
var outputs = try await mainFunction.run(inputs: ["input": inputNDArray])

guard let outputNDArray = outputs.remove("output")?.ndArray else {
  // Handle unexpected missing output
}

8:33 - Initialize ModelPlayer with AIModel

// Initialize the player by loading the AIModel and InferenceFunction
struct ModelPlayer {
  let nextActionFunction: InferenceFunction

  init(modelURL: URL) async throws {
    let model = try await AIModel(contentsOf: modelURL)
    self.nextActionFunction = try model.loadFunction(named: "main")!
  }
}

8:49 - Run inference with NDArray inputs

extension ModelPlayer: SnakePlayer {

  mutating func chooseAction(game: SnakeGame) async throws -> Direction {

    // Create an NDArray for the next input and write board features into it
    var inputFeatures = NDArray(shape: [game.stepCount, hiddenDim], scalarType: .float32)
    writeFeatures(of: game, into: inputFeatures.mutableView())

    // Run inference and extract the expected logits output NDArray
    var outputs = try await nextActionFunction.run(inputs: ["features": inputFeatures])
    guard let logits = outputs.remove("logits")?.ndArray else {
      throw ModelError.missingOutput
    }

    return predictedDirection(from: logits.view())
  }

  func writeFeatures(of game: SnakeGame, into view: consuming NDArray.MutableView<Float>) { … }
  func predictedDirection(from logits: NDArray.View<Float>) -> Direction { … }
}

10:10 - Input features for the snake model

// Features at each time step
var features = [Float]()

// Distance to wall in all directions, normalized between [0, 1]
features += [dWallUp, dWallDown, dWallLeft, dWallRight]

// Distance to nearest food, normalized between [-1, 1]
features += [dFoodX, dFoodY]

// Direction encoded as one-hot: [1,0,0,0]=up, [0,1,0,0]=down, etc.
features += dir.oneHotEncoding

// Distance to the other snake, normalized to [-1, 1]
features += [dUserX, dUserY]

// Direction of the opponent snake
features += dirU.oneHotEncoding

12:18 - Add KV cache buffers to PyTorch module

# Update torch module to include key and value caches
# Use register_buffer to later make the exported torch program treat them as mutable

class SnakeTransformerStateful(nn.Module):
    def __init__(self, ...):
        super().__init__()
        self.register_buffer(
            "k_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))
        self.register_buffer(
            "v_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))
        # …

12:50 - Update forward pass to read/write KV caches

# During forward pass, read/write KV caches

class SnakeTransformerStateful(nn.Module):

    def forward(self, features, position_ids):
        new_k, new_v = [], []
        for i, block in enumerate(self.blocks):
            # read previous keys/values from caches
            k_prev = self.k_cache[i]
            v_prev = self.v_cache[i]
            # ... compute q/k/v for the new token, attend over valid prefix ...
            new_k.append(k_updated)
            new_v.append(v_updated)

        # Update key/value caches
        self.k_cache.copy_(torch.stack(new_k))
        self.v_cache.copy_(torch.stack(new_v))

        return self.action_head(self.ln_final(x))

12:59 - Re-convert model with state names

# Updated coreai-torch conversion code using key/value cache states
import torch
import coreai_torch

exported = torch.export.export(
    stateful_model,
    args=(example_features, example_position_ids),
    dynamic_shapes={"position_ids": {1: seq_len}},
)
exported = exported.run_decompositions(coreai_torch.get_decomp_table())

ai_program = coreai_torch.TorchConverter().add_exported_program(
    exported,
    input_names=["features", "position_ids"],
    state_names=["keyCache", "valueCache"],
    output_names=["logits"],
).to_coreai()

ai_program.save_asset("SnakeTransformer.aimodel")

13:17 - Store KV cache NDArrays in ModelPlayer

// Add stored properties for the key and value caches
struct ModelPlayer {
    let nextActionFunction: InferenceFunction

    var keyCache: NDArray
    var valueCache: NDArray

    init(modelURL: URL) async throws {
        let model = try await AIModel(contentsOf: modelURL)
        self.nextActionFunction = try model.loadFunction(named: "main")!

        self.keyCache = NDArray(shape: [layers, maxContext, hiddenDim], scalarType: .float32)
        self.valueCache = NDArray(shape: [layers, maxContext, hiddenDim], scalarType: .float32)
    }
}

13:45 - Pass state views to inference function

extension ModelPlayer: SnakePlayer {
    mutating func chooseAction(game: SnakeGame, snakeID: Int) async throws -> Direction {
        // …

        var stateViews = InferenceFunction.MutableViews()
        stateViews.insert(&keyCache, for: "keyCache")
        stateViews.insert(&valueCache, for: "valueCache")

        // Run inference and extract the expected logits output NDArray
        var outputs = try await nextActionFunction.run(
            inputs: ["features": inputFeatures],
            states: stateViews)
        // …
    }
}

16:22 - Check model cache before loading

// Check if your model can be loaded from the cache
let cache = AIModelCache.default

guard let model = try cache.model(for: modelURL, options: .default) else {
    Task { @MainActor in
        informUser("Preparing AI features. This may take a while…")
    }
}

16:42 - Request model specialization

// Explicitly request specialization
try await AIModel.specialize(contentsOf: modelURL)

- 0:00 - Introduction
- Introduction to Core AI and an overview of what the session covers: model conversion, app integration, performance optimization, and additional features.
- 0:33 - What is Core AI
- Core AI is the inference framework powering on-device Apple Intelligence, now available to developers. It covers the full model deployment lifecycle, leverages all of Apple Silicon (CPU, GPU, ANE), and comes with a modern Swift API, Python tooling, and a dedicated developer toolchain.
- 4:57 - Model conversion
- How to convert a PyTorch model to the Core AI format using the coreai-torch Python package — including exporting with torch.export, specifying dynamic shapes, running the converter, and verifying numerical correctness of the converted model.
- 6:16 - App integration
- How to load and run a Core AI model in your app using the CoreAI Swift framework — inspecting the model in Xcode's model viewer, initializing an AIModel, preparing inputs as NDArrays, running inference, and extracting outputs.
- 10:48 - Profiling with Instruments
- How to use the new Core AI instrument in Xcode to profile model latency and identify performance bottlenecks, such as growing inference times caused by quadratic complexity in transformer models.
- 11:15 - Optimizing performance
- How to eliminate inference slowdowns by adding a key-value cache as a stateful input to your model — authoring the cache in PyTorch, re-converting with state_names, and updating your app to pass MutableViews of the cache buffers at inference time.
- 14:13 - Additional features
- A tour of Core AI tools not used in the demo: the rich Python authoring experience, the Core AI Debugger for numeric debugging of converted models, and the Core AI debug gauge in Xcode for streaming activity monitoring.
- 15:34 - Specialization
- How Core AI specializes models for the target device — what happens during specialization, how to manage it with programmatic cache access and SpecializationOptions, and how ahead-of-time (AOT) compilation can shift work off the user's device.
- 20:07 - Next steps
- Summary of Core AI's capabilities: on-device inference across all Apple Silicon, Python tooling integration, and debugging tools — with an invitation to explore the Core AI Models repository.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース

関連ビデオ

WWDC26