Core AIモデルのオーサリングと最適化の詳細

Core AIモデルのオーサリングと最適化の詳細

新しいCore AIフレームワークを利用した、Appleシリコン向けの完全なカスタムモデルのデプロイワークフローについて詳しく解説します。カスタムMetalカーネルを活用するモデルオーサリングのパワフルな手法や、プラットフォームに応じた圧縮の戦略を学びましょう。新しいCore AI Debuggerでは詳細な内在的分析を実行するほか、AI支援ワークフローが初期の構想からデバイス上での最適化された実行までのプロセス全体をガイドします。

関連する章
- 0:00 - Introduction
- 1:49 - Models and skills
- 3:27 - Python workflow
- 5:54 - Model optimization
- 10:40 - Core AI Debugger
- 19:27 - Advanced authoring
- 20:43 - Custom Metal kernels
- 23:01 - Model re-authoring
- 28:46 - Next steps
リソース
関連ビデオ

WWDC26
こんにちは Sachinです Core AIチームのエンジニアです後ほど同僚のNicoleが加わります。本日はCore AIを使って Apple Siliconでモデルを効率よく実行する方法をご紹介します。基本からより高度なアプローチまで。
「Meet Core AI」でお伝えしたように Core AIはテクノロジーの完全なスイートです。モデルのデプロイメントライフサイクルを網羅しています。モデルの最適化と変換からデバッグとアプリへの統合まで。
このトークではCore AIの Pythonエコシステムに注目します。 Core AIが提供する各種ライブラリとツールを Apple Siliconへのモデルデプロイのためにご紹介します。
Core AI Debuggerも紹介します。ワークフローの重要な一部として主要な問題の理解とデバッグに役立ちます。では始めましょう。
本日のアジェンダです。まずCore AIのモデルリポジトリを紹介します。そしてCore AIスキル、旅を加速する強力なツールも。次に基本的な変換と検証のプロセスをご紹介します。 Core AIはすでにご存知の PythonとPyTorchのワークフローを基盤としており、Core MLを使ったことがあれば馴染みやすいです。
続いてモデルの最適化を説明しユースケースとターゲットプラットフォームに合った適切な選択をする方法をお見せします。
モデルの理解を深めるために NicoleがCore AI Debuggerを紹介します。最後にCore AIが提供するモデルのオーサリングと変換での高度なカスタマイズ方法を紹介します。ではモデルとスキルから始めましょう。
Core AIエコシステムの中心に coreai-modelsリポジトリがあります。アプリでLLMを実行するための Swiftパッケージが含まれています。しかし核心はすぐに使えるモデルのオープンソースリポジトリで最先端の大規模言語モデルなど生成アーキテクチャも含みます。
さまざまなユースケースや制約を考慮したサンプルがあり独自モデルをCore AIに持ち込むためのコンポーネントもあります。そして最後に Core AI modelsにはエージェントスキルが付属します。これらのスキルをお気に入りのコーディングアシスタントにインストールして Core AIを初日からエキスパートのように使えます。 Core AIスキルはあなたと連携し高レベルのアイデアを下流タスクのための明確なデプロイ計画に変換します。対象モデルやターゲットハードウェアについてアプリの制約を含め確認することがあります。これらの要件がCore AIの必要な機能を決定します。 PyTorchモデルコードへの変更点から変換、最適化、モデルの実行まですべて。 AIスキルはコーディングエージェントにベストプラクティスとエンジニアのドメイン知識を提供します。これによりCore AIをプロのように活用できコーディングアシスタントでさらに深く理解できます。
実際、このトークで見るコードの大部分はこれらのスキルを積極的に活用したエージェントとの共同開発です。
では、PythonでCore AIを使ってモデルの変換と実行を見ていきましょう。
Core AIのPythonライブラリ、主にCore AI PyTorch extensionsがエコシステムへの入口です。インストールは簡単で pip install coreai-torchで coreaiパッケージとその上に構築されたcoreai-torch ライブラリがインストールされます。
coreai-torchにPyTorchのエクスポートされたプログラムを渡すと Core AIモデルに直接変換されます。 Core AIプログラムをユースケースに合わせてカスタマイズできる高度な機能をサポートします。例えば、複数のモデルを 1つのアーティファクトにまとめたり特定の操作にカスタムのローワリングを登録したり Metal 4カーネルを変換済みモデルに直接インライン化できます。そしてモデルを最適化されたアセットにスペシャライズして Apple Silicon上でPythonから完全にネイティブ実行できます。
今説明したパイプラインです。では実際に見てみましょう。
簡単な例を説明します。ここにニューラルネットワークがあります。 relu活性化を持つ2つの線形レイヤー。標準的なPyTorchです。
次にtorch.exportを実行しモデルとexample_inputを渡すと exported_programが得られます。このexported_programが Core AI変換の出発点です。完全な計算グラフをキャプチャします。重み、演算、形状を coreai-torchが処理できるフォーマットで。
次にCore AI側です。
Core AIのTorchConverterがエクスポートされたプログラムを受け取り入力名と出力名とともに core_ai_programに変換します。 CoreML toolsを使ったことがあれば馴染みやすいでしょう。
変換されたモデルは最適化され aimodelアセットとして保存されます。 Apple Siliconで実行できるオンデバイスフォーマットです。
スペシャライズされたアセットが得られたらプログラムから関数を読み込み Pythonから直接推論を実行できます。スペシャライゼーションオプションを渡してプロセスをカスタマイズできます。推論を実際に実行するには入力名を対応するnumpyテンソルにマッピングする辞書を渡すだけです。
これだけです… ワークフロー全体です。変換、最適化、実行すべてPythonから。
次はモデルを小さくする方法を説明します。 Core AIの最適化ライブラリを使用します。 Core AIの最適化機能を紹介するために Segment Anything Model、 SAM3を使用します。
SAM3は8億5000万パラメータのモデルでプロンプトベースの画像セグメンテーションを行います。モデルを最適化する前に内部構造を大まかに理解することが重要です。 SAM3には3つの主要なパーツがあります。画像を処理する Image encoder。ユーザーのプロンプトを扱う Text encoder。この2つのコンポーネントを合わせるとモデルのパラメータの96%を占めます。ここを正しく処理することが重要です。全体像を補うために DEtection TRansformerをラップした Detectorモジュールがマスクデコーダーと組み合わさって最終出力を生成します。セグメンテーションマスクです。
ご覧のとおり、SAM3は複雑なエンドツーエンドのタスクを実行します。これはまさにデベロッパがオンデバイスで実行したいと考えるユースケースです。
最適化にはCore AIの最適化ライブラリ coreai-optを活用します。 coreai-optは設定ベースのモデル圧縮を可能にします。圧縮する箇所とそのままにする箇所を記述します。さまざまな最適化スキームをサポートし 1つを選んで例えばmacOSとiOSで異なる最適化が可能です。
int4、int8、FP4もサポートしています。 FP8の重み圧縮も柔軟な粒度で対応。
最後にcoreai-optは量子化APIを含み少量のキャリブレーションデータで使用するか大規模なデータセットで量子化アウェアトレーニングを行えます。
先ほどのシンプルなパイプラインです。
ここにステップを追加します。変換前に圧縮設定を指定して coreai-optでモデルを実行します。または便利なプリセットを使用することもできます。同じエクスポートパイプラインを経るより小さなモデルが得られます。 SAM3で試して結果を確認しましょう。
まずSAM3をエクスポート用にラップします。このラッパーはtorch exportがモデルの完全な計算グラフをキャプチャするためのインターフェースを定義します。
そしてスライドの変換パイプラインを再利用可能なヘルパーにまとめました。いくつか興味深い点があります。
まず、PyTorchの exported_programで分解を実行します。 Core AIのカスタムテーブルを使用。これによりattentionなどCore AIがサポートする高レベルのセマンティクスがグラフに保持されます。
次に、プログラムのキャストもサポートします。必要に応じてcoreai-optのヘルパーを使って16ビット浮動小数点に変換します。
完全な変換は数分かかるためベースラインアセットを事前に計算しています。
ここではベースラインの 32ビット変換モデルを読み込み実行します。
ご覧のとおりサイズは3GB超です。実行するとデフォルトのスペシャライゼーションが適用されます。
これがベースラインです。この画像ですべての花に対するセグメンテーションマスクを要求します。デフォルトの閾値ですべて正常に検出されました。オンデバイスで実行。圧縮後もこの結果を保つ必要があります。
圧縮を見てみましょう。 coreai-optにはプリセット設定が付属しています。 presets.w4で1行で 4ビットのチャネルごと対称量子化が得られます。
ExecutionModeをEAGERに設定します。重み圧縮に最適です。アクティベーションには GRAPHモードを使います。
次にcoreai-optのQuantizerを設定で初期化しサンプル入力を渡してファイナライズします。モデルが圧縮されます。
先ほどと同様にモデルを読み込んでオンデバイスで実行します。
モデルは約430MBになりました。
結果を確認します。遮蔽された花の1つが検出されなくなりました。
すべてのレイヤーに同じ積極的な圧縮を適用しましたがすべてのレイヤーが同様に対応できるわけではありません。問題はどのレイヤーが原因なのかです。出力だけからでは診断が難しい問題です。モデルの内部を確認する必要があります。 Nicoleに引き継ぎます。方法をお見せします。
ありがとう Sachin! Core AI Debuggerについてお話しします。 Core AIモデルの作成と最適化の方法を確認しました。モデルとその動作をより深く理解したい場合は Core AI Debuggerを使用できます。 Core AI Debuggerは新しいスタンドアロンアプリで Appleプラットフォームでモデルを検査できます。
デバッガーでモデルの構造をわかりやすいグラフ形式で可視化できます。特定のハードウェアでモデルを実行して実際のランタイム結果を取得しリファレンス実行と推論の正確性を検証できます。すべて1か所で。 Core AI Debuggerの動作をご紹介します。 SAM3モデルの量子化で何が起きたかを調べます。元のモデルを開くことから始めます。
をクリックして開始します。
モデルが開いたのでデバッガーのワークスペースが表示されます。左側はナビゲーターでモデル内の演算の構造化されたリストがあります。
これらの演算はPyTorchモジュールでグループ化されており SAM3のような大きなモデルに特に効果的です。馴染みのある方法でモデルをナビゲートできます。
ナビゲーターでPyTorchモジュールを選択すると detector decoderなど対応するすべてのノードがワークスペース上部の structure viewerでハイライトされます。このビューはモデルのグラフィカルな表現を示し演算の接続性を明確に把握できます。実行順序とデータの依存関係も。
下部のsource viewerでモデルの元のPythonコードを常に確認でき特定の行まで辿れます。
さらに演算を選択することで詳細を確認できます。
右側のインスペクターを開きます。ここで説明と演算の入出力に関する追加の詳細を確認できます。
これらのビューを組み合わせることでスムーズに移動できます。グラフ構造、ソースコード実行の詳細の間を行き来でき認知的負荷を大幅に軽減します。 SAM3のような複雑なモデルのデバッグに有効です。静的解析を超えてデバッガーはランタイム解析を可能にします。モデルがオンデバイスで実際にどう実行されるかを。量子化が問題を引き起こした箇所を特定するのに特に役立ちます。モデルを実行するにはワークスペース上部のをクリックします。スキーム設定でターゲットリストから Macを選択します。次にモデルに提供する入力を指定します。ピクセル値から始めます。
次にinput_IDs
そしてattention_mask。
最後にをクリックします。
SAM3が私のデバイスで実行するためにスペシャライズされています。準備ができたら structure viewerが更新されてモデルが表示されます。 Macで実行される状態とまったく同じです。任意の演算をクリックするとインスペクターで出力テンソルを直接確認できます。何も変更する必要はありません。問題に戻りましょう。まず最終的な検出マスクを確認したいです。モデルの末尾までスクロールして
最後の演算を選択します。
インスペクターでテンソルのプレビューをクリックしマスクを詳しく確認します。花が見えますがノートブックと同様に 1つが欠けています。
この結果が元のPyTorch実行とどう違うかを理解したいです。ノートブックに戻り新しいsave intermediates APIを使います。このAPIはPyTorchモデルを実行し各演算での中間テンソル値をキャプチャします。量子化した結果をSachinが示したベースラインと比較したいため int4モデルと元のSAM3を両方渡します。
実行します。
中間データが保存されたのでデバッガーに戻って結果を比較します。ワークスペース上部の比較アイコンをクリックします。新しい比較セッションを開始します。左側は先ほど指定した既存の設定です。右側では比較する別の設定を選択できます。別のTargetやCompute Unitなど。この場合はをクリックして Intermediates Fileからリファレンス実行を読み込みます。
先ほどエクスポートしたファイルを使います。比較を開始します。
ナビゲーターに演算ペアが表示されます。スペシャライズされたモデルの演算と PyTorchモデルが組み合わされます。
これらのペアはsync pointsと呼ばれます。スペシャライズされたモデルの出力が元のPyTorchの結果と一致する箇所です。デバッガーがモデル全体でこれらの点を自動的に特定し比較プロセスを容易にします。
各sync pointには2つの出力の類似度を示すメトリクスが付いておりどこで乖離するかを簡単に見つけられます。デフォルトのメトリクスはPSNR （ピーク信号対雑音比）ですが変更できます。モデルに最適な類似度指標を選べます。 SAM3にはPSNRを使います。
類似度メトリクスの値は右側のステータスインジケーターからすばやく確認できグラフからも確認できます。緑のノードは類似したテンソルを示し赤のノードは大きな差異を示します。
演算をスクロールすると複数の黄色のsync pointが見えます。モデルの一部が期待される結果から中程度に乖離しており期待値から外れています。類似度でソートし最も類似度の低い sync pointsを調査します。
ナビゲーターでsync pointをクリックすると source viewerが演算の PyTorchモジュール階層を表示します。例えばこの演算は detector decoderから来ています。
上矢印キーを使って PSNRの低いsync pointsを 1つずつナビゲートしパターンが現れるか確認します。
PSNRの低いsync pointsの大部分が detector decoderから来ていることに気づきます。これは先ほど適用した量子化スキームが detector結果をわずかに劣化させたことを示しています。 detector blockはモデルパラメータのわずか4%にすぎないため圧縮してもあまりメリットがありません。 Jupyter notebookに戻り detectorを除外するように量子化スキームを変更します。
新しいスキームが適用されたのでモデルを再エクスポートします。
変更が機能したか確認します。
素晴らしい! ベースラインの品質に再び達しました。すべての花が検出されモデルはサイズのほんの一部になりました。 Core AI Debuggerは数時間の手動テンソル比較を視覚的な診断に変えました。検出漏れから始まり数分で改良された量子化スキームに到達しました。本日紹介した内容を超えて Core AI Debuggerはより複雑な問題も解決できます。モデルの動作を深く可視化し Appleプラットフォームへのモデル展開により高い信頼性をもたらします。 Sachinに戻します。
ありがとう Nicole! さらに一歩進めましょう。これまで、モデルを1つのエンドツーエンドの単位として変換してきました。多くのモデルではそれで十分です。しかし常に十分とは限りません。ユースケースや特に制約によっては。ここでCore AIがより深く探求する力を発揮します。具体的には、PyTorchのソース自体に注目します。入力から出力までの計算のグラフを定義します。高度なモデルオーサリングとはこの計算グラフの内部を見てハードウェア上での実行を細かく調整することです。簡単な例として一連の演算を考えましょう。これらの演算をグループ化して 1つの演算に融合できます。複数のステップを置き換えてグラフ内で単一のカーネルディスパッチにします。 Core AIにはあらかじめパッケージ化された高速カーネルが付属しており Scaled Dot Product Attentionなどの重い演算に対応しています。 Transformerでよく使われます。これらの演算の活用例は coreai-modelsリポジトリにあります。しかしさらに先端を行きさらなるカスタマイズを望むならカスタムMetal 4カーネルもサポートします。
パイプラインに戻ります。カスタムMetalカーネルを使う場合の変更点です。 coreai-torchへの 2つ目の入力を追加します。 Metal Shading Language（MSL）で書かれたカーネルのソースコードです。コンバーターはPyTorchモデルとカスタムカーネルの両方を受け取り 1つのアセットにまとめます。 MSLがその中に直接埋め込まれます。モデルと一緒に配布されます。コードでどう見えるかご紹介します。まずPyTorchのリファレンスを定義します。標準的なSigmoid Linear Unit（SiLU）です。生成型Transformerモデルでよく使われる活性化関数です。これはtorch.exportがトレース中に見るものです。その下にMSLで実際の Metalカーネルを実装します。シンプルな要素ごとのカーネルで 1スレッドが1要素を担当し GPUで融合した活性化を直接計算します。この2つがあれば登録できます。 Core AI TorchMetalKernelを Metalソースを渡し PyTorchのリファレンスと入力名と出力名を渡します。この場合、入出力名はそれぞれ「x」と「y」で上のMSLカーネルで使われているのが確認できます。 Metalを書きます。 PyTorchのリファレンスを書きます。 Core AIがそれらを結びつけます。モデルで使用する際は他のPython関数と同様に呼び出します。入力を渡し、スレッドグリッドを指定すれば完了です。 1点注意があります。カスタムカーネルのすべてのインスタンス化に結果の形状を渡します。 PyTorchのソースで。これによりCore AIが入力の形状からカーネルの出力形状の計算をモデルの動的な入力形状でも組み込めます。
TorchConverterで変換する際カスタムカーネルをコンバーターに登録しエクスポートされたプログラムを先ほどと同様に追加します。 Metalソースがアセットに直接埋め込まれます。 1つのアーティファクトです。カーネルはモデルと一緒に配布されます。
Core AI向けの効率的な Metalカーネルの書き方や SAM3モデルで最適化されたカーネルの実際の動作については「Optimize custom machine learning operations with Metal tensors」をご覧ください。
ここまでグラフ内の複数の演算を取り上げて 1つに融合する方法を示しました。しかしより高度な最適化では特にiOSの場合さらに進んで書き直す必要があります。特定のターゲットを念頭に置いてモデル全体を。このプロセスをモデルのリオーサリングと呼びます。シンプルな一連の演算に戻ります。リオーサリングは通常この計算グラフの多くの側面を置き換えます。異なる演算を使用したり新しいテンソルレイアウトやモデルのインターフェースを変更することもあります。本質的にはソースコードの完全に異なる実装です。ソースコードの。
さらに掘り下げるとこのオーサリングには何が含まれるでしょうか。 1つの例はPyTorchコードで事前定義されたパターンを使用して特定の概念をCore AIに伝えることです。これによりフレームワークがこれらのセマンティクスをランタイムで最適化された実装にマッピングできます。その例がKey-Valueキャッシュのインプレース更新です。大規模言語モデルでよく使われます。もう1つのメカニズムは特にiOSをターゲットにする際の静的テンソル形状の使用です。チャネルファーストのテンソルレイアウトと畳み込み演算パターンも含みます。これによりCore AIが強力な基盤プリミティブを活用できます。オンデバイスの制約を満たしながら。このような新しいPyTorch実装を設計する際は厳密なテストが不可欠です。モジュールレベルとモデルレベルの両方で。個々のビルディングブロックとモデル全体が意図通りに動作することを確認します。このテストはユニットテストや統合テストの形を取れます。はじめるために、Core AI modelsリポジトリには複数の例が含まれています。このような再利用可能なコンポーネントとさまざまなモデルにわたるベストプラクティス。 Core AIスキルはコーディングアシスタントに初日からApple Silicon向けに最適化した PyTorchコードを書く力を与えます。 SAM3に戻りましょう。モデルをそのまま変換する代わりに目標に合わせて手作りした新しい PyTorch実装を書けます。最大の変更点は 3つの独立した関数を持つことです。 1つではなくCore AIモデルに。 coreai-torchにはこれを可能にするAPIがあります。 Image Encodeが画像を処理し Text Encodeがプロンプトを処理し Detectが最終的な後処理をラップして出力を生成します。このように作業を分割することでそれぞれの部分を異なるタイミングで実行できます。例えば、単一のプロンプトを一度だけ処理してアプリのさまざまな画像に使い回せます。各関数にクリーンなインターフェースを持たせそれぞれを独立して圧縮とオーサリングができます。実際に見てみましょう。 Image Encoder Transformerの attentionブロックです。 iOSでの省電力実行のために書き直しました。
標準的な線形レイヤーの代わりに畳み込みプロジェクションを使います。これはCore AIが適切な compute unitでネイティブハードウェアプリミティブを活用できるパターンの1つです。 text encoderも同様の処理を行います。小さいdecoderはほぼそのままです。計算量のわずかな部分を占めるためリオーサリングの効果は最小限です。
リオーサリングされたモデルを 3つの独立したモジュールとして構成します。 ImageEncoder
TextEncoder そしてDetector。先述のとおりこの分離によりモデルの各側面をそれぞれ独自に活用できます。
圧縮には4ビットのパレタイゼーションを適用します。チャネルごとのスケールで 2つのエンコーダーに。プリセットも利用できますがここではAPIを紹介するために低レベルの表現を使います。このルックアップテーブルベースの圧縮は iOSでの省電力効率に適しています。
先ほどと同様に KMeansPalettizerを構築します。 Quantizerと同様にモデルと設定を渡します。次にprepareとfinalizeを行います。また、入力画像サイズを 1008ピクセルから336ピクセルに変更してiPhoneで実行します。
detectorは圧縮しません。以前の演習から圧縮に敏感なことがわかっています。
次に各モデルを torch exportで実行します。すべて半精度にキャストされます。
ここでまとまります。 1つのTorchConverter、 3つのエクスポートされたプログラムそれぞれに独自のエントリポイント名があります。
まずimage_encode。次にtext_encode。最後にdetect。
保存すると1つのモデルアセットが得られます。
内部に3つの呼び出し可能な関数を持ちます。
では事前計算済みのアセットを読み込んで実行しましょう。
まずすべての花が期待通りにセグメントされています。
これが3関数分割の恩恵です。
プロンプトをbutterflyに切り替えて text encoderとdetectorだけを再実行しました。
その結果、2回目の推論はウォームアップ後でも76%高速です。これがリオーサリングのメリットです。
今日からできることをまとめます。 Core AIのPythonライブラリで PyTorchモデルを変換します。 coreai-optで最適化し内部で何が起きているか理解したい時はデバッガーを使います。 coreai-modelsのサンプルを活用してください。そしてCore AI Skillsをお気に入りの AIエージェントに組み込んで新しいフレームワークをエキスパートのように活用しましょう。皆さんがプラットフォームに持ち込むモデルを楽しみにしています。ありがとうございました!

3:27 - Define and export a PyTorch model

import torch
import torch.nn as nn

# Define a simple model
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(256, 512)
        self.fc2 = nn.Linear(512, 10)

    def forward(self, x):
        return self.fc2(torch.relu(self.fc1(x)))

# Export with torch.export
model = MLP().eval()
example_input = (torch.randn(1, 256),)
exported_program = torch.export.export(model, example_input)

4:02 - Convert, optimize and run inference with Core AI

import coreai
import coreai_torch
from coreai.runtime import NDArray

# Convert to Core AI
converter = coreai_torch.TorchConverter()
converter.add_exported_program(
    exported_program,
    input_names=["features"], output_names=["logits"])
core_ai_program = converter.to_coreai()

# Optimize and save to .aimodel
core_ai_program.optimize()
asset = core_ai_program.save_asset("mlp.aimodel")

# Run inference
specialized_model = await AIModel.load("mlp.aimodel")
specialized_function = specialized_model.load_function("main")
result = await specialized_function({"features": NDArray(example[0].numpy())})

21:12 - Define a SiLU Metal kernel with PyTorch reference

import torch
from coreai_torch.dsl import TorchMetalKernel, MetalParameter

def silu_torch(x):
    return x * torch.sigmoid(x)

SILU_MSL = """
float val = float(x[gid]);
float sig = 1.0f / (1.0f + exp(-val));
y[gid] = TYPE(val * sig);
"""

silu_kernel = TorchMetalKernel(
    name="fused_silu",
    input_names=["x"],
    result_names=["y"],
    src=SILU_MSL,
    torch_defn=silu_torch,
    metal_params=[MetalParameter("gid", "uint", "thread_position_in_grid")],
    template_dtypes={"x": "TYPE"},
)

22:09 - Use a custom Metal kernel and convert with TorchConverter

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = torch.nn.Linear(256, 256)

    def forward(self, x):
        h = self.linear(x)
        n = h.numel()
        return silu_kernel(
            h,
            threads_per_grid_size=(n, 1, 1),
            threads_per_thread_group=(min(n, 256), 1, 1),
            result_shapes=[h.shape],
        )

exported_program = torch.export.export(MyModel(), (torch.randn(1, 256),))

converter = coreai_torch.TorchConverter()
converter.register_custom_kernels([silu_kernel])
converter.add_exported_program(exported_program,
                               input_names=["x"], output_names=["y"])
deployable = converter.to_coreai()  # MSL integrated into asset

- 0:00 - Introduction
- Overview of Core AI's complete Python ecosystem for model deployment on Apple Silicon — covering the model lifecycle from optimization and conversion through debugging and app integration.
- 1:49 - Models and skills
- Introduction to the coreai-models open-source repository — ready-to-go model architectures, reusable components, and agent skills you can install into your coding assistant to leverage Core AI best practices from day one.
- 3:27 - Python workflow
- How to convert a PyTorch model to Core AI using coreai-torch — exporting a program with torch.export, running TorchConverter with input/output names, saving as an .aimodel asset, and performing inference from Python with numpy inputs.
- 5:54 - Model optimization
- How to compress models using coreai-opt's config-driven optimization library — demonstrated on SAM3 (850M parameters) using int4 per-channel symmetric quantization presets, reducing the model from 3GB to 430MB, and understanding the trade-offs of aggressive uniform compression.
- 10:40 - Core AI Debugger
- Introduction to Core AI Debugger — a standalone app for inspecting models on Apple platforms. Covers the navigator (PyTorch module hierarchy), structure viewer (operation graph), source viewer (original Python code), inspector (tensor details), and how to run a model on-device to inspect intermediate tensor outputs.
- 19:27 - Advanced authoring
- How advanced model authoring goes beyond end-to-end conversion — fusing multiple operations into a single kernel dispatch, and leveraging Core AI's pre-packaged fast kernels for heavy operations like Scaled Dot Product Attention.
- 20:43 - Custom Metal kernels
- How to embed custom Metal Shading Language kernels directly into a Core AI model asset — writing a PyTorch reference function alongside an MSL kernel, registering a TorchMetalKernel with TorchConverter, and shipping the kernel bundled inside the .aimodel file.
- 23:01 - Model re-authoring
- How to re-author a PyTorch model from scratch for power-efficient execution on iOS — demonstrated on SAM3 by splitting into three independent functions (image_encode, text_encode, detect), using convolutional projections and channels-first layouts, applying 4-bit palettization to the encoders, and achieving faster second inference by reusing cached image embeddings.
- 28:46 - Next steps
- Summary of the Core AI Python toolchain: convert with coreai-torch, optimize with coreai-opt, debug with Core AI Debugger, build on coreai-models examples, and use Core AI Skills in your coding agent.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース

関連ビデオ

WWDC26