画像理解の新機能

画像理解の新機能

最新のVisionフレームワークとFoundation Modelフレームワークのアップデートを活用し、高品質な画像理解を実現しましょう。新しいTap to Segmentリクエストにより画像を新しい方法でセグメント化できるようになったほか、VisionはwatchOSにも対応するようになりしました。AppleのFoundation Modelによる画像の新たなサポートをOCR、バーコードスキャン、デベロッパ独自のツールと組み合わせることで、LLMを活用した高度なビジュアル理解をアプリ上で提供できます。

関連する章
- 0:00 - Introduction
- 1:36 - Segment images with tap-to-segment
- 5:50 - Image inputs for Foundation Models
- 7:57 - Image-based tool calling
- 13:09 - Vision on watchOS
- 14:39 - Next steps
リソース
関連ビデオ

WWDC26
- Foundation Modelフレームワークの新機能
WWDC25
- Foundation Modelフレームワークの詳細
WWDC24
- VisionフレームワークにおけるSwiftの機能強化
こんにちは、Vision frameworkチームの Megan Williamsです。
今年は画像理解において強力な進歩があり、それを使ってアプリで素晴らしい体験を作れるようになりました。いくつかについてお話しします。まずは新機能から—— あれ、おかしいな。アジェンダがありません。すぐに作れるか試してみましょう。カバーしたいトピックのメモを取ってあります。 AIがアジェンダ作成を手伝ってくれるはずです。このメモの写真を使います。そして大規模言語モデルにアジェンダを生成してもらいます。 Foundation Models frameworkを使えばこれはとても簡単です。ありがたいことに、今年は Foundation Modelsが画像入力に対応しました。すばらしい！モデルがアジェンダを作ってくれました。これでプレゼンに戻れます。今年は、アプリに画像理解を取り込む方法がかつてないほど増えました。まずはVisionの新機能から。タップしてセグメントするAPIにより、画像内の任意のオブジェクトをタップするだけで切り出せます。また、新しく強力な方法として、大規模言語モデルを使った画像分析が可能になりました。 Foundation Models frameworkを使った方法をご説明します。次に、LLM向けの画像ベースツールを作成する方法をご紹介します。これにより画像理解の可能性がさらに広がります。最後に、VisionはwatchOSでも利用できるようになりました。 Visionを使ってウォッチアプリを強化する方法をご紹介します。ではまず、タップしてセグメントするAPIでできる素晴らしいことをお見せします。 Visionにはすでにいくつかの画像セグメンテーション機能があります。たとえば、人物セグメンテーションでは画像内のすべての人物を切り出せます。でも、画像内の別のものをセグメントしたい場合はどうでしょうか？たとえば、この花瓶は？ VisionのタップしてセグメントするAPIで、画像内の任意のオブジェクトを選んでセグメントできます。このボードゲーム、衣類、床でさえもセグメントできます。セグメントするオブジェクトを選ぶ方法はいくつかあります。いくつかをデモします。
アプリにカフェの写真があり、テーブルのコーヒーカップをセグメントしたいとします。まず、カップ上の点を選択します。するとカップが切り出されました。単純なオブジェクトではうまく機能しますが、被写体が複雑な場合は、 1点だけの選択では不十分なことがあります。たとえば、お皿も含めたい場合があります。代わりにバウンディングボックスを描いてセグメントしたい全オブジェクトを囲みます。これでカップとお皿の両方を取得できます。
オブジェクトの周りにラッソを描くこともできます。ラッソを使ってこのクロワッサンをセグメントします。
もう一つの優れた方法はスクリブルを描くことです。複数のオブジェクトにスクリブルして一度に簡単にすべてをセグメントできます。
マスクを取得したら、点を追加または削除してマスクを精密化できます。このカップを最初の点でセグメントしましたが、今度はお皿も含めたいとします。お皿をタップするだけで含まれるようになります。
マスクからセクションを取り除くこともできます。コーヒーだけが欲しく、カップは不要な場合は、マスクから除外する点をカップ上で選択すると、コーヒーだけが得られます。
APIを使うには、まず画像から始めます。 ImageRequestHandlerを使って画像を保持できます。 Visionでは、画像はリクエストを使って処理されます。オブジェクトをセグメントするには、 GenerateIterativeSegmentationRequestを使います。
ImageRequestHandlerを使ってリクエストを実行します。これによりセグメントされたオブジェクトのマスクが生成されます。マスクはPixelBufferで、どのピクセルがセグメントされたオブジェクトに属するかを示します。コードはこちらです。画像から始めて、 ImageRequestHandlerを作成します。次にリクエストを作成します。セグメントしたいオブジェクト内の点を開始シードとして使います。 ImageRequestHandlerを使って画像に対してリクエストを実行します。これによりオブジェクトのセグメンテーションマスクが生成されます。必要に応じて新しい点を追加してこのマスクを精密化できます。そのためには、リクエストに点を含めるだけです。そしてリクエストを再度実行します。注意すべき点がいくつかあります。 Visionは座標原点が左下角にある正規化された座標系を使います。点は画像の幅と高さに正規化される必要があり、座標値は0から1の間になります。
ラッソを描く際はストローク幅が十分広いことも重要です。細いストロークでは最良の結果が得られない場合があります。線幅は画像全体の幅の少なくとも1%必要です。
最後に、デバイスで初めてセグメンテーションリクエストを実行する前に、モデルをダウンロードする必要があることをお伝えします。 downloadAssets APIを使ってダウンロードを開始できます。モデルがダウンロード済みかどうかわからない場合は、 assetStatusを確認してモデルが使用可能かどうかを確認できます。タップしてセグメントすることで、画像の任意の部分をインタラクティブにセグメントできるようになりました。次に、画像を分析する新しくエキサイティングな方法として Foundation Models frameworkを使った方法についてお話しします。先ほど、大規模言語モデルを使って付箋の写真からアジェンダをまとめた例をご紹介しました。でも大規模言語モデルはもっと多くのことができます。モデルに依頼して、アプリ内の画像のキャプション生成を助けてもらうこともできます。モデルは説明的なタスクが得意です。
インテリアデコレーションの相談もでき、リビングルームへの役立つ提案もしてもらえます。
そして私の個人的なお気に入りは、大規模言語モデルを使って冷蔵庫の写真からレシピを作れることです。可能性は無限大です。そしてこれを行うAPIは非常にシンプルです。画像のキャプションを生成するコードはこちらです。
Foundation Modelsのプロンプトビルダー構文を使っています。画像の処理方法についてモデルへの指示を含むテキストプロンプトがあります。次に、画像を添付ファイルとしてプロンプトに含めます。モデルにプロンプトへの応答を求めると、キャプションを生成してくれます。これで自分のプロンプトで試せます。画像を分析する方法が複数あり、それぞれに利点があります。 Foundation Models frameworkは大規模言語モデルを活用しており、ほぼ何でも依頼できます。一方、Visionのような従来の画像処理フレームワークは、固定されたコンピュータビジョン APIセットを使います。 Vision APIは特定のタスクにファインチューニングされており、非常に優れた結果を出します。そしてVisionは高速です。多くの場合、映像フレームをリアルタイムで分析できるほど高速です。
ただし、VisionとFoundation Modelsのどちらかを選ぶ必要は常にあるわけではありません。ツール呼び出しを使って、 Visionの専門性と Foundation Modelsの汎用性を組み合わせる方法があります。大規模言語モデルに、従来の画像処理APIを実行するツールへのアクセスを与える方法をデモします。 Visionのようなものです。画像理解を新たなレベルに引き上げます。まず、ツール呼び出しについて簡単に復習します。先ほど、モデルにプロンプトを与えて応答を生成させる方法をご紹介しました。ツール呼び出しでは、モデルがツールを呼び出して外部コードを実行し、結果を得ることができます。モデルはこの結果を応答に使用できます。
たとえば、天気ツールを用意して、特定の日の天気予報を取得できます。プロンプトは天気についての質問です。モデル単独では質問に答えられないため、天気ツールへのツール呼び出しを行います。モデルがツール呼び出しをする際、ツールに必要な引数を生成します。この場合、引数はモデルが天気を取得したい日付になります。ツールは要求された日付の天気を取得してモデルに報告します。これでモデルは天気についての質問に答えられます。ツール呼び出しの詳細については、「Foundation Models frameworkの詳細」をご覧ください。
今年、ツール呼び出しは画像引数に対応しました。たとえば、植物の写真を提供して質問を尋ねられます。モデルが植物を単独で識別できない場合、独自の植物識別ツールを作成してモデルにアクセス権を与えられます。モデルは画像に対してツールを呼び出し、植物を識別します。画像全体を引数として渡す代わりに、モデルは代わりに画像への参照を渡します。ツールは画像を分析して植物の名前を返します。これでモデルは正しい情報で応答できます。コードはこちらです。ツールはFoundation Models frameworkのツールプロトコルに準拠しています。ツールは入力引数を定義する必要があります。植物識別ツールでは、引数をImageReferenceにしたいと思います。これはモデルに、引数が現在のチャットセッションの既存の画像への参照である必要があることを知らせます。
ツールはcallメソッドも定義する必要があり、モデルがツールを呼び出した際に実行されます。 callメソッド内では、ツール引数からimageReferenceにアクセスできます。ただし、この参照を実際の画像に解決する必要があります。各imageReferenceは、それが生成されたトランスクリプトのコンテキスト内でのみ有効です。このトランスクリプトにアクセスするには、 historyセッションプロパティを使います。
トランスクリプトを使って、imageReferenceを imageAttachmentに解決し直します。次に添付ファイルをpixelBufferに変換して分析できるようにします。ツールはモデルに多くのユーティリティを提供でき、特にモデルが苦手なタスクに役立ちます。独自のツールを作成することもできますが、一般的なタスク向けに VisionがいくつかのツールをAPIとして提供しています。
一部のモデルはバーコードや QRコードの読み取りが苦手です。
ここにイベントのチラシがあり、日付、場所、ウェブサイト登録情報などを抽出するようモデルに依頼しています。ツールを有効にしないと、モデルは場所と日付は見つけられますが、 QRコードは読み取れません。 Visionはモデルを助けるバーコードリーダーツールを提供します。これでモデルはバーコードリーダーへのツール呼び出しが可能になります。ツールが画像を分析して QRコードからウェブサイトを返します。これでモデルはすべての情報を正しく読み取れます。
Visionは2つのツールを提供します。バーコードリーダーツールはすでにご覧いただきました。バーコードとQRコードのスキャン用です。 OCRツールもあります。非常に細かいまたは密なテキストをモデルが読むのを助けます。 30以上の言語のテキストを読み取れます。
ツールを使うには、 Visionをimportして、使用するツールで言語モデルセッションを設定するだけです。これでモデルはツールを呼び出してプロンプトへの回答を助けられます。画像ベースのツール呼び出しをモデルにさせたい場合は、添付画像にラベルを付けることも重要です。このラベルによって、モデルはどの画像をツールに渡すかを識別します。 Visionを使って独自のツールを作成することもできます。 Visionは30種類以上の画像分析をサポートしています。画像セグメンテーションについて触れましたが、他のものもいくつかご紹介します。
Visionは顔分析、ポーズ推定、検出と画像分類、さらには軌道分析やオブジェクトトラッキングも行えます。「Vision frameworkにおける Swift強化の発見」をご覧ください。全リストはそちらで確認できます。今年、Visionはかつてないほど多くの場所で利用できます。 VisionをwatchOSアプリの強化にも使えます。ハイキング中に見られる地元の野生生物の情報を表示するウォッチアプリがあります。遭遇するかもしれないさまざまな動物が表示されており、動物を選んで詳しく調べられます。アプリは動物の写真を表示しますが、ウォッチの画面がとても小さいため、見づらいです。 Visionが助けてくれます。 Visionの顕著性分析を使って写真内の注目される被写体を識別できます。そして、主被写体がより目立つように画像をクロップできます。 Visionを使ってクロップを生成するコードはこちらです。まずリクエストを作成します。 GenerateObjectnessBasedSaliencyImageRequestを使います。次に画像に対してリクエストを実行します。これにより顕著性の観測が生成されます。この観測から、画像内で検出された顕著なオブジェクトのバウンディングボックスにアクセスできます。最も目立つオブジェクトを取得してクロップに使います。
画像の顕著な部分のみを表示するようアプリを更新しました。これで動物を選ぶとズームインされた表示になります。ずっと見やすくなりました。
このビデオでは多くの内容をカバーしました。簡単に振り返ります。 VisionのタップしてセグメントするAPIにより、画像内のオブジェクトをインタラクティブにセグメントできます。 Foundation Modelsが大規模言語モデルの画像入力に対応しました。これにより、これまでできなかった新しい方法で画像を分析できます。これまでできなかった新しい方法で。 VisionなどのフレームワークをツールとしてVisionに組み込み、画像分析をさらに向上させられます。 watchOSを含むすべてのプラットフォームで Visionを使ってアプリを強化できます。
watchOSのタップしてセグメントするサンプルアプリをデベロッパーウェブサイトからダウンロードできます。「Vision frameworkにおけるSwift強化の発見」もお見逃しなく。 Vision APIの詳細が学べます。「Foundation Models frameworkの新機能」もご覧ください。大規模言語モデルがアプリを強化するその他の方法を学べます。ご視聴ありがとうございました。

// Generate a segmentation mask of an object with a seed point
let handler = ImageRequestHandler(image)
let request = GenerateIterativeSegmentationRequest(seed: point)
let observation = try await handler.perform(request)
let mask = observation?.pixelBuffer

// Refine the mask with a new point
request.addIncludedPoint(newPoint)
let refinedObservation = try await handler.perform(request)

6:41 - Generate an image caption with Foundation Models

// Generate an image caption with Foundation Models
import FoundationModels

let prompt = Prompt {
    "Generate a caption for this image"
    Attachment(image)
}
let response = try await session.respond(to: prompt)
let caption = response.content

9:55 - Create an image-based tool

// Create an image-based tool
struct PlantIdentifierTool: Tool {
    @SessionProperty(\.history) var history

    @Generable
    struct Arguments {
        var image: ImageReference
    }

    func call(arguments: Arguments) async throws -> String {
        let imageReference = arguments.image
        let transcript = Transcript(history)
        guard let imageAttachment = imageReference.resolve(in: transcript) else {
            throw AppError.imageNotFound
        }
        let image = try imageAttachment.pixelBuffer()
        return classifyPlant(image)
    }
}

12:09 - Use Vision tools

// Use Vision tools
import FoundationModels
import Vision

let session = LanguageModelSession(model: model, tools: [BarcodeReaderTool()])
let response = try await session.respond(generating: EventInfo.self) {
    "Get the date, location, and website from this flyer"
    Attachment(image)
        .label("flyer")
}

13:54 - Create a crop that highlights a prominent subject (watchOS / saliency)

// Create a crop that highlights a prominent subject
func generateImageCrop(in image: CGImage) async throws -> NormalizedRect? {
    let request = GenerateObjectnessBasedSaliencyImageRequest()
    let observation = try await request.perform(on: image)
    let prominentObjects = observation.salientObjects
    return prominentObjects.first
}

- 0:00 - Introduction
- An overview of the new image understanding capabilities in Vision and Foundation Models this year: the tap-to-segment API, image inputs for large language models, image-based tool calling, and Vision on watchOS.
- 1:36 - Segment images with tap-to-segment
- How to use Vision's new tap-to-segment API to interactively isolate any object in an image using point taps, lasso strokes, or combinations. Covers the ImageRequestHandler setup, normalized coordinate system, lasso stroke width best practices, and the on-device model download requirement.
- 5:50 - Image inputs for Foundation Models
- How to pass images directly to large language models using the Foundation Models framework for tasks like caption generation, scene understanding, recipe creation, and interior design suggestions. Includes a comparison of when to use Vision versus Foundation Models for image analysis.
- 7:57 - Image-based tool calling
- How to extend LLM capabilities with tool calling that accepts image arguments. Covers defining tools conforming to the Tool protocol with image parameters, accessing image references via session history transcripts, and using built-in Vision tools — including the barcode reader and saliency tool — to give models capabilities they cannot perform on their own.
- 13:09 - Vision on watchOS
- How to use Vision on watchOS to enhance watch apps. Demonstrates using saliency analysis to automatically identify and crop the subject of interest from wildlife photos, so the most relevant part of an image is always displayed in the compact watch UI.
- 14:39 - Next steps
- A recap of all four new image understanding capabilities and links to downloadable sample apps for tap-to-segment and watchOS Vision from the Apple Developer website.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース

関連ビデオ

WWDC26

WWDC25

WWDC24