Evaluationsフレームワークについて

Evaluationsフレームワークについて

Evaluationsフレームワークを使って、モデル駆動型の体験を評価する方法を紹介します。この世界に絶対に確実なことはない以上、体験の評価にはユニットテストだけでは十分ではありません。メトリックスの定義、出力の自動評価、統計の集計の方法を学ぶことで、各種AppleプラットフォームにおけるAIを活用する機能の動作の信頼性を高めることができます。

関連する章
- 0:00 - Introduction
- 3:10 - Demo app Book Tacker: a manual evaluation
- 4:31 - Building your first evaluation
- 8:06 - Running the evaluation and reading the report
- 10:57 - Building robust datasets
- 14:20 - Refining metrics and evaluators
- 15:41 - Evaluation-driven development and hill-climbing
- 16:12 - Model judges: qualitative metrics
- 18:42 - Building a model judge
- 21:19 - Refining with score dimensions
- 23:45 - Reviewing dimension results
- 24:20 - Best practices
- 25:38 - Next steps
リソース
こんにちは Yadaです。そしてRobです。 Evaluationフレームワークをご紹介します。アプリのインテリジェント機能の品質を測定する新しいフレームワークです自信を持ってアプリをリリースできます。昨年 Foundation Modelフレームワークをご紹介しました。デバイス上のモデルを使ってアプリにインテリジェント機能を追加できます。 Apple Intelligenceを駆動するモデルです。生成AIでアプリ機能を構築すると新たなテストの課題が生じます同じ入力が異なる出力を生成するからです。これらのモデルはソフトウェアテストの基本的な前提を崩します。
従来のソフトウェアを考えると特定の入力は常に特定の出力を生成します。この動作はユニットテストで簡単に検証できます。
同じ入力は必ず同じ出力を生成しますユーザーのデバイスを含むどのデバイスでも同様です。
インテリジェントソフトウェアでは動作を検証するために機能の一貫性に頼れません。つまりユニットテストだけでは不十分です。未検証の動作はユーザーの信頼を損ないます。ユーザーはアプリのインテリジェント機能に期待していますあらゆる機能が安全で信頼性の高いものであることを求めます。
予測不能な動作をする機能をリリースするとアプリの評判に悪影響を及ぼします。
インテリジェント機能を測定し異なる入力に対してどう応答するかを理解することが重要です。機能テストでは確率的な動作を検証できないためより堅牢な新しいテスト形式が必要です。
アプリが予期しない結果を生成する頻度を把握する必要があります。エージェントが予期しないパスで回答を生成する頻度はどのくらいか？どのような状況で安全でない結果が生成されますか？インテリジェント機能のテストの課題があります生成AIで動作する機能の Evaluationフレームワークを構築した理由です。
Evaluationフレームワークは柔軟なシステムです型とプロトコルで構成されています。このビデオではインテリジェント機能の評価に焦点を当て言語モデルで動作する機能を対象とします。しかし確率的なシステムであれば何でも評価できます分類器や線形回帰モデルも含みます。
YadaとRobがフレームワークのいくつかの型をご紹介します。
データの読み込みと多様なデータセットの構築を説明します。
EvaluatorとMetricを使った定量的メトリクスの構築モデルジャッジとスコアディメンションを使った測定の改良定性的メトリクスの作成方法も説明します。
このビデオでは Evaluationを使い始めます。最初の評価を構築した後その評価をスケールさせる方法をご紹介しますデータと測定を増やしていきます。シンプルなAPIを使った強力なモデルジャッジを構築する方法も学びます。 Evaluationを始めましょう。
YadaとRobはBook Trackerというアプリを構築しています。 2人とも本が好きでライブラリを管理するアプリを作りたかったのです。 YadaがBookTaggingServiceという新機能を追加しました。 Book Trackerに書いたレビューに基づいて書籍を自動タグ付けします。
Xcodeで早速試してみましょう。
BookTaggingService.swiftに #Playgroundマクロを追加します。
YadaがBook Trackerに追加した「Pride & Prejudice」のレビューです。私も大ファンです。どんなタグが返ってくるか見てみましょう。
良いスタートですがいくつかのタグを読むとサービスにはまだ改善が必要なようです。
タグが9つとは予想以上です。
また書籍名をタグとして入れてほしくありません。
複数単語のタグは UIで問題になりますそちらも避けるべきです。
別のレビュー「Dracula」で試してみましょう。
タグ7つは期待どおりの数です。詳しく見てみましょう。
もっと増やしたい動作がいくつかあります。
文学ジャンルを特定し
より大きなライブラリを閲覧するためのカテゴリも含まれています。
これでサービスの最初の評価が完了しました。期待値のリストを作成し人間の判断でサービスのパフォーマンスを測定しました。あらゆる評価はインテリジェント機能がどれだけうまく期待に応えているかを測定します。
残念ながら人間の判断はスケールしません。
しかし評価を自動化しスケールさせる方法を開発しました。 import Evaluationsを追加するだけで Evaluationプロトコルを実装できます。
コードで評価を構築しましょう。
最初の期待値から始めましょうサービスが正しい数のタグを生成することを測定します。
評価を構築・実行するには 5つのステップがあります。測定するコードを定義します。
次にコードに送るデータを定義します。次に行う測定の内容と方法を定義します。
測定結果を集計します。最後に評価を実行するテストを作成します。
まずBookTaggingServiceへの呼び出しを追加し subject(from:)メソッドの中で出力を返します。
生成されたタグが評価の対象です。
次に測定するコードに渡す入力サンプルを定義します。
ModelSampleを使って同じレビューをラップします先ほど#Playgroundでテストしたものです「Pride & Prejudice」と「Dracula」です。期待タグも定義している点に注目してください。サービスに求める理想的なタグです。
Metric型を使って測定を定義しましょう。「TagCount」というMetricを追加しサービスが返す生成タグの数を追跡します。
生成タグを測定するものが必要です。 Evaluatorはクロージャを受け取り特定のサンプルに対するサービスの出力が渡されます。 tagsプロパティのcountを使って生成タグの数を確認できます。
tagsの配列の長さが 3から8の場合 Evaluatorから合格のMetricを返します。
そうでなければ不合格のMetricを返します。
Evaluatorは1度に 1つのサンプルを処理します。しかし傾向を測定してパターンを見つけることができます aggregateMetrics(using:)メソッドで全サンプルにわたって測定できます。
平均回数を計算しましょうサービスが正しい数のタグを生成する割合を求めます。サービスが正しく動作する頻度の比率が得られます。
最初の評価を作成できました。次に実行するコードを書きましょう。
EvaluationはSwift Testingと統合していますアプリのテストターゲットで評価を実行できます。ここでBookTaggingEvaluationをインスタンス化しますテストスイートの中で。
評価実行にいくつかのメモを追加し評価する設定を追跡できるようにします。これは後で役立ちます異なる評価実行を比較するときに。
次に@Testマクロを使ってテスト関数を追加し新しい@Testトレイト.evaluatesも追加します。このトレイトは評価とメモのディクショナリを受け取り @Suiteで先ほど作成したものと同じように使います。
@Testの中で評価結果バンドルにアクセスできます。これには全メトリクスが含まれます評価実行の集計メトリクスも含まれています。結果からtagCountメトリクスを全て取得しましょうその平均値をアサートします。結果バンドルの aggregateValueメソッドを使います。 #expectマクロで平均値をアサートします。サービスが80%の確率で正しい数のタグを生成することを期待します。なぜ80%なのか？サービスのパフォーマンスが 80%を下回ったら知りたいからですテストの失敗は良いシグナルになります。でも評価中に何が起きたかより深く知りたい場合は？
評価用の新しいテストレポートがあります。評価の詳細を深く掘り下げてさらに分析できます。
テストを実行してレポートをご説明します。先ほど#Playgroundでサービスが返した結果から特に「Pride & Prejudice」で生成されたタグ数からテストが合格するとは思えません。
テストは合格しませんでした。レポートに移動して何が起きたか確認しましょう。レポートナビゲータをクリックしテストレポートでEvaluationsを選択します。テストスイートの評価レポートです。行をダブルクリックして詳細を確認しましょう。 TagCountメトリクスの合格率が 50%にとどまっています。全結果テーブルを見ると「Pride & Prejudice」サンプルが失敗していることがわかります。「Dracula」サンプルは正しい数のタグを生成しています。
テーブルの各行を選択して詳細を確認できます Xcodeのアシスタントエディタを使います。詳細パネルにプロンプトと ModelSampleの各測定値が表示されます。下部にはモデルからの完全なレスポンスが表示されます。
少し振り返ってみましょう。 BookTaggingServiceの評価を構築しました。評価を実行しましたが最適化目標を達成できませんでした。
テスト定義を振り返ってみてください。ここで最適化目標を定義しました。機能が期待どおりに動作するとは正しい数のタグが80%の確率で生成された場合を指します。
最適化目標の自動チェックだけでなく結果をより深く分析してインサイトを収集する必要があります。具体的には変更点について考えます機能のパフォーマンスを改善できる変更について。
直感があったのでBookTagsという @Generable型を確認しましたサービスが生成している型です。 @Guideマクロですでにモデルに追加の指示を与えており tagsプロパティ向けの指示です。
その@Guideに countプロパティを指定できます範囲を設定できます。モデルに3から8個のタグのみを生成するよう指示できます。
興味深い理論です。変更してみましょう。
評価を再実行して正しいかどうか確認します。このプロセスをヒルクライミングと呼びます。
変更を加えて評価を再実行しました。テストは合格し TagCountは 100%合格するようになりました。しかし気になる点があります変更後サービスが常に 8つのタグを生成します。ふーむ。
Evaluationを設定できたのでより多くのサンプルで測定を増やしていきその奇妙な動作が続くかどうか確認しましょう。評価はデータサンプル 2つから始めました。それでは2つの測定値しか得られず傾向を抽出するには不十分です。良い評価では傾向を抽出するために数千のサンプルが必要ですさまざまな方法で機能を検証するためにも必要です。データセットの多様性を考慮すべきです。例えばサービスに異なるジャンルを認識させたいです。すべてのユーザーが詳細なレビューを書くとは限りませんレビューの長さを変えるべきです。フィクションとノンフィクションは異なるカテゴリで閲覧しますサンプルはその多様性を反映すべきです。最後に異なる形式も考慮すべきです小説、短編小説、エッセイなど。
モデルにも難題を与えてみましょう。個人的な意見を混ぜてみてくださいサービスがレビュー内の個人的意見をどれだけ無視するか測定できます。
機能に自分らしいタグの書き方を学ばせたい場合は自分のスタイルをより多く含めることから始めてくださいサンプルの期待値に含めましょう。
コードでいくつかの例を見てみましょう。「The Secret Garden」のレビューは最初のレビューとは大きく異なります熱心なガーデナーとして書いたからです。ここではモデルに挑戦させます息子に「Treasure Island」を読み聞かせる母親の個人的なレビューです。このレビューには個人的な意見がたくさん含まれています。
このボードゲーム愛好者は複数の段落が必要でした中国の古典「Romance of the Three Kingdoms」のレビューを書くために。
このカジュアルな読者は有名な英国の探偵の相棒について 1文で描写しました。
モデルがこれを解読しようとすればなかなかの難題になるでしょう。
これらの例を考えるのは楽しいですが人間によるデータ作成もスケールしません。この文章補完ペアを考えてみてください機能の出力が期待される答えと直接比較されます。評価を効果的にするには数千の例が必要です。
Evaluationフレームワークには SampleGeneratorが含まれています。 ModelSamplesの配列を使って直接呼び出すことができます選択したモデルを使って追加のサンプルを合成的に生成します。
より大きなデータセットの合成方法について詳しくは ModelSampleの高度な使い方を学ぶにはこちらのビデオをご覧ください「Create robust evaluations for agentic apps」
BookTaggingに戻りましょう。 datasetプロパティを更新してライブラリのすべての書籍レビューを含めます先ほど紹介した4件も含めて。
拡張したデータセットで評価を再実行するとテストは合格し TagCountの平均はまだ100%ですすべての書籍で 8つのタグが生成されました。サービスに奇妙な動作があることがわかりました。
期待値を振り返ってみるとタグの数が範囲内かどうかを追跡するEvaluatorを構築しました。もう少し改良が必要だと思います。現在のMetricと Evaluatorsの設定です。まず「TagTotal」という新しいMetricを定義し生成されたタグの数を記録します。次にシンプルなEvaluatorを構築し生成されたtagsの配列の長さを記録します。次にスコアリング値を使って測定を記録します合格/不合格の値ではなく。
「TagTotal」と「TagCount」メトリクスを使って範囲への準拠を評価し生成されたタグの分布も評価します。タグ内の単語数をチェックするためにも同様のパターンを使えます。ここでは各タグにスペースがあるか確認しあれば不合格のMetricを返します。文学ジャンルの特定も同様に簡単です既知のジャンルセットを対象とする場合は。 BookTaggingServiceの knownGenresを確認します。次に生成された各タグと照合します。
評価がかなり充実してきました。最初の5つの期待値のうち3つをすでに測定できています。評価レポートはタグ付けサービスのパフォーマンスを詳しく示しています。 3つの期待値を 5つの集計メトリクスで追跡します。タグの分布が確認でき範囲への準拠とジャンルタグも確認できます。
ヒルクライミング手法を使ってサービスへの指示を繰り返し改良してきました。最初の状態はこちらです。
評価を何度か更新してループを複数回実行した後
指示の各変更を追跡でき変更を検証するために評価に追加した期待値で確認できます。
ヒルクライミングのフィードバックループを取り入れ開発プロセスの中心に置いたときそれを評価駆動開発と呼びます。
しかしサービスを仕様に合わせる作業はまだ終わっていません。タグが有益であることをまだ求めています書籍に関連しライブラリの閲覧に役立つことを。
モデルジャッジについて Yadaがご説明します評価を次のレベルに引き上げる方法について。ありがとうRob。モデルジャッジは定性的メトリクスをスケールして測定する方法です。構築と改良の方法をご紹介します。具体的な例を見てみましょう。 RobがBook Trackerに書いた「Alice in Wonderland」のレビューです。
サービスが生成したタグです。
6つのタグで 1語またはハイフン付きジャンルを特定するタグを含みます。 Robと一緒に構築したすべての定量的メトリクスが合格しました。
でも詳しく見てみましょう。「Overrated」と「Pretentious」は本を説明していません読者がどう感じたかを表しています。「Whodunit」は正しいジャンルでもありません。「彼が決して答えない謎」からモデルが拾ったのです。本を理解せずにレビューの言葉に引きずられたのです。メトリクスは合格していますが正しいシグナルが返ってきていません。
しかしここではモデルに助けを求められると思います。人間がこれらのタグを読んでどれが機能するか判断できるならモデルにも同じことができるかもしれません。
いいですね！モデルが実際に一部のタグが役立たないことを把握しました。
モデルに機能が生成したすべてのタグを評価させられると思います機能が生成したものを！それがまさにモデルジャッジです。モデルジャッジは機能の出力をスコアリングするために使う言語モデルです。主観的な評価を提供し人間が行うような判断をしてくれますデータセット全体に一貫して適用されます。どのように機能するか説明しましょう。インテリジェント機能を動かすモデルです。
BookTaggingServiceはオンデバイスで動作しますすべてのユーザー操作で高速かつローカルである必要があるからです。機能を評価するジャッジとして 2番目のモデルを使えます。ジャッジは評価対象のモデルと少なくとも同等の能力が必要です。この場合 Private Cloud Computeのより高性能なモデルを使えます。モデルジャッジにはいくつかの重要なコンポーネントがあります。指示はモデルに書籍レビューが与えられることを伝えどのように評価するかを示します。機能入力は評価対象の機能に与えられるプロンプトでこの場合は書籍レビューです。
機能出力はサービスが生成したタグです。最後にスコアリングガイドがモデルに評価方法を伝え機能をスコアリングする方法を示します。 Evaluationフレームワークがほとんどの処理を担当しますスコアリングガイドに集中できます。
まとめるとシンプルなモデルジャッジです。 1から4のスケールで「TagQuality」メトリクスを定義し各レベルがスコアの意味を説明します。偶数の選択肢を設けることでジャッジがデフォルトで選ぶのを防ぎます中立的な中間スコアに。 4つのレベルは十分な区別を提供します各評価の意味を薄めることなく。
最後にジャッジモデルとして Private Cloud Computeを指定しましたより高性能なEvaluatorが得られます評価対象のオンデバイスモデルより優れています。
Evaluationフレームワークではモデルジャッジは別のEvaluatorです。定量的Evaluatorと同じプロトコルに準拠し同じMetric型を生成します。 1つの評価内で自由に組み合わせることができます。では実行してみましょう！
すべてのサンプルが品質スコア3または4を獲得しました。「Alice in Wonderland」サンプルに戻りましょう。モデルジャッジはこれに品質スコア3を付けました。
根拠を見るとモデルが「Whodunit」にフラグを立てたことがわかります「Detective-fiction」が本に関連しないとして。しかし他のタグすべてにもフラグを立てることを期待していました読者の意見を反映しているか閲覧に役立たないものについて。モデルジャッジでは根拠が不可欠です。ジャッジがそのスコアを付けた理由を把握できます。そしてここが重要です私たちが書いたスケールによればジャッジは実際に正しいのです。
すべてのタグがユーザーが書いた内容に関連しています。ジャッジは私たちが提供したスコアリングガイドに忠実に従っています。「関連性があり閲覧に役立つ」には具体的な意味があったのですがジャッジは私たちとは異なる解釈をしました。
自分の代わりに機能の判断をモデルに求める場合私と同様のスコアを提供することを期待しましたこれらのタグをどのようにスコアリングするかについて。モデルジャッジと私たちの間に不一致がある場合モデルジャッジを改良できます私たち自身の判断の代わりになるまで。
振り返ると最初のモデルジャッジの問題は範囲が広すぎたことでした。 2つの異なる質問をしていました。スコアに同意できない場合は質問を分割できるか試してみてください。この場合関連性と有用性は実際には2つの異なるメトリクスです。 ScoreDimensionとして「Relevance」を定義する方法を見てみましょう。
タグが関連性があると言うとき各タグが書籍の品質を説明することを意味しますテーマやトーンを表します細かい詳細や読者の個人的な感想ではなく。
それをScoreDimensionの説明として書くことができます。
これらのタグをスコアリングするには各タグを確認します。どのタグが良くてどのタグが悪いかを特定し本を意味深く説明しているかどうかに基づいて。これをすべてのタグで繰り返します。この場合すべてのタグは良好で 1から4のスケールで 4のスコアが得られます。同じプロセスを繰り返してスコアリングガイドの各スケールを定義します。これが「Relevance」メトリクスですメトリクス名と説明そしてモデルジャッジが使えるスケールです。同じプロセスで「Usefulness」も定義できます。両方のディメンションを ModelJudgeEvaluatorに追加できます。
しかしディメンションだけでは十分ではありません。測定対象は伝えますがアプリについての考え方は伝えません。そのコンテキストがないと Book Trackerのタグを評価するジャッジが読者の批評を有効な書籍の説明として扱うかもしれません。
Book Trackerが個人のライブラリであることを知る方法がありませんレビュープラットフォームではなく。そこでModelJudgePromptが役立ちます。
これはModelJudgePromptの例です。ジャッジにタグを評価していることを伝えられます指示でパーソナルライブラリアプリ向けの評価だと伝えます。 evaluationTargetでレスポンスの形式を指定しモデルが比較するための参照として expectedTagsを渡します。
ModelJudgePromptの詳細についてはドキュメントをご覧ください。モデルジャッジが必要なコンテキストを得たので評価を再実行しましょう。
Qualityの代わりに関連性と有用性のスコアが表示されます。「Alice in Wonderland」書籍サンプルの評価結果です。
2つの根拠が診断を分離していることに注目してください。 Relevanceはどの種類のタグが間違っているかを示します。 Usefulnessは間違ったタグが閲覧でどう失敗するかを示します。
これらの結果で明確な改善方針ができました。 BookTaggingServiceの指示を更新し評価を再実行してスコアの変化を確認します。それがRobが説明したフィードバックループです今度は定性的メトリクスで動かしています。いつTestFlightにアップロードするの？ Robちょっと忙しかったんですよ！
アプリの評価に関するいくつかのベストプラクティスをまとめます。小さく始めましょう。 20から30サンプルの集中したデータセットが最適です。モデルにどのように動作してほしいかを考えてアプリの仕様を作ります。ヒューリスティクスを使って定量化できる特性を測定します。経験則のメトリクスは機能を理解し始めるのに最適です。経験則としてコードで測定できれば定量的です。
言葉でしか説明できない場合は定性的メトリクスが必要です ModelJudgeEvaluatorを使います。モデルジャッジはシンプルから始めましょう。スコアリングディメンションを定義し実行して根拠を読みます。慎重に計画する何時間よりも 1回の実行から多くを学べます。根拠を使って次の変更を導きましょう。スコアがすべて同じなら質問が広すぎます。問題を切り分けられない場合はディメンションを分割します。ジャッジがアプリを理解しない場合はコンテキストを追加します。では作業に戻りましょう。ドキュメントもぜひご確認ください。サンプルコードもご覧ください。 Evaluationフレームワークを取り上げた他のビデオもご覧ください「Improve your prompts by hill climbing with Evaluations」「Create robust evaluations for agentic apps」またね！バイ！

// Evaluations
  import Evaluations

  struct BookTaggingEvaluation: Evaluation {
  
  }

8:02 - Run with Swift Testing and an optimization target

// Optimization Target
  @Test("Book Tag Evaluations", .evaluates(evaluation, info: evaluationInfo))
  func evaluateBookTagging() async throws {
      let result = EvaluationContext.current.result
  
      let rangeMetric = BookTagEvaluationTests.evaluation.tagCount
      #expect(result.aggregateValue(.mean(of: rangeMetric)) >= 0.8)
  }

10:09 - Constrain output with a Generable @Guide

// BookTags.swift
  @Generable
  struct BookTags: Codable {
      @Guide(description: "Descriptive tags capturing themes, genres, moods, and topics from the summary", .count(3...8))
      var tags: [String]
  } snippet.

11:15 - Define the dataset with ModelSample

// BookTaggingEvaluation
  var dataset = ArrayLoader(samples: [
      ModelSample(prompt: "okay I am OBSESSED and I need everyone to read this RIGHT NOW...",
                  expected: BookTags(tags: ["classic", "romance", "wit", "regency"])),

      ModelSample(prompt: "Read this in one sitting between midnight and 4am and I cannot...",
                  expected: BookTags(tags: ["classic", "gothic", "horror", "vampire", "suspense"])),
  ])
  
  // Or load your whole library:
  var dataset = ArrayLoader(samples:
      Book.sampleBooks.map { book in
          ModelSample(prompt: book.review, expected: BookTags(tags: book.tags))
      }
  )

12:53 - Synthesize more samples with a SampleGenerator

// Synthesizing more inputs
  let samples: [ModelSample<String>] = [
      ModelSample(prompt: "The largest planet in our solar system...", expected: "Jupiter."),
      ModelSample(prompt: "The capital of Thailand...", expected: "Bangkok."),
      ModelSample(prompt: "Swift is...", expected: "a powerful programming language."),
      ModelSample(prompt: "All those moments will be lost in time...", expected: "Like tears in rain.")
  ]
  
  for try await sample in samples.makeSamples(
      """
      Generate diverse sentence completions about the listed topics:
        - The Solar System
        - World Capitals 
      """,
      targetCount: 1000) {
          samples.append(sample)
  }

14:02 - More evaluators: word count and genre

let wordCount = Metric("WordCount")

  Evaluator { _, subject in
      for tag in subject.value.tags {
          if tag.contains(" ") {
              return wordCount.failing(rationale: "Tag \(tag) contains multiple words")
          }
      }
      return wordCount.passing()
  }

  let hasGenreTag = Metric("HasGenreTag")
  
  Evaluator { _, subject in
      let tags = subject.value.tags.map { $0.lowercased() }
      let knownGenres = await BookTaggingService.knownGenres
      for tag in tags {
          if knownGenres.contains(tag) {
              return hasGenreTag.passing(rationale: "Matched \(tag)")
          }
      }
      return hasGenreTag.failing() 
  }

14:03 - Define a Metric and Evaluator

let tagCount = Metric("TagCount")

  var evaluators: Evaluators {

      // Tag count is within the required 3–8 range
      Evaluator { _, subject in 
          let count = subject.value.tags.count
          if (count >= 3 && count <= 8) {
              return tagCount.passing(rationale: "\(count) tags")
          } 
          return tagCount.failing(rationale: "Got \(count) tags, expected 3–8")
      }
  }

14:27 - Aggregate metrics across samples

let tagCount = Metric("TagCount")
  let tagTotal = Metric("TagTotal")
  
  func aggregateMetrics(using aggregator: inout MetricsAggregator) {
      aggregator.computeMean(of: tagCount)
      aggregator.group("Distribution of Tag Totals") { aggregator in
          aggregator.computeStandardDeviation(of: tagTotal)
          aggregator.computeMean(of: tagTotal)
          aggregator.computeVariance(of: tagTotal)
      }
  }

15:33 - Iterate the feature's instructions (hill-climbing)

// BookTaggingService.swift
  let instructions = Instructions {
      """
      You are a librarian and literary analyst. Given a reader's
      freeform summary of a book they read — describing their
      thoughts, feelings, and what stood out — generate a set of
      descriptive tags reflected in the summary.

      Rules:
       - Return between 3 and 8 tags.
       - Tags should be lowercase, concise (single word or hyphenated), and descriptive.
       - Tags should include the book's genre, chosen from the included list of known genres.
  
      Known Genres:
       - \(Self.knownGenres.joined(separator: ", "))
      """
  }

18:53 - Build a model judge

ModelJudgeEvaluator(
      "TagQuality",
      scale: .numeric([
          4: "Tags are relevant and helpful for browsing",
          3: "Mostly relevant, one tag too vague or generic",
          2: "Several tags are wrong or generic",
          1: "Unhelpful or irrelevant"
      ]),   
      judge: PrivateCloudComputeLanguageModel()
  )

22:17 - Split into score dimensions

// BookTaggingEvaluation.swift
  ScoreDimension(
      "Relevance",
      description: """
          Whether each tag describes a quality, theme, or tone
          of the book itself rather than incidental details or
          the reader's personal reactions.
          """,
      scale: .numeric([
          4: "Every tag describes the book itself",
          3: "Most tags describe the book",
          2: "Some tags describe personal reactions",
          1: "Tags don't meaningfully describe the book"
      ])    
  )
  // Define `usefulness` the same way as a second ScoreDimension.

22:32 - Add dimensions to the judge

// BookTaggingEvaluation.swift
  var evaluators: Evaluators {

      Evaluator {  }  

      Evaluator {  }

      Evaluator {  }
  
      ModelJudgeEvaluator(
          judge: PrivateCloudComputeLanguageModel(),
          dimensions: [relevance, usefulness]
      )
  }

23:17 - Add app context with a ModelJudgePrompt

// BookTaggingEvaluation.swift
  ModelJudgeEvaluator(
      judge: PrivateCloudComputeLanguageModel(),
      dimensions: [relevance, usefulness],
      prompt: ModelJudgePrompt( 
          instructions: """
              You are evaluating tags generated for a personal book-tracking app where users
              organize their library by browsing and filtering tags.
              """,
          evaluationTarget: { value in
              "\(value.tags.count) Generated tags: " + value.tags.joined(separator: ", ")
          },
          reference: { input, _ in 
              let expectedTags = input.expected?.tags.joined(separator: ", ")
              return ["Expected Tags": expectedTags ?? "No expected tags defined"]
          }
      )
  )

- 0:00 - Introduction
- Rob Rhyne and Yada introduce the Evaluations framework. Generative-AI features break the "same input, same output" contract that unit tests rely on, so a new, more robust form of testing is needed to measure how often features produce unexpected or unsafe results.
- 3:10 - Demo app Book Tacker: a manual evaluation
- Introduces the Book Tracker demo app and its BookTaggingService, which auto-tags books from reviews. Trying it in a #playground surfaces issues (too many tags, book title as a tag, multi-word tags) and produces a first human-judged list of expectations.
- 4:31 - Building your first evaluation
- Implement the Evaluation protocol in five steps: define the subject (the code under test), the dataset of ModelSample inputs with expected values, a Metric and Evaluator (pass/fail on tag count), and an aggregateMetrics summary.
- 8:06 - Running the evaluation and reading the report
- Run evaluations through Swift Testing with the evaluates trait and an optimization target (#expect average at least 80%). The new evaluation test report breaks down per-sample results, prompts, measurements, and the full model response.
- 10:57 - Building robust datasets
- Two samples aren't enough; good datasets have thousands with variety (genres, review lengths, fiction/non-fiction, forms, personal opinions). Hand-authoring doesn't scale, so the framework's SampleGenerator synthesizes more samples from a seed set.
- 14:20 - Refining metrics and evaluators
- Add metrics for deeper insight: TagTotal with a scoring (not pass/fail) evaluator, range-compliance and distribution, word-count, and genre checks against knownGenres, covering three of the five original expectations, tracked alongside instruction changes.
- 15:41 - Evaluation-driven development and hill-climbing
- Recap the loop: a failing optimization target prompts analysis and a change (adding a count range to the @Guide on the BookTags Generable). Re-running to check the result is hill-climbing; centering development on it is evaluation-driven development.
- 16:12 - Model judges: qualitative metrics
- Quantitative metrics can pass while tags are still wrong (reader opinions, mis-inferred genres). A model judge uses a second, at-least-as-capable model (here, Private Cloud Compute) to score output the way a person would, consistently across the dataset.
- 18:42 - Building a model judge
- A ModelJudgeEvaluator is just another Evaluator producing the same Metric type. Define a TagQuality metric on a 1-to-4 scale (an even number of levels avoids a neutral default), specify the judge model, run it, and read the rationales.
- 21:19 - Refining with score dimensions
- When you disagree with a score, the question is often too broad. Split it into ScoreDimensions (Relevance vs. Usefulness), each with its own description and scale, and add a ModelJudgePrompt to give the judge context about your app.
- 23:45 - Reviewing dimension results
- Re-running yields separate relevance and usefulness scores whose rationales split the diagnosis: relevance shows what kind of tag is wrong, usefulness shows how it fails at browsing, giving a clear path back into the hill-climbing loop.
- 24:20 - Best practices
- Start small (20 to 30 focused samples), use heuristics for quantitative traits (if you can measure it in code), use ModelJudgeEvaluator for qualitative ones, start simple with the judge, and let rationales drive the next change.
- 25:38 - Next steps
- Pointers to the Evaluations framework documentation, the Book Tracker sample code, and the companion sessions on hill-climbing prompts and creating robust evaluations for agentic apps.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース