利用 Core AI 将设备端 AI 模型整合到你的 App 中

利用 Core AI 将设备端 AI 模型整合到你的 App 中

探索一系列精选的热门开源模型 (包括 Qwen、Mistral、SAM3 等)，这些模型已针对 Apple 芯片使用全新 Core AI 框架进行了优化。了解如何将模型下载到 Mac 上运行并进行基准测试，然后只用几行代码将模型整合到你的 App 中。探索模型编译和设备端定制的全新工作流程，从而加快首次模型加载速度。了解如何使用 Xcode 中的 Core AI 工具来分析和优化运行时性能。

章节
- 0:00 - Introduction
- 1:16 - App concept: camera-based vocab learning
- 2:52 - Model discovery
- 7:40 - Getting models with the Core AI models repository
- 8:37 - Integration
- 10:55 - Writing the Swift integration code
- 13:05 - Diagnosing model specialization latency
- 14:40 - Deployment
- 17:00 - Ahead-of-time (AOT) compilation
- 18:03 - iOS demo
- 19:57 - Multiplatform
- 23:06 - Next steps
资源
相关视频

WWDC26
大家好欢迎！我是Carina 来自Core AI团队今天让我们一起探索设备端智能的世界
在这次演讲中我将介绍如何使用Core AI 为你的App添加激动人心的新功能
我将展示如何构建一款语言学习App 它使用视觉Transformer模型以及大型语言模型协同工作完全在设备端运行
Core AI是一套全新技术让你直接将先进的设备端 AI能力集成到App中
使用Core AI 你可以构建App体验让用户数据永远不离开设备无需管理服务器无需按令牌付费也没有云端延迟如果还没看过请查阅"Meet Core AI" 你将了解框架背后的核心理念和设计哲学以及API的最佳使用方式
先从简单的开始我正在开发一款iOS App 帮助学生学习新语言词汇从普通话开始
我有一套手工整理的单词卡片包含单词翻译和使用示例但这很难规模化需要将所有内容静态嵌入App中
我想在App中引入AI 那该多酷啊如果学生能把摄像头对准花园里的某样东西或街道上的某个物体只需让App 把它从场景中提取出来然后生成一张目标语言的单词卡任何精心整理的卡片组都跟不上好奇的学生但摄像头加设备端模型可以
每张卡片都来自他们的日常生活随时随地学习卡片集随他们一起成长这一切都在设备端本地运行
我将首先确定能为这一体验提供支持的模型然后编写代码在App中使用这些模型接下来我将探讨模型部署的实际注意事项最后我将构建macOS版本来扩展这个想法复用相同代码并借助更大模型解锁新功能先来看模型发现
首先我需要定义 App的核心功能
从图片开始以及用户关于想学习内容的提示
根据输入 App需要高亮显示并从图像中提取用户请求的内容
这张分割后的图像成为卡片上的图形
根据母语文字输入 App将推断词义并生成所有词汇信息翻译目标语言中自然的使用示例以及该用法的英文含义
基于以上考虑我的用例有三个要求第一是内容这款App面向真实世界学习需要应对厨房街道和办公室等场景
第二是语言模型架构需要从一开始就支持多种语言
初始版本我将聚焦普通话
第三是设备限制所有内容在iPhone上设备端运行需要控制存储和内存占用
这意味着需要谨慎考虑模型大小以及部署多少个模型
我探索了几个方向查阅了模型文档运行了一些原型并与AI助手交流了想法
结论很明确将问题分解为两个小型模型
第一个是专用视觉模型负责图像分割
第二个是多语言大型语言模型接收英文标签生成词汇翻译和示例句子
为何在设备端使用两个模型？专用于特定任务的模型质量更好体积更小且可独立升级
我的目标是每个模型参数量低于十亿从而将设备端总占用控制在可管理范围内
对于图像分割我关注SAM 3 即Segment Anything Model 3 SAM 3是基于视觉Transformer 的可提示图像分割模型这是一个强大的模型完全满足App的需求
学生将摄像头对准某物 SAM 3会根据提示精准隔离该物体为卡片图形提供清晰的抠图提示可为语言模型提供英文标签
对于语言模型流程很简单输入英文标签如"Hummingbird" 模型生成目标语言的词汇信息所以我需要四样东西多语言准确处理翻译推理能力获得具有上下文的示例句子结构化输出可靠填充类型字段紧凑与视觉模型一起适配设备端
许多开源语言模型具有强大的推理能力在这个规模范围内我做了一些快速测试 Qwen脱颖而出它支持一百一十九种语言和方言且是一个推理模型能生成上下文示例而不仅仅是翻译是词汇卡片生成的绝佳起点
甚至有一个6亿参数版本的模型应该非常适合我的App 我在HuggingFace和GitHub上找到了这些模型及其文档那么下一个问题是如何使用Core AI 将它们引入App？
一种方法是直接从 PyTorch格式转换它们使用Core AI PyTorch 扩展包
也可以使用Core AI优化包进行模型压缩如需深入了解这一流程请查阅"Dive into Core AI model authoring and optimization" 其中甚至展示了如何转换SAM 3模型！
Core AI拥有强大的模型优化工具转换甚至直接创作功能然而对于许多热门模型还有另一种方法
Core AI Models代码库是绝佳的参考资源其中包含许多热门模型以及各自的转换脚本可生成Core AI格式的优化版模型以及可选的平台特定变体一起来看Core AI models代码库
models/是模型目录浏览可用模型找到目标模型并按照导出说明操作 python/提供可复用的导出基础工具和实用程序
我在这里找到了SAM 3 和Qwen系列模型按照导出说明获取了Core AI模型
现在来聊聊集成
模型导出后在Finder中可以看到这些.aimodel文件
来看看SAM3模型的内部
在Xcode中可以检查模型的所有信息可以看到它是623 MB 对于我的用例目标平台为iOS 27.0和macOS 27.0 你可以找到关于模型的有用信息如大小元数据等等
点击Functions标签可以看到模型的接口实际上它暴露了三个独立的函数比如来看imageEncode函数
输入不只是一张图片而是具有特定形状和数据类型的张量输出是密集特征嵌入
另一个函数是detect 它接收图像特征加上文本提示输出原始蒙版边界框和置信度分数要直接使用这个模型需要编写所有预处理代码将相机帧转换为正确格式以及所有后处理代码将原始张量转化为有意义的结果
Core AI Models代码库可帮我处理模型专属的预处理以及后处理任务
除了模型和Python转换工具代码库还托管了一个Swift包提供一组运行时库这些库封装了输入端文本编码等操作以及输出端的蒙版提取和标注无需处理张量形状只需调用简洁的Swift API
我已经克隆了代码库可以轻松添加coreai-models 作为项目依赖进行尝试
将coreai-models URL 添加为Swift Package后可以选择CoreAILM 和CoreAISegmentation 添加到App目标就这么简单
来看将这两个模型集成到App的代码
CoreAIImageSegmenter导入了图像分割库提供SAM 3模型功能允许我们从磁盘加载SAM 3模型然后根据输入文本提示执行文本提示分割例如"flower"
最后提取最佳分割蒙版
接下来是语言模型加载只需一行代码创建CoreAILanguageModel 并指向模型包即可就绪一行代码 — 资源加载引擎创建分词器配置 — 全都为你封装好了
注意这里导入了FoundationModels 这是你可能已经熟悉的同一个框架
精彩的部分来了要使用它只需创建一个LanguageModelSession 这与访问Apple设备端大型语言模型使用的是同一套API 区别在于现在可以传入自己的模型来使用相同的session.respond调用相同的流式支持相同的结构化输出能力你获得了Foundation Models API的人机工程学体验同时可以灵活选择底层运行的模型
我们还支持引导生成这对我们的用例很重要不让模型生成自由格式文本而是提供一个@Generable宏精确描述词汇卡片的结构单词字段翻译字段和示例句子字段
来看实际效果我来拍一张照片…… 正在等待中分割还没有返回结果无法进行卡片生成这里明显有些慢
从代码中我知道出现这个加载指示器是在首次实例化SAM 3模型并发送提示时来看看发生了什么
我用新的Core AI Instruments 进行了追踪果然就在那个时间点有一个模型加载事件其中有一个大型专项化子事件
专项化是一个过程用于准备Core AI模型在设备端执行加载模型时系统会检查是否已完成专项化并缓存对于非常大的模型这个过程可能耗时较长这就是我们在 Instruments追踪中看到的情况
之后的加载来自缓存速度很快但第一次加载是我需要提前规划的
让它发生在用户体验过程中…… 可能不太好那应该在什么时候进行？可以在启动时触发或在后台运行但如果用户还没对这个功能感兴趣感觉有些浪费
我认为更好的方法是创建一个专门的首次运行体验将这项工作安排在用户首次了解该功能时进行从而将模型加载和专项化排除在交互流程之外
不过在做这个改变之前我想先退一步更全面地思考这个功能的部署策略
有几件事我想做好这是作为现有App的更新版本发布的我希望这个功能可以被发现但不是必须的尝试它的用户应该有良好的体验不尝试的用户对App的感受应该和以前一样好
我的首次运行体验提供了自然介绍功能的场所并为顺畅的首次启动做好准备但我一直假设模型会直接打包进App
检查后发现它们会使下载量增加超过1 GB 这会影响所有更新的用户甚至包括从不使用该功能的用户
所以我将在功能介绍页面添加一个按钮仅在触发时下载模型如果用户真正想要尝试的话我将使用Background Assets实现这一点如果你想深入了解详情请查阅"Discover Apple-Hosted Background Assets" 来自去年的WWDC
来看看它的实际效果
当用户表示想尝试这个功能时我请求模型资源并显示下载进度
完成后启动专项化
专项化不再打断主要体验
但仍然需要一段时间这对用户体验来说是一段有些尴尬的等待时间
好在Core AI有一个很棒的功能可以帮助解决这个问题
在专项化过程中模型经历两个主要转换首先经过一系列核心编译步骤
其次生成可执行的产物
这些产物与生成时的设备和系统版本绑定
这两个步骤中编译是最耗资源的也最耗时
Core AI工具链允许我提前进行部分编译在我的开发机器上生成模型的已编译版本
虽然已编译的模型仍需专项化以适配用户的特定设备但需要做的工作少得多完成速度也快得多
这通过coreai-build命令完成你提供一个模型作为输入根据你的选项它生成一个或多个针对特定设备架构的已编译模型
我对模型执行了此操作并为每个已编译模型创建了后台资源我在App中添加了少量代码用于检测运行设备的架构然后据此请求相应的资源
你可以找到所有详情见developer.apple.com上的 "Compiling Core AI models ahead of time"文章
我已经集成了这一功能现在超前编译已经完成我桌上有一些从旅行中收集的石头来看实际效果
现在模型准备步骤应该只需之前的一小部分时间用户可以快速开始
模型给出了一个使用示例
我可以将它保存到我的收藏中
来试试更多物体这里有一块来自大学室友赠送的木头还有一朵来自我妹妹的向日葵
这些对我来说都是有意义的物品我想在学新语言的过程中记录它们
在后续推理时我们使用缓存的模型资源因此用户体验是无缝的
我自己也非常喜欢这个功能我认为它可以大幅简化构建更多精选卡片集的工作比逐个手动输入容易多了问题是我大多数内容都是在Mac上创建的所以…… 如果把它带到那里去呢？来聊聊多平台吧
这是我们目前在iOS上构建的内容 SAM3负责分割 Qwen 0.6B模型生成词汇卡片使用Core AI 我可以复用所有相同代码直接在Mac上继续构建
在Mac上我不是一次学一个单词我在整理我可能有一个近期旅行的照片文件夹想一次性为所有照片生成卡片所以我在上面添加了批处理层曾经需要下午时间输入的内容现在可以完全自动化
而且因为Mac上有更多内存和处理能力我可以升级到同一模型的更大变体更多参数意味着更强的推理和更高质量的输出对于内容整理这至关重要我可以给模型更丰富的提示要求多个示例句子而不是一个甚至让它生成汉语拼音相同代码调用相同API 只是底层模型更强大
有了更长的上下文我可以超越单张卡片我可以给模型一整类单词让它构建课程体系从简单到复杂排序分组成课程并编写重用早期词汇的示例句子以巩固学生已学内容一个提示就能得到结构化的教学计划
我最近去了一次公路旅行我想导入几张拍摄的照片添加到我的iOS App中
我想分割蝴蝶石头花朵湖泊鸟等我们立即并行处理分割照片的任务找到所有照片中的所有物体这样我就可以用一张照片创建多张卡片
完成后我们用Qwen3 80亿参数模型开始生成这是一个更强大的推理模型可以看到它在给出输出前先进行思考实际上它在检查每个单词的拼音是否正确以及示例用法
因为这些很容易出错完成后我们得到了带有多张图片的卡片供我发布到App中
甚至还有帮助我教学的课程体系！
还有许多我想开发的新功能我该回去继续开发了我的Agents在召唤我让我们在这里收尾
使用Core AI 你可以构建多平台App体验让用户数据永远不离开设备无需管理服务器无需按令牌付费也没有云端延迟模型已就绪工具已就绪使用Core AI 你拥有所需的一切来实现强大的隐私智能在每个Apple平台上现在让我们在设备端构建强大的应用吧！

11:01 - Load and run SAM3 image segmentation

import CoreAIImageSegmenter

// Load
let segmenter = try await ImageSegmenter(resourcesAt: sam3ModelURL)

// Use
let response = try await segmenter.segment(image: inputImage, prompt: "flower")
let mask = response.segments.first?.mask

11:28 - Load a language model and create a session

import FoundationModels
import CoreAILanguageModels

// Create model instance
let model = try await CoreAILanguageModel(resourcesAt: qwen3ModelURL)

// Create session using the model
let session = LanguageModelSession(model: model)

// Generate response
let response = try await session.respond(to: "...")

12:29 - Generate structured output with @Generable

import FoundationModels
import CoreAILanguageModels

@Generable
struct VocabCard {
    let chineseWord: String
    let englishMeaning: String
    let exampleSentence: String
}

let model = try await CoreAILanguageModel(resourcesAt: modelURL)
let session = LanguageModelSession(model: model)
let response = try await session.respond(
    to: "Create a vocab card for flower",
    generating: VocabCard.self
)
let card: VocabCard = response.content

17:22 - Compile a Core AI model ahead of time

$ xcrun coreai-build compile MyModel.aimodel --platform iOS

- 0:00 - Introduction
- Overview of Core AI — a new set of technologies that lets you bring advanced on-device AI capabilities to your apps with no server, no cost per token, and no cloud latency.
- 1:16 - App concept: camera-based vocab learning
- Introduction to the demo app — an iOS language-learning app where students point their camera at real-world objects to generate vocab cards with translations, example sentences, and segmented images, all running on-device.
- 2:52 - Model discovery
- How to define your app's AI requirements — content, language, and device constraints — and select the right models: SAM3 for text-prompted image segmentation and Qwen 0.6B (a 119-language reasoning model) for vocab card generation.
- 7:40 - Getting models with the Core AI models repository
- How to use the coreai-models GitHub repository to find popular models with ready-made export recipes — browsing the catalog, running the export script for SAM3 and Qwen, and getting optimized .aimodel files.
- 8:37 - Integration
- How to inspect .aimodel files in Xcode (size, platform targets, function signatures, tensor shapes), add the coreai-models Swift package, and select the CoreAILM and CoreAISegmentation libraries as app dependencies.
- 10:55 - Writing the Swift integration code
- How to write the Swift code to use both models — loading SAM3 and running text-prompted segmentation, loading Qwen with a single CoreAILanguageModel line, and using the familiar LanguageModelSession API from Foundation Models with structured @Generable output for typed vocab card fields.
- 13:05 - Diagnosing model specialization latency
- Using the new Core AI Instruments template to identify that first-run latency is caused by model specialization — the process that compiles a Core AI model for the specific device — and understanding when and how to handle it gracefully.
- 14:40 - Deployment
- How to design a deliberate deployment strategy: using a first-run experience to introduce the feature, keeping models out of the app bundle to avoid bloating update size for all users, and triggering on-demand model download via Background Assets only when the user opts in.
- 17:00 - Ahead-of-time (AOT) compilation
- How to use the coreai-build command to perform compilation ahead-of-time on your development machine — generating device-architecture-specific compiled model assets that dramatically reduce on-device specialization time during the first-run experience.
- 18:03 - iOS demo
- Live demo of the complete iOS experience: fast model preparation with AOT compilation, SAM3 segmenting real objects (rocks, wood, sunflower), and Qwen generating Mandarin vocab cards — with seamless subsequent inferences from the cached model.
- 19:57 - Multiplatform
- How the same Swift code runs on macOS with no changes — adding batch processing for folders of photos, stepping up to Qwen3 8B for higher-quality reasoning and pinyin generation, using longer context for curriculum generation, and a live macOS demo processing road trip photos into a full lesson plan.
- 23:06 - Next steps
- Summary: Core AI gives you everything you need to build private, multi-platform on-device AI experiences — no server, no cost per token, no cloud latency.

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

章节

资源

相关视频

WWDC26