保护你的 App：智能体功能的风险缓解

了解如何评估因间接提示词注入而导致的威胁，例如数据外泄和意外操作。探索在使用 App Intents 和 Foundation Models 框架时需要注意的系统防护措施与安全最佳做法，包括用户确认、安全提示词设计和身份验证等风险缓解措施。

章节

资源

相关视频

WWDC26

WWDC25

探索设备端基础模型的提示设计和安全

WWDC20

保护你的 app 威胁建模和反面模式

你好我是Willy 今天我将告诉你如何识别并降低App中智能体功能的新风险随后我的同事Akshay将提供具体的可行步骤帮助你利用平台上的API 保护你的App 随着大语言模型(LLM)日益普及许多App正在探索如何借助它们实现新的智能功能使LLM成为关键的系统组件在你的应用中你可以发送指令和提示词包含用户请求和额外上下文发送给LLM 让它执行一个或多个操作以获取中间结果直到最终向用户提供响应我们的平台让你可以通过以下方式创建智能体体验使用Foundation Models框架设计自定义智能体或使用App Intents框架让App与Siri协作

新能力带来了新的安全风险 LLM在你的应用中引入了一个新的概率引擎它功能强大但也存在被欺骗的风险本次演讲旨在重点介绍新的安全风险与智能体功能相关的并提供你可用于保护用户的技术和API 关键是我们希望确保你的App 按预期运行并将用户安全放在首位在继续之前我们要明确本次演讲不涉及的内容我们不会讨论模型安全即确保模型输出内容的安全性我们也不会讨论模型护栏以及防止规避措施虽然我们将讨论的一些原则可用于处理此类情况但我们将聚焦于试图攻击你应用的外部攻击者如需了解模型安全请查看下方链接的精彩演讲

我们先来谈谈智能体系统带来的新风险首先思考一下攻击者为何会将你的App作为目标你的App可能做一些攻击者感兴趣的事情例如托管敏感用户数据执行金融交易访问麦克风或摄像头等系统资源甚至控制物理设备攻击者可能会利用你的App 来实现他们的目标为帮助说明攻击手段和缓解措施我们将使用Loose Leaf应用这是一个示例App 可能成为下一代社交网络专注于各类茶文化从热茶到冷茶再到珍珠奶茶我们相信Loose Leaf 是社交网络的未来

Loose Leaf已具备一些令人兴奋的功能例如可以向朋友发送茶叶配方消息或分享你拍摄的精彩茶会照片我们之前讨论了如何进行威胁建模以缓解这些传统功能的风险值得回顾那个视频确保不遗忘基础知识现在 Loose Leaf的开发者们一直在酝酿他们兴奋地宣布一项名为 "举办茶会" 该功能使用Foundation Models 和App Intents框架来查看你的日历以找到举办茶会的最佳时间确定应邀请哪些朋友以及根据朋友偏好决定提供哪种茶并下单购买大家喜欢的茶叶哇！

这项新功能依赖于Loose Leaf 的智能体循环并具有两个值得关注的特性第一该功能从多个来源获取上下文帮助智能体做出决策第二智能体可以代表用户调用一个或多个操作这些操作可能带来不同类型的副作用

从第一个特性出发我们引入一种新风险间接提示词注入间接提示词注入是指嵌入额外上下文中的指令提供给模型旨在转移控制流

在我们的智能体循环中这是指某些指令可能嵌入提示词中的初始额外上下文里或工具结果中

在实践中这可能表现为用户请求组织茶会并附上日历但日历中包含一个事件带有给模型的指令执行另一个操作例如删除敏感用户数据！真糟糕！我们将进行的威胁建模练习包括识别所有不受信任的上下文来源我们智能体系统的第二个特性是操作调用能力这可能会产生副作用或执行操作的意外后果

当与间接提示词注入结合时攻击者可能触发带有副作用的操作从而实现其目标例如窃取用户数据盗取资金控制物理设备或删除数据

当间接提示词注入导致意外操作时我们可以认为注入具有两种不同的影响第一种是数据污染即攻击者影响已执行操作的参数例如用户可能想向妈妈发送消息但攻击者注入指令将消息发送给自己

第二种是操作污染攻击者影响执行哪个操作用户可能只是请求摘要一封邮件但攻击者可能引导LLM 打开恶意网页将邮件附加到攻击者选择的URL上

概念化这些风险我们可以参考 Simon Willison的"致命三元组" 该概念描述了用户面临最大风险的情况当智能体系统具备以下条件时可访问私有数据接触不受信任的内容以及具备对外通信的能力最后一条我们可以进一步概括以考虑任何具有副作用的操作风险

总结本节内容我们想强调解决间接提示词注入是一个活跃的研究领域这意味着目前的最佳方法是了解你的App面临多大风险并着力降低该风险既然我们已讨论了智能体系统带来的风险我们将进行一次威胁建模练习你可以对自己的App进行以识别不受信任的数据来源并识别潜在的高风险操作我们首先对智能体循环输入进行数据流分析即提示词我们要识别用于构建提示词的数据来源在此练习中我们要精确找出不受信任的上下文来源这些来源可能包含提示词注入回到我们的Loose Leaf应用有几个数据来源用于构建提示词首先是向LLM提供指导的指令关于其目的和角色接下来是用户的提示词 LLM将处理的任务以及要实现的目标提示词还可以包含额外上下文以帮助LLM实现目标例如包含过去的茶叶订单用户保存的茶叶配方即将到来的日历事件以确定最佳的茶会时间以及好友动态以获取朋友分享的内容一旦了解了输入到提示词的数据来源我们需要识别哪些是不受信任的一般来说我们可以将任何输入来自外部实体的视为攻击面在我们的案例中我们将日历内容识别为以及好友动态视为不受信任因为任何人都可以向用户发送日历邀请该邀请可能被输入模型而用户的"好友"可以在动态中发布任何内容这些内容会被输入提示词这些都可能包含提示词注入以影响执行的操作

在识别不受信任的上下文来源之后我们要检查智能体可用的操作及其可能产生的副作用首先我们有OrderTeaTool() 这是为茶会订茶的必备操作

PostAndFetchPublicFeedTool() 将在用户动态发布帖子内容由模型生成有助于向朋友传播消息

BrewingTimerIntent() 将在茶会期间为你提供帮助确保你的茶叶冲泡时间恰好最后 Delete Photo将从用户动态中删除照片以防茶叶看起来不够完美在考虑所有这些操作时我们需要识别每个操作可能产生的副作用

OrderTeaTool() 与金融风险相关这意味着如果意外调用用户可能损失资金

另一方面 PostAndFetchPublicFeedTool() 存在数据外泄风险因为模型可能通过公开帖子泄露敏感信息

BrewingTimerIntent() 本身可能没有副作用但如果它接受标签则可能允许提示词注入为后续攻击写入更多指令

Delete Photo存在数据丢失风险尤其在没有撤销功能的情况下

既然我们已识别出恶意输入可能进入LLM的位置以及操作可能产生的副作用我们可以开始设计和实施缓解措施以保护用户我们想强调应尽量专注于确定性缓解措施作为基线因为其安全保障更易于审计和分析

考虑到模型能力的快速发展我们也可以考虑其他具有更多概率保障的缓解措施在此我们介绍几种不同的缓解措施可用于保护你的应用通过在提示词级别添加检查或在操作执行阶段添加检查我们在设计Siri AI时使用了其中一些措施我们来逐一介绍首先我们可以回顾提示词并开始添加提示词缓解措施我们可以对敏感数据进行脱敏例如个人身份信息（即PII）这些信息可能存储在过去的订单中这样敏感数据就永远不会传入LLM 因此无法被外泄接下来我们可以向模型应用spotlighting 以表明此内容被视为不受信任的这是一种概率性缓解措施因为提示词注入可能以某种方式构造使spotlighting失效不过我们建议采纳此措施因为不同模型能更有效地执行这些限制

现在我们来看可以实施的操作缓解措施

首先考虑哪些操作应该需要用户确认这些操作值得在继续之前由人工检查由于它们包含副作用接下来考虑哪些工具应仅在设备已通过身份验证或解锁时运行由于智能体可能从锁屏可访问对用户存在重大风险的操作不应可被访问

我们已了解了不同类型的缓解措施以及它们如何应用于你的系统但还有许多其他类型我们欢迎你去探索它们以降低App的风险

进行威胁建模时关键要记住的是你要识别攻击者可能希望从你的应用中获取什么并从中应用缓解措施以应对提示词级别的风险或操作执行阶段的风险现在Akshay将向你展示具体工具帮助你保护你的App 有请Akshay！

谢谢你 Willy 大家好我是Akshay 我将向你展示如何保护智能体App 使用Willy刚刚讨论的一些护栏如果你使用Foundation Models 框架构建App 我将向你展示如何注入安全检查点到你的智能体执行过程中

如果你使用App Intents与 Apple 智能集成我将介绍其中可用的安全缓解措施让我们从Foundation Models开始 Foundation Models框架提供了强大的构建智能体的API 我将重点介绍生命周期事件修饰符API 并使用它注入安全护栏我将假设你对该框架已有基本了解如需深入了解请查看下方链接的精彩演讲我们首先使用Foundation Models 为Loose Leaf构建简单的智能体不知道你怎么想但我离不开我的那杯大吉岭红茶所以在一切开始之前我们先构建一个订茶工具要定义工具我们需要遵循Tool协议我们为工具指定名称描述和Arguments 模型使用这些元数据了解工具的用途及调用方式接下来我们提供调用工具时实际执行的Implementation

让我们再定义一个工具 PostAndFetchPublicFeedTool 将你的消息发布到公开动态并获取最新发布的消息构建智能体的下一步是创建Profile 在Profile中我们首先添加模型Instructions 以及我们刚才定义的工具然后附加会话属性例如使用哪个模型在此我们使用的是设备端模型

此Profile随后用于实例化 LanguageModelSession 随后可在智能体循环中使用有了基本智能体我们将注入安全策略为此我们将使用生命周期事件修饰符这些修饰符是确定性触发的回调在会话执行的特定生命周期节点因此我们可以将这些生命周期事件用作检查点以实施安全策略我们现在来看其中两个修饰符

让我们回到简化版的智能体循环如同西西弗斯 LLM在每次迭代时输出一个操作此操作由Executor执行其输出被反馈给LLM 用于下一次迭代第一个修饰符让我们在工具运行前拦截工具调用这就是.onToolCall修饰符它保证在LLM输出工具调用时触发在执行器运行工具之前重要的是如果此回调抛出错误则工具永远不会被执行控制权立即返回循环这是强制执行用户确认的最佳位置

回到我们的Loose Leaf智能体我们注意到OrderTeaTool 存在金融影响这让我非常担忧所以我希望始终请求用户确认在运行此工具并转账之前

为此我们在profile中添加 .onToolCall回调由于此回调在每次工具调用前运行我们首先检查当前工具是否为OrderTeaTool 如果不是我们立即返回并运行工具但如果是我们向用户请求确认如果用户未确认我们抛出一个错误从而阻止工具运行你需要用自己的实现替换 confirmWithUser()函数关键是通过将确认逻辑仅添加到代码中的这一处我们就能覆盖所有工具调用总结一下记住此修饰符在每次工具执行前运行工具本身在此回调返回之前不会运行你可以抛出错误来阻止工具执行从概念上来说 .onToolCall修饰符在模型输出上运行现在来看一个帮助我们检查模型输入的修饰符 .historyTransform会触发在脚本呈现给模型进行推断之前这发生在新用户请求到来时以及循环的每次迭代时转换会修改脚本的尾部我们将用它进行spotlighting 和脱敏PII 回到我们的示例注意到 PostAndFetchPublicFeedTool() 返回公开动态中的帖子攻击者可以轻松向该动态发布提示词注入我们必须对此动态的输出保持警惕因此我们要用特殊标签标记此输出以告知模型这是不受信任的数据

我们通过添加Spotlighting分隔符来实现在.historyTransform中在回调中我们首先遍历所有条目只关注来自我们工具的 toolOutput条目所有其他条目不加修改地复制到输出脚本然后我们修改toolOutput条目我们遍历各片段对每个相关片段添加分隔标签在此示例中我们使用尖括号 "<>" 你将使用适合你模型的标签 delimit()函数（我们将跳过其实现）将文本片段转换为含分隔内容的片段现在来看脱敏处理实际上我们可以用完全相同的方法脱敏敏感数据我们只需替换delimit()函数替换为脱敏函数用于替换敏感数据使用占位符字符串""

有一件重要的事需要记住转换后的条目仅限于当前推断迭代这意味着这些修改在下一次推断调用中不可见你必须再次应用它们对于你希望持久化的耗时转换使用@SessionProperty注解这让你可以对会话历史应用有状态的转换详情请查阅文档我们了解了生命周期事件修饰符如何提供确定性钩子以注入安全策略但我没有介绍所有修饰符该框架还提供了许多其他修饰符这些修饰符在智能体循环中的其他关键节点触发该框架还允许你构建自己的profile修饰符并将其打包为可复用的组件请查阅Foundation Models文档以深入了解以及许多其他强大功能好的现在切换到App Intents App Intents让你将App 与Apple 智能集成以及Siri Spotlight Shortcuts等丰富系统体验在本次演讲的剩余部分我将假设你已熟悉App Intents 和App Schemas的基础知识如需深入了解请查看下方链接的精彩会话简单回顾一下当App Intent 采用intent schema时它就作为工具提供给Siri模型例如我们的DeletePhotoIntent 采用photos域中的 deleteAssets schema 从概念上说这将Delete Photo操作添加到Siri工具箱这让Siri可以对我们的工具定义进行推理并调用它来响应用户查询然而由于由模型决定调用哪个intent 提示词注入攻击可能让攻击者滥用你的App 用于数据外泄或其他恶意目的例如此处我们使用外部上下文运行该上下文可能试图在无用户意图的情况下运行Delete Photo 如果此类攻击成功而我们没有任何其他确定性护栏尽管Willy已大力警告那么就存在数据丢失的真实风险具有外部可见副作用或破坏性的操作对攻击者而言是诱人的目标 App Intents系统内置了多项护栏帮助开发者缓解此类攻击我们将介绍其中两项确认和锁屏身份验证让我们从确认开始系统使用基于风险的情境确认机制这会自动对App中的高风险操作触发确认操作的风险通过考量静态操作元数据来确定以及动态系统状态当选定一个intent时在执行之前系统将使用intent的风险元数据调用风险评估系统我们稍后将回到此元数据风险评估组件还将系统的动态状态作为输入它综合两者来确定此intent的总体风险如果风险被认为较高将要求用户确认如果用户确认此操作正常控制流将继续 intent将被执行

另一方面如果用户拒绝执行将被阻止 intent将永远不会被调用现在回到风险元数据

风险元数据是分配给所有intent的内部风险数据它基于intent的副作用某些副作用被认为比其他副作用风险更高例如删除设备状态的intent 例如我们的DeletePhotoIntent 可被视为高风险外泄数据的intent也可能造成损害如果在被污染的上下文中执行对共享内容执行操作的更新intent也可能存在风险系统更可能对高风险工具触发确认那么风险元数据如何与你的App Intent关联

当intent采用schema时风险元数据会自动分配给它你无需做任何额外操作从技术上来说是schema 与风险元数据相关联例如 deleteAssets schema用于删除照片因此具有破坏性副作用因此我们的DeletePhotoIntent 也被分配了这个破坏性副作用但风险是微妙的让我们定义一个设置冲泡计时器的新intent 此intent采用createTimer schema 我们如何看待此schema的风险从表面上看攻击者似乎无法造成太大损害通过创建计时器因此我们可能不需要确认此操作但深入分析该schema定义了一个可选的String属性作为计时器的标签记住由模型决定你的intent的参数因此提示词注入可能导致此标签被设置为攻击者控制的值后续的列出计时器查询可以提取这些攻击者控制的数据到那个上下文中从而污染新的上下文因此完全跳过确认是不安全的例如在createTimer等情况下系统能理解这些中间情况这正是我们之前讨论的动态系统状态发挥作用的地方此信息用于确定是否需要确认在当前系统上下文中从而捕捉此操作的动态风险总结一下记住确认系统是情境性的基于风险的你的intent将从它们采用的 intent schema继承副作用具有高风险副作用的操作更可能需要确认现在来看锁屏身份验证如你所知你可以在锁屏上与Siri互动无需先解锁设备这对于完成快速任务很方便或双手占用时但这也意味着实际持有锁定设备的攻击者可能通过Siri调用你的intent 因此如果不小心你的App 可能被此类攻击者利用用于数据外泄或执行恶意操作针对此类威胁的主要缓解措施是要求用户解锁其设备然后再运行高风险操作来看如何在App Intent上定义身份验证策略对于自定义App Intents 你可以明确设置身份验证行为通过设置authenticationPolicy属性例如由于我们的 DeletePhotoIntent具有破坏性我们希望确保它不在锁定设备上运行因此我们明确设置 authenticationPolicy属性设置为.requiresAuthentication 当你的@AppIntent采用 intent schema时情况略有不同

Schema有自己的默认 authenticationPolicy 此策略在内部基于每个schema的敏感性设置以及它处理的数据与副作用类似你的intent会自动分配到 schema的默认策略但如果你想仍可明确覆盖默认策略唯一的限制是你的策略必须更严格例如假设默认策略 deleteAssets schema的默认策略是 .requiresAuthentication 那么由于我们没有在此明确设置策略我们的@AppIntent被分配了相同的策略并将在运行前要求身份验证

但如果我们尝试设置更弱的策略我们会收到一个有用的构建错误提示允许的最低策略总结一下身份验证是针对锁屏攻击的重要缓解措施 Schema有自己的默认身份验证策略这些策略被分配给你的App Intent 你可以覆盖schema策略但只能将其设置得更严格请结合锁屏行为来审查你的intent 现在回到Willy！讲得好 Akshay！总结一下你的智能体应用的后续步骤包括制定威胁模型这需要找出提示词中不受信任的上下文来源然后确定每个操作的风险级别基于其副作用在Akshay的指导下你有了一些起步参考关于如何为你的App 实施最佳缓解措施使用Foundation Models框架和App Intents框架现在让我们提高标准立刻注入你的防御措施！

12:50 - Tools

// Tools

struct OrderTeaTool: Tool {
  let name = "orderTeaTool"
  let description: String = "Orders a particular quantity of a tea from the store."
  // Arguments
  // Implementation
}

struct PostAndFetchPublicFeedTool: Tool {
  let name = "postAndFetchPublicFeedTool"
  let description: String = "Posts a message to the public feed.”
  // Arguments
  // Implementation
}

13:13 - Profile

// Profile

class LooseLeafAgent {
  struct DefaultProfile: LanguageModelSession.DynamicProfile {
    var body: some DynamicProfile {
      Profile {
        Instructions("You are a helpful, tea-loving assistant ... ")

        OrderTeaTool()
        PostAndFetchPublicFeedTool()
      }
      .model(SystemLanguageModel())
    }
  }
}

13:28 - Session

// Session 

class LooseLeafAgent {
  struct DefaultProfile: LanguageModelSession.DynamicProfile {
    var body: some DynamicProfile {
      Profile {
        Instructions("You are a helpful, tea-loving assistant ... ")

        OrderTeaTool()
        PostAndFetchPublicFeedTool()
      }
      .model(SystemLanguageModel())
    }
  }

  let session: LanguageModelSession

  public init() {
    self.session = LanguageModelSession(profile: DefaultProfile())
  }
}

14:33 - Confirmation via onToolCall

// Confirmation via onToolCall

var body: some DynamicProfile {
  Profile {
    Instructions("You are a helpful, tea-loving assistant ... ")

    OrderTeaTool() // Financial impact; risky tool.
    // Other Tools
  }
  
  .onToolCall { call in
    guard call.toolName == "orderTeaTool" else {
      return
    }
    guard ConfirmationAction.confirmWithUser() else {
      throw LooseLeafError.userConfirmationDenied
    }
  }
}

15:56 - Spotlighting via historyTransform

// Spotlighting via historyTransform

var body: some DynamicProfile {
  Profile {
    Instructions("You are a helpful, tea-loving assistant ... ")

    PostAndFetchPublicFeedTool() // Returns untrusted data; requires spotlighting
    // Other Tools
  }

  .historyTransform {γentries in
    entries.map { entry in
      guard case .toolOutput(var toolOutput) = entry,
        toolOutput.toolName == "postAndFetchPublicFeedTool"
      else {
        return entry
      }
    }
    toolOutput.segments = toolOutput.segments.map { segment in
      delimit(segment: segment,
              startDelimiter: "<<UNTRUSTED>>",
              endDelimiter: "<</UNTRUSTED>>")
    }
    return .toolOutput(toolOutput)
  }
}

func delimit(segment: Transcript.Segment,
             startDelimiter: String,
             endDelimiter: String) -> Transcript.Segment

16:48 - Redaction via historyTransform

// Redaction via historyTransform

var body: some DynamicProfile {
  Profile {
    Instructions("You are a helpful, tea-loving assistant ... ")

    PostAndFetchPublicFeedTool() // Returns untrusted data; requires spotlighting
    // Other Tools
  }

  .historyTransform {γentries in
    entries.map { entry in
      guard case .toolOutput(var toolOutput) = entry,
        toolOutput.toolName == "postAndFetchPublicFeedTool"
      else {
        return entry
      }
    }
    toolOutput.segments = toolOutput.segments.map { segment in
      redactPII(segment: segment,
                placeHolder: "[REDACTED]")
    }
    return .toolOutput(toolOutput)
  }
}

func redactPII(segment: Transcript.Segment,
               placeHolder: String) -> Transcript.Segment

23:08 - Intent authentication policy

// Intent authentication policy

struct DeletePhotoIntent: DeleteIntent {
    var entities: [LooseLeafPhoto]

    static var authenticationPolicy: IntentAuthenticationPolicy = .requiresAuthentication

    func perform() async throws -> some IntentResult {
        // Implementation
    }
}

23:27 - Schema authentication policy

// Schema authentication policy

@AppIntent(schema: .photos.deleteAssets)
struct DeletePhotoIntent {
    var entities: [LooseLeafPhoto]

    // Example: Schema default authentication policy is .requiresAuthentication

    func perform() async throws -> some IntentResult {
        // Implementation
    }
}

0:00 - Introduction
Agentic features introduce new security risks. We cover how to identify those risks and introduce techniques and APIs to protect your users.
2:06 - Risks
Understand new risks that come with using agentic systems in your app.
6:32 - Threat modeling
A threat-modeling exercise for your app can help identify which context sources are untrusted and which actions are potentially risky.
11:56 - Implementing mitigations
Learn about concrete tools that you can use to secure your agentic app.
12:03 - Foundation Models
If you use the Foundation Models framework, learn how to inject security checkpoints into your agent execution.
17:55 - App Intents
Learn about security mitigations available when integrating with Apple Intelligence using App Intents.

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

保护你的 App：智能体功能的风险缓解

章节

资源

相关视频

WWDC26

WWDC25

WWDC20