越狱攻击
诱导大模型输出违规 / 有害 / 越权内容的攻击手法,与 提示词注入 并列为 LLM 两大新型威胁。
一句话定义
越狱攻击(Jailbreak)= 通过角色扮演 / 故事化包装 / 多轮诱导 / 逻辑陷阱等手段,绕过 LLM 的安全对齐(RLHF / Constitutional AI 防护),让模型输出原本被拒绝的违规内容(武器制作 / 仇恨言论 / 违法操作步骤 / 隐私信息等)。
主要变种
| 类型 | 描述 | 例子 |
|---|---|---|
| 角色扮演越狱 | "假装你是 DAN(Do Anything Now)" | DAN 系列经典 prompt |
| 故事化越狱 | 把违规请求包装成虚构创作 | "我在写小说,请描述..." |
| 多轮诱导 | 分步骤逐步突破防线 | 先讨论历史再问操作步骤 |
| 逻辑陷阱 | 利用 LLM 推理缺陷 | "如果不...就会..."的虚假逻辑 |
| 多语言绕过 | 用小语种或编码请求 | Base64 / 摩尔斯电码 |
与提示词注入区别
| 维度 | 提示词注入 | 越狱攻击 |
|---|---|---|
| 目标 | 让 LLM 执行注入的指令 | 让 LLM 输出违规内容 |
| 来源 | 可能来自外部数据(间接) | 通常用户直接发起 |
| OWASP | LLM-01 | LLM-01 子类 |
防御产品
| 厂商 | 产品 |
|---|---|
| 360集团 | 360智鉴 / 360智盾 |
| Lakera | Lakera Guard |
| 深信服 | 安全 GPT 内容安全模块 |
与 AI 产业链关系
∈ belongs_to::5-14-AI赋能安全应用 ∈ belongs_to::4-03-模型生态与工具链