AI产业链地图·知识库 越狱攻击 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/越狱攻击
更新 2026·06·17
概念 技术 / 术语

越狱攻击

Jailbreak · Jailbreaking · LLM 越狱

越狱攻击(Jailbreak)= 通过角色扮演 / 故事化包装 / 多轮诱导 / 逻辑陷阱等手段,绕过 LLM 的安全对齐(RLHF / Constitutional AI 防护),让模型输出原本被拒绝的违规内容(武器制作 / 仇恨言论 / 违法操作步骤 / 隐私信息等)。

越狱攻击 CONCEPT · 概念
首次提出
2022
关键参与方
[[Lakera 360集团 深信服]]
反向引用
5 处 · 来自 3
归属 AI安全大模型安全5-144-03

越狱攻击

诱导大模型输出违规 / 有害 / 越权内容的攻击手法,与 提示词注入 并列为 LLM 两大新型威胁。

一句话定义

越狱攻击(Jailbreak)= 通过角色扮演 / 故事化包装 / 多轮诱导 / 逻辑陷阱等手段,绕过 LLM 的安全对齐(RLHF / Constitutional AI 防护),让模型输出原本被拒绝的违规内容(武器制作 / 仇恨言论 / 违法操作步骤 / 隐私信息等)。

主要变种

类型 描述 例子
角色扮演越狱 "假装你是 DAN(Do Anything Now)" DAN 系列经典 prompt
故事化越狱 把违规请求包装成虚构创作 "我在写小说,请描述..."
多轮诱导 分步骤逐步突破防线 先讨论历史再问操作步骤
逻辑陷阱 利用 LLM 推理缺陷 "如果不...就会..."的虚假逻辑
多语言绕过 用小语种或编码请求 Base64 / 摩尔斯电码

与提示词注入区别

维度 提示词注入 越狱攻击
目标 让 LLM 执行注入的指令 让 LLM 输出违规内容
来源 可能来自外部数据(间接) 通常用户直接发起
OWASP LLM-01 LLM-01 子类

防御产品

厂商 产品
360集团 360智鉴 / 360智盾
Lakera Lakera Guard
深信服 安全 GPT 内容安全模块

与 AI 产业链关系

∈ belongs_to::5-14-AI赋能安全应用 ∈ belongs_to::4-03-模型生态与工具链