AI产业链地图·知识库 越狱攻击 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/越狱攻击

更新 2026·06·17

概念技术 / 术语

越狱攻击

Jailbreak · Jailbreaking · LLM 越狱

越狱攻击（Jailbreak）= 通过角色扮演 / 故事化包装 / 多轮诱导 / 逻辑陷阱等手段，绕过 LLM 的安全对齐（RLHF / Constitutional AI 防护），让模型输出原本被拒绝的违规内容（武器制作 / 仇恨言论 / 违法操作步骤 / 隐私信息等）。

越狱攻击 CONCEPT · 概念

首次提出: 2022
关键参与方: [[Lakera 360集团深信服]]
反向引用: 5 处 · 来自 3 页

归属 AI安全大模型安全5-144-03

越狱攻击

诱导大模型输出违规 / 有害 / 越权内容的攻击手法，与提示词注入并列为 LLM 两大新型威胁。

一句话定义

越狱攻击（Jailbreak）= 通过角色扮演 / 故事化包装 / 多轮诱导 / 逻辑陷阱等手段，绕过 LLM 的安全对齐（RLHF / Constitutional AI 防护），让模型输出原本被拒绝的违规内容（武器制作 / 仇恨言论 / 违法操作步骤 / 隐私信息等）。

主要变种

类型	描述	例子
角色扮演越狱	"假装你是 DAN（Do Anything Now）"	DAN 系列经典 prompt
故事化越狱	把违规请求包装成虚构创作	"我在写小说，请描述..."
多轮诱导	分步骤逐步突破防线	先讨论历史再问操作步骤
逻辑陷阱	利用 LLM 推理缺陷	"如果不...就会..."的虚假逻辑
多语言绕过	用小语种或编码请求	Base64 / 摩尔斯电码

与提示词注入区别

维度	提示词注入	越狱攻击
目标	让 LLM 执行注入的指令	让 LLM 输出违规内容
来源	可能来自外部数据（间接）	通常用户直接发起
OWASP	LLM-01	LLM-01 子类

防御产品

厂商	产品
360集团	360智鉴 / 360智盾
Lakera	Lakera Guard
深信服	安全 GPT 内容安全模块

与 AI 产业链关系

∈ belongs_to::5-14-AI赋能安全应用 ∈ belongs_to::4-03-模型生态与工具链

反向引用链接到本页

反向引用 5

按引用量 ↓

… 4. **AI 攻防对抗**：[[加特林]] 自动化渗透、[[燔石]] 漏洞挖掘、[[网络靶场]] / [[数字风洞]] 5. **[[大模型安全]]**：[[提示词注入]] / 越狱攻击 / 数据投毒 / 模型窃取防护 6. **AI XDR / 联动防御**：[[AI XDR]] 资产 + 脆弱性 + 基线 + 跨域攻击全流程 ## 上下游关系 …

… 3. **攻防对抗 AI vs AI** — 攻击 AI 钓鱼 / 智能社工 vs 防御 AI 威胁狩猎 / 自动渗透 4. **大模型安全独立赛道** — [[提示词注入]] / 越狱攻击 / Agent 身份冒充，>50% 增速 5. **从边界防护到信任重构** — 零信任 + AI 动态身份验证 6. **安全大模型生态化** — [[大模型安全联盟]] 推动技术标准 …

查看原文 →

… ## 一句话定义大模型安全 = 涵盖 LLM 全生命周期（训练 / 微调 / 部署 / 推理）的所有安全风险与防护方案，包括对抗输入（[[提示词注入]] / 越狱攻击）、训练数据安全（数据投毒）、模型本身安全（模型窃取 / 后门）、输出安全（违规内容 / 隐私泄露）、Agent 系统安全（工具调用劫持）等。 ## 四大核心风险 …

… 门）、输出安全（违规内容 / 隐私泄露）、Agent 系统安全（工具调用劫持）等。 ## 四大核心风险 | 风险 | 描述 | |---|---| | **[[提示词注入]]** | 攻击者通过精心设计的提示词绕过安全限制 | | **越狱攻击** | 诱导模型输出有害或违规内容 | | **数据投毒** | 在训练数据中植入恶意样本影响模型行为 | | **模型窃取** | 通过 API 调用推断模型参数和结构 | …

查看原文 →

… - 推动 [[5-14-AI赋能安全应用]] 子行业从"AI 化升级传统安全"向"AI vs AI 攻防对抗"演进 - 把 [[大模型安全]]（[[提示词注入]] / 越狱攻击 / 数据投毒）做成独立赛道（>50% 年增速） ## 与 AI 产业链关系 ↑ up::[[安全大模型]] — 是"以模制模"的技术载体 ↓ down::[[大模型安全]] — 应对 AI 自身安全问题 …

查看原文 →