AI产业链地图·知识库 强化学习交易 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/强化学习交易

更新 2026·06·17

概念技术 / 术语

强化学习交易

Reinforcement Learning Trading · RL Trading · 强化学习量化

强化学习交易把交易过程建模为 MDP（马尔可夫决策过程）：

强化学习交易 CONCEPT · 概念

首次提出: 2017
关键参与方: [[幻方量化]] · [[九坤投资]] · [[DeepSeek]]
反向引用: 3 处 · 来自 3 页

归属量化交易强化学习AI算法第五层

强化学习交易

Reinforcement Learning Trading。用强化学习（RL）算法做交易决策：定义 state（市场状态）、action（买/卖/持）、reward（收益/夏普）。代表：幻方量化的深度学习量化模型 + DeepSeek 用于策略生成。

定义

强化学习交易把交易过程建模为 MDP（马尔可夫决策过程）：

State：市场状态（价格、量、因子、宏观指标）
Action：交易决策（买入 / 卖出 / 持有 / 仓位调整）
Reward：收益、夏普比率、最大回撤等
Policy：从 state 到 action 的映射函数（用神经网络拟合）

技术细节

主要算法

DQN（2013）：用 Q-Network 估值动作
A2C / PPO（2017）：actor-critic 架构
GRPO（DeepSeek 2024）：Group Relative Policy Optimization
多目标 RL：同时优化收益、风险、流动性

应用层次

层次	任务	代表
策略生成	选股、择时	端到端 RL
组合优化	仓位分配	多资产 RL
执行优化	拆单、路由	智能订单路由
高频做市	报价决策	微观市场结构 RL

主要玩家

幻方量化 — 2016-10 上线首个深度学习交易仓位
九坤投资 — AI Lab 三大实验室之一
DeepSeek — GRPO 算法在 R1 模型中应用

在 AI 产业链中的角色

强化学习交易是 传统多因子 → 大模型量化 的中间过渡范式。其优势在于：

端到端：跳过特征工程，直接从原始数据学策略
自适应：策略可在线学习市场风格切换
多目标：同时优化收益、风险、成本

挑战：

样本稀缺：金融数据噪声大、非平稳
模拟与现实差距：回测过拟合是普遍问题
可解释性：监管对黑箱模型的要求

演进历史

2013：DQN 发布
2017：A2C / PPO 主流化
2020+：深度 RL 广泛应用于量化
2024：DeepSeek GRPO 用于推理模型训练
2025+：大模型 + RL 端到端策略生成

相关概念

量化交易 / 多因子模型 / DeepSeek

∈ belongs_to::5-09-AI金融-量化交易

反向引用链接到本页

反向引用 3

按引用量 ↓

… **量化交易范式**：[[多因子模型]] → 深度学习（CNN/LSTM/Transformer）→ 大模型端到端策略生成 4. **多模态另类数据**：卫星图像 / 舆情文本 / 交易行为 / 路演视频情绪 5. **强化学习交易**：强化学习交易 — 策略生成 + 执行优化 + 风险控制 6. **Agent 化**：单 Agent → 多 Agent 协作 → 自主 Agent 7. **联邦学习 + 隐私计算**：金融数据不出域的合规建模方案 …

查看原文 →

… - 1992：Fama-French 三因子 - 2010-2020：中国量化私募黄金期 - 2020+：被深度学习替代 ## 相关概念 - [[量化交易]] / 强化学习交易∈ belongs_to::[[5-09-AI金融-量化交易]] ## 已废弃叙述 <details> <summary>2026-05-29 数字订正：Fama-French 五因子年份 2014 → 2015（依据 Journal …

查看原文 →

… - 2016：[[幻方量化]] 上线首个深度学习交易仓位 - 2023：DeepSeek 成立（量化 AI 反哺） - 2025：大模型时代量化收益分化加剧 ## 相关概念 - [[多因子模型]] / 强化学习交易 / [[DeepSeek]] ∈ belongs_to::[[5-09-AI金融-量化交易]] …

查看原文 →